인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

전체 글 90

[파이썬] 매직메소드(Magic Methods)

1. 개요 파이썬의 매직 메소드(Magic Methods)는 특별한 의미를 가지는 메소드로, 언더스코어(__)로 시작하고 끝나는 특별한 이름을 가지고 있습니다. 매직 메소드는 사용자 정의 객체들이 내장 타입처럼 자연스럽게 행동하도록 만들어 줍니다. 즉, 개발자가 만든 객체가 자동으로 가지게 되는 함수들을 뜻합니다. 2. 상세 내용 2.1. 객체 초기화 및 소멸 __init__(self, ...): 객체 생성 시 초기화를 위해 호출됩니다. 필요한 초기 설정을 수행합니다. __del__(self): 객체가 소멸될 때 호출됩니다. 필요한 정리 작업을 수행합니다. 2.2. 문자열 표현 __str__(self): 객체의 비공식적이고, 사용자가 이해하기 쉬운 문자열 표현을 위해 사용됩니다. print() 함수 호출..

[파이썬] 제너레이터(Generators)와 이터레이터(Iterators)

1. 설명 제너레이터는 yield 키워드를 사용 이 키워드는 함수의 실행을 일시 중지하고 값을 반환한 다음, 다음 호출 때 실행을 재개할 수 있게 합니다. 제너레이터 함수는 호출될 때 함수 내의 코드를 실행하기 시작하는 것이 아니라, 이터레이터 객체를 반환합니다. 이 이터레이터는 .next() 메서드를 사용하여 값을 요청할 때마다 제너레이터 함수 내의 코드를 실행합니다. 2. 특징 지연 실행 제너레이터는 필요할 때까지 값을 계산하지 않습니다. 즉, 반복의 각 단계에서 다음 값이 필요할 때만 그 값을 생성합니다. 이러한 '지연 실행' 방식은 메모리 사용을 최적화하고, 특히 크거나 무한한 데이터 시퀀스를 다룰 때 유용합니다. 상태 유지 제너레이터는 현재 위치(상태)를 기억합니다. 즉, yield 키워드를 통..

Torchvision(토치비전) 사용법

1. Torchvision(토치비전)은 언제 사용? 컴퓨터 비전 프로젝트에서 사용함. 2. Torchvision(토치비전)의 주요 기능 요약 데이터셋 접근 및 사용: torchvision은 MNIST, CIFAR-10, ImageNet 등 다양한 사전 정의된 데이터셋을 제공합니다. 이를 통해 쉽게 데이터를 로드하고 실험할 수 있습니다. 데이터 변환(Transformation): 이미지 데이터를 전처리하거나 증강하기 위한 다양한 변환 기능을 제공합니다. 예를 들어, 이미지의 크기를 조정하거나, 회전, 뒤집기 등의 작업을 쉽게 수행할 수 있습니다. 모델: 사전 훈련된 다양한 모델을 제공하여, 이미지 분류, 객체 탐지, 세그멘테이션 등 다양한 비전 태스크에 활용할 수 있습니다. ResNet, VGG, Alex..

Pytorch(파이토치) 텐서보드(tensorboard) 사용하기(1) - 스칼라

출처: 파이토치 튜토리얼 PyTorch로 TensorBoard 사용하기 TensorBoard는 머신러닝 실험을 위한 시각화 툴킷(toolkit)입니다. TensorBoard를 사용하면 손실 및 정확도와 같은 측정 항목을 추적 및 시각화하는 것, 모델 그래프를 시각화하는 것, 히스토그램을 보는 tutorials.pytorch.kr 1. 텐서보드(Tensorboard)는 언제 사용하면 좋을까? 모델 성능 분석: 모델의 학습 과정에서 손실과 정확도 같은 지표를 시각화하여, 모델이 잘 학습하고 있는지, 어떤 지점에서 문제가 발생하는지 분석할 때 유용합니다. 하이퍼파라미터 튜닝: 다양한 하이퍼파라미터의 조합을 실험하며 그 결과를 기록하고 비교할 때, TensorBoard를 사용하면 각 설정의 성능을 쉽게 비교하고..

FastAPI의 특징과 장단점

FastAPI는 2024년 현재 인공지능 분야에서 널리 사용되는 백엔드 프레임워크입니다. 최근에는 많은 서비스들이 마이크로 서비스 방식으로 서버를 구축하는 경향이 있는데, 특히 인공지능 분야에서는 파이썬을 사용하여 개발하는 경우가 많습니다. 이러한 맥락에서, 인공지능 서버를 별도로 구축하여 서비스에 통합하는 데 적합한 백엔드 프레임워크로서 FastAPI의 사용이 증가하고 있습니다. 1. 특징 및 장점 빠른 성능 Starlette (비동기 Python 웹 프레임워크): 비동기 프로그램이란, 특정 작업의 완료를 기다리지 않고 다른 작업을 동시에 수행할 수 있는 프로그래밍 방식 Pydantic: 효율적인 데이터 검증과 타입 변환, 고급 문자열 포매팅, 변수 어노테이션, 데이터 클래스 등을 효율적으로 사용 쉬운..

Fastapi 2024.01.14

[ChatGPT API] 파이썬으로 실습하기

참조 글: openai 홈페이지, Quickstart (링크) 1. 개요 ChatGPT API를 사용해 ChatGPT를 파이썬에서 사용하는 방법을 안내 하겠습니다. 2. 개발 환경 Python 3.7.1 버전 이상 (2024.01 기준) openai 라이브러리 설치 pip install --upgrade openai 3. API 키 발급받기 openai 홈페이지에 들어가서 로그인을 한 이후, API Keys 로 들어가 발급 받을 수 있다. (링크) Create new secret key 버튼을 눌러 발급받는다. 발급 받은 키는 복사해서, python 코드에서 사용하면 된다. - 추가 팁 api key를 소스코드에 올리는 것은 보안상 좋지 않다. mac 유저의 경우 `nano ~/.bash_profile`..

자연어처리 2024.01.01

[자연어 처리] 프롬프트 튜닝(Prompt Tuning)

1. 개요 프롬프트 튜닝(Prompt Tuning)은 인공지능 모델, 특히 자연어 처리 모델을 사용할 때 사용되는 기법. 이 기법의 핵심은 모델에 입력되는 프롬프트(명령이나 요청 등의 텍스트)를 조정하여, 모델이 원하는 방식으로 응답하도록 하는 것. 2. 특징 정확한 명령어 선택: 모델이 이해할 수 있고, 원하는 결과를 낼 수 있는 명확한 단어와 문장을 사용 문맥 설정: 때때로 프롬프트에 추가적인 정보나 문맥을 제공하여 모델이 보다 정확한 답변을 할 수 있도록 한다. 반복적 시도와 수정: 원하는 결과를 얻기 위해 프롬프트를 여러 번 시도하고 수정하는 과정 모델의 특성 이해: 다른 모델은 각각 다른 방식으로 반응하기 때문에, 사용하는 모델의 특성을 이해하는 것이 중요 3. 목표 같은 모델을 사용하면서도 다..

자연어처리 2023.12.06

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기

1. 데이터셋 뭐가 있을까?huggingface에서 데이터셋을 불러오는 방법이다. 1.1. 먼저 huggingface의 datasets을 설치한다.!pip install datasets1.2. 다음으로 다운받을 수 있는 데이터셋의 리트스를 확인해 봅시다.from datasets import list_datasetsdatasets_list = list_datasets()print('데이터의 개수:', len(datasets_list))print(datasets_list)69289데이터셋의 개수를 확인해보면 엄청 방대하다는 것을 알 수 있다.  그렇다면 어떠한 데이터들을 사용하는 것이 좋을까..?1.3. LLM에서 사용한 여러 데이터셋wikitext 설명: 'wikitext' 시리즈는 위키백과에서 추출한 데..

LLM이란? 그리고 공부하려면

1. LLM 개요Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다. LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-a..

[NLP] 토크나이저 (Tokenizer)

1. 토크나이저란 토크나이저는 텍스트를 단어, 서브 단어, 문장 부호 등의 토큰으로 나누는 작업을 수행 텍스트 전처리의 핵심 과정 2. 토크나이저의 종류 2.1. 공백 기반 토크나이저(Whitespace Tokenizer) 텍스트를 공백으로 구분하여 토크나이징하는 가장 간단한 방법입니다. 이 방법은 영어와 같은 공백으로 단어가 구분되는 언어에서 잘 작동한다. 중국어나 한국어와 같이 공백이 없거나 연결되어 있는 경우에는 적합하지 않습니다. 2.2. 기본 정규식 토크나이저(Regex Tokenizer) 정규식을 사용하여 텍스트를 분할하는 방식입니다. 사용자가 원하는 기준에 따라 토크나이징할 수 있으며, 공백 외에도 문장 부호 등 다른 문자를 기준으로 텍스트를 분할할 수 있습니다. 2.3. BPE(Byte P..

자연어처리 2023.07.07
반응형