인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

자연어처리 48

Pytorch Transformers 설치 (2)

이 글은 2025.01.28 기준이다. 1. 파이썬 환경 구성먼저 pyenv를 이용해 적절한 python을 설치해 준다.pyenv install 3.12.4 설치된 파이썬 확인pyenv versions 파이썬 가상환경을 만들어 준다.pyenv virtualenv 3.12.4 my_env 가상환경 확인pyenv virtualenvs 가상환경 실행activate my_env 2. Pytorch 설치Pytorch 버전은 2.5.1 이 최신이다. MPS (Apple Silicon) 지원 설치 (Mac M1/M2) 또는 CPU 전용 설치pip install torch torchvision torchaudio Cuda를 사용하는 경우예시: CUDA 11.8pip install torch torchvision tor..

LLM을 위한 Pytorch와 HuggingFace 개요 (1)

0. 개요LLM을 위한 Pytorch에서는Pytorch 기본 사용방법을 이미 알고 있으며,딥러닝에 대한 기본지식이 있는 사람들을 대상으로LLM을 다루기 위해 Pytorch를 어떻게 사용해야 하는지를 정리할 것이다. 또한, 기본적으로 HuggingFace의 Transformers를 사용할 수 있어야 하기 때문에함께 사용법을 알아가도록 하자. 1. Pytorch와 LLMLLM을 다루기 위한 강력한 도구이다.Pytorch로 다양한 작업을 수행할 수 있다.모델 설계학습 - 사전 학습(Pre-training), 분산 학습최적화 (Optimizer)디버깅 및 배포모델 미세 조정(Fine-Tunning)사후 작업 (Post-Training) - 양자화(Quantization), 프루닝(Pruning), Distill..

[LLM] DeepSeek 실행 방법 with Pytorch

0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올라와 있어실행이 가능하다고 하니, 한번 실행해 보도록 하자. huggingface 링크 deepseek-ai/DeepSeek-R1 · Hugging FaceDeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prelhug..

[LLM] DeepSeek-R1 논문 리뷰

논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으로 제작오픈소스로 공개 최근 DeepSeek-R1 으로인해, 미국 인공지능 회사들의 주가가 크게 떨어졌다.저렴한 가격으로 높은 성능의 모델을 만들었기 때문이다.게다가 OpenAI는 모델이 비공개인데, DeepSeek는 오픈소스이다! DeepSeek를 다운받아 pytorch로 실행하는 글은 다음 글에서 확인해보자 (다음 글 링크) [LLM] DeepSeek 실행 방법 with Pytorch0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올..

[langchain] Message 다루기

0. 개요메세지는 채팅모델의 입력/출력 입니다.메세지는 내용(content) 와 역할(role)로 구성되어 있습니다.  메세지를 다루는 세가지 방법1. Trim2. Filter3. 동일 유형의 메세지 병합  메세지는 모델과의 대화를 저장하고 추적하는데 주로 사용 1. Trim 기법1.1. trim_messages 란이전 대화 내용을 적절히 잘라서 LLM이 처리할 수 있도록 조정하는 역할llm은 메세지의 크기가 제한되어 있기 때문에, 토큰의 수를 다듬어야 한다. trim 기법은 크게 두가지가 있다.토큰수 기반 Trimming (Trimming based on token count)메시지 수를 기반 Trimming (Trimming based on message count) 1.2. Trimming 예시 코..

[langchain] LangChain Expression Language(LCEL)

1. LangChain Expression Language(LCEL) 소개LangChain 표현 언어, 혹은 LCEL은 LangChain 컴포넌트들을 연결하는 선언적 방식입니다. LCEL은 처음부터 프로토타입을 코드 수정 없이 바로 프로덕션에 배포할 수 있도록 설계되었습니다. 간단한 “프롬프트 + LLM” 체인부터 100단계 이상의 복잡한 체인까지, 많은 사용자들이 LCEL 체인을 성공적으로 프로덕션에서 운영하고 있습니다.2. LCEL 사용 이유2.1. streaming supportLCEL로 체인을 구축하면 가장 빠른 첫 토큰 출력 시간을 확보할 수 있습니다 (첫 번째 출력 조각이 나올 때까지 걸리는 시간). 예를 들어, 일부 체인의 경우 LLM에서 나오는 토큰을 바로 스트리밍 출력 파서로 전송하여, ..

[Langchain] Langchain v0.3 패치노트

1. 변경 사항내부적으로 모든 패키지가 Pydantic 1에서 Pydantic 2로 업그레이드됨. 이제 Pydantic 2를 완전히 지원Pydantic 1은 2024년 6월에 지원 종료Python 3.8은 2024년 10월에 지원이 종료2. 새롭게 추가된 기능2.1. the latest integration packages 패치,기존 langchain-community 의 내용이 integration packages로 많이 넘어감  langchain-openai langchain-anthropic langchain-google-vertexai langchain-aws langchain-huggingface langchain-mistralai2.2. tool의 정의와 사용이 단순화됨2.2.1. Tool 정..

[langchain] Prompt templates(프롬프트 탬플릿) 만들기

1. LLM의 입력값 형식입력 데이터를 기준으로 두가지 종류의 LLM으로 나눌 수 있습니다.프롬프트를 만들기 전에, 모델에 어떤 형식으로 데이터가 들어가는지 확인해 봅시다.1.1. 완성형 LLM (Completion-based LLM)동작 방식: 주어진 프롬프트에 이어질 텍스트를 예측하여 생성사용 사례: 코드 자동 완성, 문장 또는 단락 생성, 문서 작성 보조입력 데이터: 문자열입력 데이터 예시"안녕하세요." 1.2. 대화형 LLM (Chat-based LLM)동작 방식: 사용자와의 대화를 통해 상호 작용하며, 이전 대화 내용을 기반으로 응답사용 사례: 챗봇, 대화 기반 학습 도구입력 데이터: Json입력 데이터 예시[ {"role": "user", "content": "안녕하세요."}, {"..

[langchain] LLM(Large Language Model) 사용하기

0. 개요랭체인에서 LLM을 불러오는 방법중 크게는 세가지가 있다.1. api 형태로, 요청만 할 수 있는 모델 (chatgpt 등등)2. 로컬로 다운 받아, 커스터마이징이 가능한 모델 (HuggingFace)3. 로컬에 다운 받을 수 있으나, 수정할 수는 없는 모델 (Ollama) Langchain에 올라오는 LLM 모델은 매달 빠르게 변경되고 추가되기 때문에,가장 많이 사용할 법한 분류를 기준으로 소개하겠다.(정말 모델은 엄청 다양하고 많다.)1.  API에 요청1.1. 설명내용 출처: How to chain runnablesAPI에 요청 하는 방법은, 다른 서버의 자원을 사용하기 때문에 유료로 사용한다고 볼 수 있다. 장점은, 사용하기 편리하고 대체로 성능이 좋다는 점이다. 가격도 서버를 직접 운영..

[LLM] Google Gemini - 논문 요약

논문 연도: 2023제미나이 논문 링크 Gemini: A Family of Highly Capable Multimodal ModelsThis report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from comparxiv.org0. abstract'제미나이' 크기로는  '울트라(Ultra)', '프로(Pro)', '나노(Nano)'..

반응형