'자연어처리' 카테고리의 글 목록 (3 Page)

[LLM] 데이터 준비 with huggingface (datasets) (4)

1. LLM 학습을 위한 데이터 형식모델에 따라 필요한 데이터의 형식은 달라질 수 있으나,일반적인 모델은 텍스트만 있으면 된다. (특이 케이스 형태의 데이터는 다음에 업데이트 하겠다.) 그리고 아래와 같은 태그를 붙여준다. (안붙여줘도 학습은 된다고 한다.) : 문장의 시작 : 문장의 끝 예를 들면 다음과 같다.data = [ {"text": " 인공지능은 사람의 언어를 학습할 수 있습니다. "}, {"text": " 사용자: 오늘 날씨 어때? "}] 만약 데이터를 직접 만들고 싶으면위와 같이 만들면 되겠다. 2. datasets를 이용해 데이터 불러오기datasets 는 huggingface에서 관리하는 데이터 셋을 불러오기 위한 라이브러리이다. 설치 명령어는 아래와 같다.pip instal..

자연어처리/LLM을 위한 코딩 2025.02.10

[langchain] 채팅 히스토리와 메모리 (History, Memory)

0. 개요LangChain에서 대화 히스토리는 Memory 에서 관리한다.모델이 이전에 어떤 맥락(대화 이력 등)을 가지고 있었는지 유지이전 대화 내용을 연속적으로 반영하기 위한 구조 관리 방법과거 대화 내용을 요약하거나핵심만 발췌하거나혹은 토큰 제한(token limit)에 맞춰서 관리 1. 채팅 히스토리(History)채팅 내용을 물리적인 공간에 저장/관리 하는 기능대화(메시지)들을 실제로 보관하는 역할in-memory, redis, postgres, file, mongodb 등 다양한 곳에 저장할 수 있음 1.1. 인메모리(in-memory)에 저장인메모리(in-memory) 대화 기록 저장ChatMessageHistory 클래스 사용프로그램이 동작하는 동안만 메시지를 기억하고, 종료 시에는 사라진..

자연어처리/Langchain 2025.02.05

[LLM] DeepSeek-R1 논문 핵심내용 요약

0. 개요이전 글에서 DeepSeek 논문 리뷰를 먼저 작성하고,이번 포스팅은 핵심 내용을 요약한 것이다.RL, GRPO, 체인 오브 소트 데이터, 다단계 학습 파이프라인 (Multi-Stage Training Pipeline) 에 대해 정리해 보자 이전 글 링크 [LLM] DeepSeek-R1 논문 리뷰논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으databoom.tistory.com 1. RL과 GRPO1.1. 기존 Supervised Fine-Tuning (SFT) 방식전통적으로 Supervised Fine-Tuning (S..

자연어처리/LLM 논문 요약 2025.02.02

LLM 모델 불러오기 실행하기 (Huggingface Transformers) (3)

1. 모델 선택먼저 HuggingFace에서 Models에 들어가사용하고 싶은 모델을 선택한다. 모델을 선택 했으면, Use this model을 클릭하고transformers를 클릭해 준다. 그러면 모델을 불러올 수 있는 코드를 두가지 확인할 수 있다. 2. 모델 직접적으로 불러오는 방법이 방법은 모델을 직접 불러오는 것이다. 불러오는 방법은 다음과 같다.실행을 위해 코드를 복사한다. (모델 이름, import 라이브러리 확인)모델을 gpu로 옮겨준다.토크나이저도 불러온다.import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer# 디바이스 설정 (GPU가 사용 가능하면 GPU, 아니면 CPU)device = torch.devic..

자연어처리/LLM을 위한 코딩 2025.01.28

Pytorch Transformers 설치 (2)

이 글은 2025.01.28 기준이다. 1. 파이썬 환경 구성먼저 pyenv를 이용해 적절한 python을 설치해 준다.pyenv install 3.12.4 설치된 파이썬 확인pyenv versions 파이썬 가상환경을 만들어 준다.pyenv virtualenv 3.12.4 my_env 가상환경 확인pyenv virtualenvs 가상환경 실행activate my_env 2. Pytorch 설치Pytorch 버전은 2.5.1 이 최신이다. MPS (Apple Silicon) 지원 설치 (Mac M1/M2) 또는 CPU 전용 설치pip install torch torchvision torchaudio Cuda를 사용하는 경우예시: CUDA 11.8pip install torch torchvision tor..

자연어처리/LLM을 위한 코딩 2025.01.28

LLM을 위한 Pytorch와 HuggingFace 개요 (1)

0. 개요LLM을 위한 Pytorch에서는Pytorch 기본 사용방법을 이미 알고 있으며,딥러닝에 대한 기본지식이 있는 사람들을 대상으로LLM을 다루기 위해 Pytorch를 어떻게 사용해야 하는지를 정리할 것이다. 또한, 기본적으로 HuggingFace의 Transformers를 사용할 수 있어야 하기 때문에함께 사용법을 알아가도록 하자. 1. Pytorch와 LLMLLM을 다루기 위한 강력한 도구이다.Pytorch로 다양한 작업을 수행할 수 있다.모델 설계학습 - 사전 학습(Pre-training), 분산 학습최적화 (Optimizer)디버깅 및 배포모델 미세 조정(Fine-Tunning)사후 작업 (Post-Training) - 양자화(Quantization), 프루닝(Pruning), Distill..

자연어처리/LLM을 위한 코딩 2025.01.28

[LLM] DeepSeek 실행 방법 with Pytorch

0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올라와 있어실행이 가능하다고 하니, 한번 실행해 보도록 하자. huggingface 링크 deepseek-ai/DeepSeek-R1 · Hugging FaceDeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prelhug..

자연어처리/LLM 논문 요약 2025.01.28

[LLM] DeepSeek-R1 논문 리뷰

논문을 읽게 된 배경연구 관련 설명(출처: CNN 뉴스, BBC 뉴스)중국의 인공지능 기업의 기술ChatGPT와 유사한 성능OpenAI, Google, Meta보다 훨씬 낮은 비용으로 제작됨이전보다 훨씬 적은 컴퓨팅 성능으로 제작오픈소스로 공개 최근 DeepSeek-R1 으로인해, 미국 인공지능 회사들의 주가가 크게 떨어졌다.저렴한 가격으로 높은 성능의 모델을 만들었기 때문이다.게다가 OpenAI는 모델이 비공개인데, DeepSeek는 오픈소스이다! DeepSeek를 다운받아 pytorch로 실행하는 글은 다음 글에서 확인해보자 (다음 글 링크) [LLM] DeepSeek 실행 방법 with Pytorch0. 개요DeepSeek가 현재 상당한 이슈가 되고 있다.게다가 오픈소스로 Huggingface에 올..

자연어처리/LLM 논문 요약 2025.01.28

[langchain] Message 다루기

0. 개요메세지는 채팅모델의 입력/출력 입니다.메세지는 내용(content) 와 역할(role)로 구성되어 있습니다. 메세지를 다루는 세가지 방법1. Trim2. Filter3. 동일 유형의 메세지 병합 메세지는 모델과의 대화를 저장하고 추적하는데 주로 사용 1. Trim 기법1.1. trim_messages 란이전 대화 내용을 적절히 잘라서 LLM이 처리할 수 있도록 조정하는 역할llm은 메세지의 크기가 제한되어 있기 때문에, 토큰의 수를 다듬어야 한다. trim 기법은 크게 두가지가 있다.토큰수 기반 Trimming (Trimming based on token count)메시지 수를 기반 Trimming (Trimming based on message count) 1.2. Trimming 예시 코..

자연어처리/Langchain 2024.10.04

[langchain] LangChain Expression Language(LCEL)

1. LangChain Expression Language(LCEL) 소개LangChain 표현 언어, 혹은 LCEL은 LangChain 컴포넌트들을 연결하는 선언적 방식입니다. LCEL은 처음부터 프로토타입을 코드 수정 없이 바로 프로덕션에 배포할 수 있도록 설계되었습니다. 간단한 “프롬프트 + LLM” 체인부터 100단계 이상의 복잡한 체인까지, 많은 사용자들이 LCEL 체인을 성공적으로 프로덕션에서 운영하고 있습니다.2. LCEL 사용 이유2.1. streaming supportLCEL로 체인을 구축하면 가장 빠른 첫 토큰 출력 시간을 확보할 수 있습니다 (첫 번째 출력 조각이 나올 때까지 걸리는 시간). 예를 들어, 일부 체인의 경우 LLM에서 나오는 토큰을 바로 스트리밍 출력 파서로 전송하여, ..

자연어처리/Langchain 2024.09.30

인공지능 개발자 수다

자연어처리 52

티스토리툴바