인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

자연어처리 12

[Langchain] Langchain v0.3 패치노트

1. 변경 사항내부적으로 모든 패키지가 Pydantic 1에서 Pydantic 2로 업그레이드됨. 이제 Pydantic 2를 완전히 지원Pydantic 1은 2024년 6월에 지원 종료Python 3.8은 2024년 10월에 지원이 종료2. 새롭게 추가된 기능2.1. the latest integration packages 패치,기존 langchain-community 의 내용이 integration packages로 많이 넘어감  langchain-openai langchain-anthropic langchain-google-vertexai langchain-aws langchain-huggingface langchain-mistralai2.2. tool의 정의와 사용이 단순화됨2.2.1. Tool 정..

[LLM] Google Gemini - 논문 요약

논문 연도: 2023제미나이 논문 링크 Gemini: A Family of Highly Capable Multimodal ModelsThis report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from comparxiv.org0. abstract'제미나이' 크기로는  '울트라(Ultra)', '프로(Pro)', '나노(Nano)'..

[LLM] Llama2 - 논문 요약 (2)

논문 제목 : Llama 2: Open Foundation and Fine-Tuned Chat Models (논문링크)발행연도: 2023 0. AbstractLlama2는 파라미터가 70억~700억개로, 거대 모델이다.사람의 평가를 기반으로 함 (도움이 되는지, 안전한지)상세한 모델 사용법을 제공한다.1. Introduction거대 언어 모델(Large Language Models, LLMs)은 전문적인 지식을 요구하는 다양한 분야서 AI 시스턴트로서의 가능성을 보여주고 있음Reinforcement Learning with Human Feedback (RLHF): 사람의 피드백을 반영해 학습하는 기법사전훈련 모델 공개되어 있음, 연구 및 상업용으로 일반 대중에게 공개Llama2Llama 1의 업데이트 버..

[LLM] Llama2 모델 (1)

1. 개요지난 시간에 새로운 모델을 학습 하기 위해서는, 비용이 너무 커 개인이 실행하기는 어렵다는 것을 깨닳았다.이번에는 오픈소스 사전 학습된(Pretrain)모델을 파인튜닝(Finetunning)하기위해, 유명한 오픈소스 모델 중 하나인 Llama2 모델을 사용하는 방법부터 알아 보자2. 모델 종류2.1.설명Llama 2는 7B, 13B, 70B 등 다양한 매개변수 크기의 모델이 있음chat: 대화 사용 사례에 최적화된 모델hf: RLHF(인간 피드백)으로 조정2.2. 종류meta-llama/Llama-2-7b (링크)meta-llama/Llama-2-7b-hf(링크)meta-llama/Llama-2-7b-chat(링크)meta-llama/Llama-2-7b-chat-hf(링크)나머지는 Llama2 ..

[LLM] Llama1 - 논문 요약

지난 시간 Llama2에대해 공부했었는데, 모델의 세부적인 내용이 Llama1 과 비슷하다고 하여 논문을 한번 보는 것이 좋겠다고 생각해 요약을 해보는 것도 좋은 경험일 것 같아 글을 작성합니다. - 논문 링크 LLaMA: Open and Efficient Foundation Language Models - Meta Research | Meta ResearchWe introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to...research.facebook.co..

[Langchain] 랭체인 무엇을 공부해야 하나?

랭체인은 대화형 언어모델을 이용하기 위해여러가지 작업을 연결할 수 있도록 만든 라이브러리 이다. 어떤 것들을 배워야 할지 정리해 보자. 1. 모델어떤 모델을 가져올 수 있는지 알아보는 것이 필요하다.대표적으로 ChatGPT, Llama3 가 있으며, 기타 다양한 모델을 HuggingFace에서 불러와 사용할 수 있다.2. 체인체인의 각 요소들을 어떻게 연결할 수 있는지3. Retriever(검색)사용자가 질의한 내용에 대해, 가장 관련성이 높은 정보를 검색해 반환한다.특정 분야의 관련성이 높은 정보를 미리 준비하면, 그에 맞는 대답을 할 수 있는 LLM 모델이 된다.Retriever는 다양한 종류가 있다.4. 프롬프트 탬플릿- 들어온 문장이나 단어를 어떻게 모델에 최종적으로 입력할지 결정한다.- 필요하다..

[자연어 처리] 프롬프트 튜닝(Prompt Tuning)

1. 개요 프롬프트 튜닝(Prompt Tuning)은 인공지능 모델, 특히 자연어 처리 모델을 사용할 때 사용되는 기법. 이 기법의 핵심은 모델에 입력되는 프롬프트(명령이나 요청 등의 텍스트)를 조정하여, 모델이 원하는 방식으로 응답하도록 하는 것. 2. 특징 정확한 명령어 선택: 모델이 이해할 수 있고, 원하는 결과를 낼 수 있는 명확한 단어와 문장을 사용 문맥 설정: 때때로 프롬프트에 추가적인 정보나 문맥을 제공하여 모델이 보다 정확한 답변을 할 수 있도록 한다. 반복적 시도와 수정: 원하는 결과를 얻기 위해 프롬프트를 여러 번 시도하고 수정하는 과정 모델의 특성 이해: 다른 모델은 각각 다른 방식으로 반응하기 때문에, 사용하는 모델의 특성을 이해하는 것이 중요 3. 목표 같은 모델을 사용하면서도 다..

자연어처리 2023.12.06

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기

1. 데이터셋 뭐가 있을까?huggingface에서 데이터셋을 불러오는 방법이다. 1.1. 먼저 huggingface의 datasets을 설치한다.!pip install datasets1.2. 다음으로 다운받을 수 있는 데이터셋의 리트스를 확인해 봅시다.from datasets import list_datasetsdatasets_list = list_datasets()print('데이터의 개수:', len(datasets_list))print(datasets_list)69289데이터셋의 개수를 확인해보면 엄청 방대하다는 것을 알 수 있다.  그렇다면 어떠한 데이터들을 사용하는 것이 좋을까..?1.3. LLM에서 사용한 여러 데이터셋wikitext 설명: 'wikitext' 시리즈는 위키백과에서 추출한 데..

LLM이란? 그리고 공부하려면

1. LLM 개요Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다. LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-a..

[LLM] GPT3 - 논문요약

논문 링크 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org1. Introduction최근 연구의 한계몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능pretrain 과정에서 큰 정보가 학습..

반응형