인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

자연어처리/LLM 모델 10

[LLM] Google Gemini - 논문 요약

논문 연도: 2023제미나이 논문 링크 Gemini: A Family of Highly Capable Multimodal ModelsThis report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from comparxiv.org0. abstract'제미나이' 크기로는  '울트라(Ultra)', '프로(Pro)', '나노(Nano)'..

[LLM] Llama2 - 논문 요약 (2)

논문 제목 : Llama 2: Open Foundation and Fine-Tuned Chat Models (논문링크)발행연도: 2023 0. AbstractLlama2는 파라미터가 70억~700억개로, 거대 모델이다.사람의 평가를 기반으로 함 (도움이 되는지, 안전한지)상세한 모델 사용법을 제공한다.1. Introduction거대 언어 모델(Large Language Models, LLMs)은 전문적인 지식을 요구하는 다양한 분야서 AI 시스턴트로서의 가능성을 보여주고 있음Reinforcement Learning with Human Feedback (RLHF): 사람의 피드백을 반영해 학습하는 기법사전훈련 모델 공개되어 있음, 연구 및 상업용으로 일반 대중에게 공개Llama2Llama 1의 업데이트 버..

[LLM] Llama2 모델 (1)

1. 개요지난 시간에 새로운 모델을 학습 하기 위해서는, 비용이 너무 커 개인이 실행하기는 어렵다는 것을 깨닳았다.이번에는 오픈소스 사전 학습된(Pretrain)모델을 파인튜닝(Finetunning)하기위해, 유명한 오픈소스 모델 중 하나인 Llama2 모델을 사용하는 방법부터 알아 보자2. 모델 종류2.1.설명Llama 2는 7B, 13B, 70B 등 다양한 매개변수 크기의 모델이 있음chat: 대화 사용 사례에 최적화된 모델hf: RLHF(인간 피드백)으로 조정2.2. 종류meta-llama/Llama-2-7b (링크)meta-llama/Llama-2-7b-hf(링크)meta-llama/Llama-2-7b-chat(링크)meta-llama/Llama-2-7b-chat-hf(링크)나머지는 Llama2 ..

[LLM] Llama1 - 논문 요약

지난 시간 Llama2에대해 공부했었는데, 모델의 세부적인 내용이 Llama1 과 비슷하다고 하여 논문을 한번 보는 것이 좋겠다고 생각해 요약을 해보는 것도 좋은 경험일 것 같아 글을 작성합니다. - 논문 링크 LLaMA: Open and Efficient Foundation Language Models - Meta Research | Meta ResearchWe introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to...research.facebook.co..

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기

1. 데이터셋 뭐가 있을까?huggingface에서 데이터셋을 불러오는 방법이다. 1.1. 먼저 huggingface의 datasets을 설치한다.!pip install datasets1.2. 다음으로 다운받을 수 있는 데이터셋의 리트스를 확인해 봅시다.from datasets import list_datasetsdatasets_list = list_datasets()print('데이터의 개수:', len(datasets_list))print(datasets_list)69289데이터셋의 개수를 확인해보면 엄청 방대하다는 것을 알 수 있다.  그렇다면 어떠한 데이터들을 사용하는 것이 좋을까..?1.3. LLM에서 사용한 여러 데이터셋wikitext 설명: 'wikitext' 시리즈는 위키백과에서 추출한 데..

LLM이란? 그리고 공부하려면

1. LLM 개요Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다. LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-a..

[LLM] GPT4 - 논문 리뷰

논문 제출 날짜: 2023년 3월 15일논문 링크 GPT-4 Technical ReportWe report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professionalarxiv.org 0.  AbstractGPT-4는 이미지와 텍스트 입력을 받아 텍스트 출력을 생성할 수 있는 다중 모달 모델이다. 이 모델은 다음 토큰을 예측하는 ..

[LLM] GPT3 - 논문요약

논문 링크 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org1. Introduction최근 연구의 한계몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능pretrain 과정에서 큰 정보가 학습..

[LLM] GPT2 - 논문요약

논문 링크1. Abstract해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)zero-shot task transfer 방법으로 연구추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임2. Introduction범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)기존연구가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합self-attention block 사용했음.이러한 방법들은 여전히 지도학습을 필요현 연구어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행3. Approach기존 언어 모델(Language Mod..

[LLM] GPT 1 - 논문요약

논문: Improving Language Understanding by Generative Pre-Training논문 링크1. Introduction이전 연구의 어려운점기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가..

반응형