목차
반응형
1. LLM 개요
Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다.
LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.
LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습하는 것입니다. 이렇게 학습된 LLM은 주어진 입력에 대해 적절한 출력을 생성할 수 있습니다.
2. LLM이 하는 일
- 질문에 대한 답변
- 문서 요약
- 특정 주제에 대한 글을 작성
등등...
3. 특징
3.1. 학습 방식
- "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습
3.2. 장점
- transfer learning이 가능하여 한번 학습된 모델을 다른 도메인 혹은 작업으로 전이학습 할 수 있다는 장점
4. 무엇을 공부해야 하는가?
4.1. 모델
최신 모델 종류는 아래와 같이 많이 있다.
- Bert (2018, google)
- XLNet(2019, google)
- GLaM (2019, google)
- LaMDA(2022, google)
- PaLM(2022, google)
- PaLM 2(2023, google)
- GPT-3(2020, OpenAI)
- GPT-4(2023, OpenAI)
- Galactica(2022, Meta)
- LLaMA (2023, Meta)
시간의 흐름에 따라 어떠한 연구들이 존재하였으며, 어떻게 발전해왔는지 공부하는 것도 좋겠다.
4.2. Transfer Learning을 통한 학습
- 직접 자연어 데이터를 데이터를 모아보기.
- 모델을 학습해둔 것을 모아둔 곳
- Hugging Face's Transformers 라이브러리
- TensorFlow Hub
반응형
'자연어처리 > LLM 모델' 카테고리의 다른 글
[LLM] Llama1 - 논문 요약 (5) | 2024.09.11 |
---|---|
LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기 (3) | 2023.10.11 |
[LLM] GPT4 - 논문 리뷰 (0) | 2023.05.09 |
[LLM] GPT3 - 논문요약 (0) | 2022.11.22 |
[LLM] GPT2 - 논문요약 (0) | 2022.11.15 |