LLM이란? 그리고 공부하려면

자연어처리/LLM 모델

LLM이란? 그리고 공부하려면

Suda_777 2023. 10. 4. 18:06

1. LLM 개요

Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다.

LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.

LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습하는 것입니다. 이렇게 학습된 LLM은 주어진 입력에 대해 적절한 출력을 생성할 수 있습니다.

2. LLM이 하는 일

- 질문에 대한 답변

- 문서 요약

- 특정 주제에 대한 글을 작성

등등...

3. 특징

3.1. 학습 방식

"transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습

3.2. 장점

transfer learning이 가능하여 한번 학습된 모델을 다른 도메인 혹은 작업으로 전이학습 할 수 있다는 장점

4. 무엇을 공부해야 하는가?

4.1. 모델

최신 모델 종류는 아래와 같이 많이 있다.

Bert (2018, google)
XLNet(2019, google)
GLaM (2019, google)
LaMDA(2022, google)
PaLM(2022, google)
PaLM 2(2023, google)
GPT-3(2020, OpenAI)
GPT-4(2023, OpenAI)
Galactica(2022, Meta)
LLaMA (2023, Meta)

시간의 흐름에 따라 어떠한 연구들이 존재하였으며, 어떻게 발전해왔는지 공부하는 것도 좋겠다.

4.2. Transfer Learning을 통한 학습

직접 자연어 데이터를 데이터를 모아보기.
모델을 학습해둔 것을 모아둔 곳
- Hugging Face's Transformers 라이브러리
- TensorFlow Hub

저작자표시 비영리 변경금지