자연어처리/LLM 모델

LLM이란? 그리고 공부하려면

Suda_777 2023. 10. 4. 18:06
반응형

1. LLM 개요

Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다.

 

LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.

LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습하는 것입니다. 이렇게 학습된 LLM은 주어진 입력에 대해 적절한 출력을 생성할 수 있습니다.

 

2. LLM이 하는 일

- 질문에 대한 답변

- 문서 요약

- 특정 주제에 대한 글을 작성

등등...

 

3. 특징

3.1. 학습 방식

  • "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습

3.2. 장점

  • transfer learning이 가능하여 한번 학습된 모델을 다른 도메인 혹은 작업으로 전이학습 할 수 있다는 장점

 

4. 무엇을 공부해야 하는가?

4.1. 모델

최신 모델 종류는 아래와 같이 많이 있다. 

  • Bert (2018, google)
  • XLNet(2019, google)
  • GLaM (2019, google)
  • LaMDA(2022, google)
  • PaLM(2022, google)
  • PaLM 2(2023, google)
  • GPT-3(2020, OpenAI)
  • GPT-4(2023, OpenAI)
  • Galactica(2022, Meta)
  • LLaMA (2023, Meta)

시간의 흐름에 따라 어떠한 연구들이 존재하였으며, 어떻게 발전해왔는지 공부하는 것도 좋겠다.

 

4.2. Transfer Learning을 통한 학습

  • 직접 자연어 데이터를 데이터를 모아보기.
  • 모델을 학습해둔 것을 모아둔 곳
    • Hugging Face's Transformers 라이브러리
    • TensorFlow Hub
반응형