인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

LLM이란? 그리고 공부하려면

Suda_777 2023. 10. 4. 18:06

목차

    반응형

    1. LLM 개요

    Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다.

     

    LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.

    LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습하는 것입니다. 이렇게 학습된 LLM은 주어진 입력에 대해 적절한 출력을 생성할 수 있습니다.

     

    2. LLM이 하는 일

    - 질문에 대한 답변

    - 문서 요약

    - 특정 주제에 대한 글을 작성

    등등...

     

    3. 특징

    3.1. 학습 방식

    • "transformer" 아키텍처와 "self-attention" 메커니즘이라는 방법을 사용하여 문장 내 단어들 사이의 관계를 학습

    3.2. 장점

    • transfer learning이 가능하여 한번 학습된 모델을 다른 도메인 혹은 작업으로 전이학습 할 수 있다는 장점

     

    4. 무엇을 공부해야 하는가?

    4.1. 모델

    최신 모델 종류는 아래와 같이 많이 있다. 

    • Bert (2018, google)
    • XLNet(2019, google)
    • GLaM (2019, google)
    • LaMDA(2022, google)
    • PaLM(2022, google)
    • PaLM 2(2023, google)
    • GPT-3(2020, OpenAI)
    • GPT-4(2023, OpenAI)
    • Galactica(2022, Meta)
    • LLaMA (2023, Meta)

    시간의 흐름에 따라 어떠한 연구들이 존재하였으며, 어떻게 발전해왔는지 공부하는 것도 좋겠다.

     

    4.2. Transfer Learning을 통한 학습

    • 직접 자연어 데이터를 데이터를 모아보기.
    • 모델을 학습해둔 것을 모아둔 곳
      • Hugging Face's Transformers 라이브러리
      • TensorFlow Hub
    반응형

    '자연어처리 > LLM 모델' 카테고리의 다른 글

    [LLM] Llama1 - 논문 요약  (5) 2024.09.11
    LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기  (3) 2023.10.11
    [LLM] GPT4 - 논문 리뷰  (0) 2023.05.09
    [LLM] GPT3 - 논문요약  (0) 2022.11.22
    [LLM] GPT2 - 논문요약  (0) 2022.11.15