자연어처리/LLM 모델

[LLM] GPT 1 - 논문요약

Suda_777 2022. 11. 8. 18:46
반응형

 

논문: Improving Language Understanding by Generative Pre-Training

논문 링크

1. Introduction

  • 이전 연구의 어려운점
    • 기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음
    • Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명
  • unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안
  • 최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용
  • 데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가정
  • 해당 모델은 레이블링 되지 않은 데이터로 모델의 초기 파라미터를 학습하고, 이렇게 최적화된 파라미터를 원하는 목적에 맞게 labeled data로 추가 학습
  • 모델 구조: Transformer

2. Related Work

2.1. Semi-supervised learning for NLP

  • 생략

2.2. Usupervised pre-training

  • 목적: supervised learning에 좋은 초기화 포인트를 제공
  • transformer구조: 더 긴 길이의 언어적인 구조를 포착
  • generative pre-training: transfer시 아주 작은 변화만을 필요

2.3. Auxiliary training objectives

  • 생략

3. Framework

  • 2개의 스테이지
    • 1 스테이지: 큰 corpus에서 Language Model(LM) 학습
    • 2 스테이지: Fine-tunning

3.1. Usupervised pre-training

  • standard langugage modeling objective 사용
    • 코퍼스 υ={u1,u2,...,un}
    • k는 context window의 크기
    • Θ는 신경망 모델의 파라미터
    • likelihood를 최대화 하는 방식
      $$L1(\upsilon)=\sum_i logP(u_i|u_{i−k},...,u_{i−1};Θ)$$
  • languge model
    • multi-layer Transformer decoder
    • multi-head self-attention 구조
    • U = { u − k , . . . , u − 1 } 가 토큰의 문맥 벡터
    • n이 layer의 수
    • $ W_e $ 는 토큰 임베딩 행렬
    • $ W_p $ 가 포지션 임베딩 행렬

$$h_0 = UW_e + W_p$$
$$h_1 = transformerblock(h_{l-1})∀_i \in [1, n]$$
$$P(\upsilon) = softmax(h_nW_e^T)$$

3.2. Supervised fine-tuning

  • labeled dataset C를 가지는 target task에 대해 파라미터를 조정
  • 예측모델

$$P(y|x^1,...,x^m) = softmax(h^m_lW_y) $$

  • 목적함수

$$L_2(C) = \sum_{(x,y)}logP(y|x^1,...,x^m)$$

  • auxiliary objective
    • 일반화를 향상시키고 모델이 빠르게 수렴
    • λ는 하이퍼파라미터

$$L_3 = L_2(C) + \lambda* L_1(C)$$

3.3 Task-specific input transformations

  • Textual entailment task: 전제 p, 가설 h 를 연결
  • Similarity task: 입력 시퀀스를 delimiter token과 함께 수정, 두 문장의 h representation 을 생성
  • Question Answering and Commonsense Reasoning: document context와 question을 delimiter token을 사용해 각 답변과 연결

4. Experiments

  • 생략

5. Analysis

  • 성능이 좋았다

6. Conclusion

  • generative pre-training과 discriminative fine-tuning 사용
  • 특정 task에 종속되지 않고 일반적으로 성능을 잘 낼 수 있음
반응형