인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] GPT 1 - 논문요약

Suda_777 2022. 11. 8. 18:46

목차

    반응형

     

    논문: Improving Language Understanding by Generative Pre-Training

    논문 링크

    1. Introduction

    • 이전 연구의 어려운점
      • 기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음
      • Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명
    • unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안
    • 최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용
    • 데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가정
    • 해당 모델은 레이블링 되지 않은 데이터로 모델의 초기 파라미터를 학습하고, 이렇게 최적화된 파라미터를 원하는 목적에 맞게 labeled data로 추가 학습
    • 모델 구조: Transformer

    2. Related Work

    2.1. Semi-supervised learning for NLP

    • 생략

    2.2. Usupervised pre-training

    • 목적: supervised learning에 좋은 초기화 포인트를 제공
    • transformer구조: 더 긴 길이의 언어적인 구조를 포착
    • generative pre-training: transfer시 아주 작은 변화만을 필요

    2.3. Auxiliary training objectives

    • 생략

    3. Framework

    • 2개의 스테이지
      • 1 스테이지: 큰 corpus에서 Language Model(LM) 학습
      • 2 스테이지: Fine-tunning

    3.1. Usupervised pre-training

    • standard langugage modeling objective 사용
      • 코퍼스 υ={u1,u2,...,un}
      • k는 context window의 크기
      • Θ는 신경망 모델의 파라미터
      • likelihood를 최대화 하는 방식
        $$L1(\upsilon)=\sum_i logP(u_i|u_{i−k},...,u_{i−1};Θ)$$
    • languge model
      • multi-layer Transformer decoder
      • multi-head self-attention 구조
      • U = { u − k , . . . , u − 1 } 가 토큰의 문맥 벡터
      • n이 layer의 수
      • $ W_e $ 는 토큰 임베딩 행렬
      • $ W_p $ 가 포지션 임베딩 행렬

    $$h_0 = UW_e + W_p$$
    $$h_1 = transformerblock(h_{l-1})∀_i \in [1, n]$$
    $$P(\upsilon) = softmax(h_nW_e^T)$$

    3.2. Supervised fine-tuning

    • labeled dataset C를 가지는 target task에 대해 파라미터를 조정
    • 예측모델

    $$P(y|x^1,...,x^m) = softmax(h^m_lW_y) $$

    • 목적함수

    $$L_2(C) = \sum_{(x,y)}logP(y|x^1,...,x^m)$$

    • auxiliary objective
      • 일반화를 향상시키고 모델이 빠르게 수렴
      • λ는 하이퍼파라미터

    $$L_3 = L_2(C) + \lambda* L_1(C)$$

    3.3 Task-specific input transformations

    • Textual entailment task: 전제 p, 가설 h 를 연결
    • Similarity task: 입력 시퀀스를 delimiter token과 함께 수정, 두 문장의 h representation 을 생성
    • Question Answering and Commonsense Reasoning: document context와 question을 delimiter token을 사용해 각 답변과 연결

    4. Experiments

    • 생략

    5. Analysis

    • 성능이 좋았다

    6. Conclusion

    • generative pre-training과 discriminative fine-tuning 사용
    • 특정 task에 종속되지 않고 일반적으로 성능을 잘 낼 수 있음
    반응형