티스토리

인공지능 개발자 수다

검색하기

[LLM] GPT 1 - 논문요약

자연어처리/LLM 모델

[LLM] GPT 1 - 논문요약

Suda_777 2022. 11. 8. 18:46

논문: Improving Language Understanding by Generative Pre-Training

1. Introduction

이전 연구의 어려운점
- 기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음
- Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명
unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안
최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용
데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가정
해당 모델은 레이블링 되지 않은 데이터로 모델의 초기 파라미터를 학습하고, 이렇게 최적화된 파라미터를 원하는 목적에 맞게 labeled data로 추가 학습
모델 구조: Transformer

2. Related Work

2.1. Semi-supervised learning for NLP

생략

2.2. Usupervised pre-training

목적: supervised learning에 좋은 초기화 포인트를 제공
transformer구조: 더 긴 길이의 언어적인 구조를 포착
generative pre-training: transfer시 아주 작은 변화만을 필요

2.3. Auxiliary training objectives

생략

3. Framework

2개의 스테이지
- 1 스테이지: 큰 corpus에서 Language Model(LM) 학습
- 2 스테이지: Fine-tunning

3.1. Usupervised pre-training

standard langugage modeling objective 사용
- 코퍼스 υ={u1,u2,...,un}
- k는 context window의 크기
- Θ는 신경망 모델의 파라미터
- likelihood를 최대화 하는 방식
  $$L1(\upsilon)=\sum_i logP(u_i|u_{i−k},...,u_{i−1};Θ)$$
languge model
- multi-layer Transformer decoder
- multi-head self-attention 구조
- U = { u − k , . . . , u − 1 } 가 토큰의 문맥 벡터
- n이 layer의 수
- $ W_e $ 는 토큰 임베딩 행렬
- $ W_p $ 가 포지션 임베딩 행렬

$$h_0 = UW_e + W_p$$
$$h_1 = transformerblock(h_{l-1})∀_i \in [1, n]$$
$$P(\upsilon) = softmax(h_nW_e^T)$$

3.2. Supervised fine-tuning

labeled dataset C를 가지는 target task에 대해 파라미터를 조정
예측모델

$$P(y|x^1,...,x^m) = softmax(h^m_lW_y) $$

목적함수

$$L_2(C) = \sum_{(x,y)}logP(y|x^1,...,x^m)$$

auxiliary objective
- 일반화를 향상시키고 모델이 빠르게 수렴
- λ는 하이퍼파라미터

$$L_3 = L_2(C) + \lambda* L_1(C)$$

3.3 Task-specific input transformations

Textual entailment task: 전제 p, 가설 h 를 연결
Similarity task: 입력 시퀀스를 delimiter token과 함께 수정, 두 문장의 h representation 을 생성
Question Answering and Commonsense Reasoning: document context와 question을 delimiter token을 사용해 각 답변과 연결

4. Experiments

생략

5. Analysis

성능이 좋았다

6. Conclusion

generative pre-training과 discriminative fine-tuning 사용
특정 task에 종속되지 않고 일반적으로 성능을 잘 낼 수 있음

저작자표시 비영리 변경금지