인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] GPT2 - 논문요약

Suda_777 2022. 11. 15. 20:56
반응형

 

논문 링크

1. Abstract

  • 해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)
  • zero-shot task transfer 방법으로 연구
    • 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임

2. Introduction

  • 범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)
  • 기존연구
    • 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합
    • self-attention block 사용했음.
    • 이러한 방법들은 여전히 지도학습을 필요
  • 현 연구
    • 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행

3. Approach

  • 기존 언어 모델(Language Model, ML)

  • p(output | input,task)
    • 같은 입력이라도 어떠한 Task인지에 따라 결과가 달라질 수 있도록 한다.
    • 예1: 번역 - (프랑스어로 번역, 영어 텍스트, 프랑스어 텍스트)
    • 예2: 독해 - (질문에 대답, 문서, 질문, 대답)

3.1. Training Dataset

  • 사람이 필터링한 글만 사용
    • 데이터: Web Text
    • Reddit에서 3karma 이상의 글, 45만개의 링크 사용
    • 위키피디아 글 제거
    • 40GB 텍스트 확보

3.2. Input Representation

  • Byte Pair Encoding(BPE)는 글자와 단어의 중간 단위를 사용
    • 자주 나오는 단어와 자주 나오지 않는 단어의 입력을 적절히 채우기위해
    • byte수준의 BPE의 사전은 256개만의 token (토근 개수 줄어듬)
    • 그치만 직접 사용하는 것은 최적이 아님
      • 예시: dog. dog! dog?
    • 위 입력표현 장점
      • 단어 수준의 경험 + 문자수준 접근법의 일반성
      • 어떠한 unicode 문자열이든 확률을 부여할 수 있음

3.3. Model

  • Transformer 구조
  • Gpt-1 구조와 비슷, 약간의 차이
    • Layer 정규화가 sub-block의 입력으로 옮겨졌다.
    • residual path의 누적에 관한 부분의 초기화 방법이 변경
      •  residual layer의 가중치에 을 곱함 (N: residual layer의 수)
    • 토큰 증가, batch size 증가

4. Experiments

  • 여러 테스트에 실험해본 내용임 (다양한 기준으로 평가)
  • Language Modeling, Children’s Boot Test, LAMBADA , Winograd Schema Challenge, Reading Comprehension, Summarization, Question Answering, Generalization vs Memorization 
  • Translation 에서는 성능이 안좋았음

5. Related Work

  • 생략

6. Discussion

  • 독해에서 좋은 성능
  • 요약에서 기본적인 성능, 실사용에는 무리가 있음
  • Bert 에서 언급한 단방향의 비효율성

7. Conclusion

  • 해당 연구는 모델이 zero-shot으로 다양한 과제에서 잘 수행할 가능성을 제시.
반응형