인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] GPT2 - 논문요약

Suda_777 2022. 11. 15. 20:56

목차

    반응형

     

    논문 링크

    1. Abstract

    • 해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)
    • zero-shot task transfer 방법으로 연구
      • 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임

    2. Introduction

    • 범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)
    • 기존연구
      • 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합
      • self-attention block 사용했음.
      • 이러한 방법들은 여전히 지도학습을 필요
    • 현 연구
      • 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행

    3. Approach

    • 기존 언어 모델(Language Model, ML)

    • p(output | input,task)
      • 같은 입력이라도 어떠한 Task인지에 따라 결과가 달라질 수 있도록 한다.
      • 예1: 번역 - (프랑스어로 번역, 영어 텍스트, 프랑스어 텍스트)
      • 예2: 독해 - (질문에 대답, 문서, 질문, 대답)

    3.1. Training Dataset

    • 사람이 필터링한 글만 사용
      • 데이터: Web Text
      • Reddit에서 3karma 이상의 글, 45만개의 링크 사용
      • 위키피디아 글 제거
      • 40GB 텍스트 확보

    3.2. Input Representation

    • Byte Pair Encoding(BPE)는 글자와 단어의 중간 단위를 사용
      • 자주 나오는 단어와 자주 나오지 않는 단어의 입력을 적절히 채우기위해
      • byte수준의 BPE의 사전은 256개만의 token (토근 개수 줄어듬)
      • 그치만 직접 사용하는 것은 최적이 아님
        • 예시: dog. dog! dog?
      • 위 입력표현 장점
        • 단어 수준의 경험 + 문자수준 접근법의 일반성
        • 어떠한 unicode 문자열이든 확률을 부여할 수 있음

    3.3. Model

    • Transformer 구조
    • Gpt-1 구조와 비슷, 약간의 차이
      • Layer 정규화가 sub-block의 입력으로 옮겨졌다.
      • residual path의 누적에 관한 부분의 초기화 방법이 변경
        •  residual layer의 가중치에 을 곱함 (N: residual layer의 수)
      • 토큰 증가, batch size 증가

    4. Experiments

    • 여러 테스트에 실험해본 내용임 (다양한 기준으로 평가)
    • Language Modeling, Children’s Boot Test, LAMBADA , Winograd Schema Challenge, Reading Comprehension, Summarization, Question Answering, Generalization vs Memorization 
    • Translation 에서는 성능이 안좋았음

    5. Related Work

    • 생략

    6. Discussion

    • 독해에서 좋은 성능
    • 요약에서 기본적인 성능, 실사용에는 무리가 있음
    • Bert 에서 언급한 단방향의 비효율성

    7. Conclusion

    • 해당 연구는 모델이 zero-shot으로 다양한 과제에서 잘 수행할 가능성을 제시.
    반응형