인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] GPT3 - 논문요약

Suda_777 2022. 11. 22. 21:02

목차

    반응형

     

    논문 링크

     

    Language Models are Few-Shot Learners

    Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi

    arxiv.org

    1. Introduction

    • 최근 연구의 한계
      • 몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능
      • pretrain 과정에서 큰 정보가 학습되지만 fine-tunning 과정에서 협소해짐. 성능이 과장된 느낌이 남
      • 사람은 새로운 Task를 배우기 위해 많은 데이터가 필요하지 않다.
    • 위 문제를 극복하기 위해 meta-learning 연구가 활발함.
    • 또 다른 트렌드는 모델 크기를 키우는 것
    • 이번 연구에서 few-shot, one-shot, zero-shot 성능 비교한다.
      • few-shot learning (in-context learning) : 많은 예제를 넣음
      • one-shot learning : 하나의 예제만을 허용함
      • zero-shot learning : 예제는 사용하지 않음. 태스크에 대한 설명, 지시사항만을 모델에게 줌
    • few-shot, one-shot, zero-shot 모두 성능은 좋았다.

    2. Approach

    • 그동안에는 학습 시 세팅에 대한 정의한 내용.
      • fine-tunning (FT)
        • 원하는 테스트에 맞게 명시적으로 학습하는 과정
        • 수천, 수백만의 라벨링 데이터 사용
        • 장점은 성능이 좋음
        • 단점은 일반화에 실패할 수 있는 가능성, 대형 데이터셋이 필요함
        • 이 논문에서는 fine-tunning 하지 않음
      • Few-Shot (FS)
        • K개의 문맥 과 completion을 제공함. (예: 번역시 k개의 영어문장과, 번역된 문장)
        • 장점
          • 작업별 데이터의 필요성이 크게 감소
          • 좁은 범위를 학습할 가능성이 줄어든다
        • 단점
          • 결과가 좋은편이 아님
          • 소량의 작업별 데이터가 필요
      • One-Shot (1S)
        • 단 한번의 설명만 허용함
        • 나머지는 few-shot과 동일
        • One-Shot은 일부 태스크가 사람과 의사소통하는 방식이 가장 비슷
      • Zero-Shot(0S)
        • 아무런 설명도 허용하지 않음
        • 가장 편리한 방법이지만 세팅이 어렵다.
        • 일부 셋팅은 사람들이 태스크를 수행하는 방식과 가장 가깝다

    2.1. Model and Architectures

    • GPT-2와 같은 구조의 모델을 사용
    • 8가지 크기의 모델을 훈련함
    • gpt-3은 1750억 개의 매개변수를 사용

    2.2. Training Dataset

    • 거의 1조개의 단어
    • 퀄리티를 높이기 위해 3단계로 나눔
      • CommonCrawl 데이터에서 필터링함. 고품질 참조 코퍼스와 유서도 기반으로 필터링
      • 문서 수준에서 중복 제거
      • 고품질의 말뭉치를 추가. 다양성을 늘리기 위해.
    • 훈련을 진행하는 동안 더 높은 품질의 데이터셋이 샘플링 -> 과적합 감소

    3. Results

    • 여러 테스트에서 테스트한 결과

    4. Limitations

    • 긴 구절에 대해 일관성을 잃고 모순된 문장을 포함한다.
    • 양방향 아키텍처, 잡음 제거와 같은 학습 방식이 필요함.
    • 비디오, 물리적 상호 작용과 같은 경험의 영향으로, 문맥적인 어령무이 있음.
    • 사전 훈령 중 샘플의 효율성이 낮다.
    • 모델이 고정관념, 편견이 있는 콘텐츠를 생성 할 수 있다.

    5. Conclusion

    • 1750억 개의 매개변수 언어 모델 연구
    • 매우 큰 언어 모델이 일반적인 언어 개발에 중요 요소가 될 수 있음을 시사함.
    반응형