목차
반응형
1. Introduction
- 최근 연구의 한계
- 몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능
- pretrain 과정에서 큰 정보가 학습되지만 fine-tunning 과정에서 협소해짐. 성능이 과장된 느낌이 남
- 사람은 새로운 Task를 배우기 위해 많은 데이터가 필요하지 않다.
- 위 문제를 극복하기 위해 meta-learning 연구가 활발함.
- 또 다른 트렌드는 모델 크기를 키우는 것
- 이번 연구에서 few-shot, one-shot, zero-shot 성능 비교한다.
- few-shot learning (in-context learning) : 많은 예제를 넣음
- one-shot learning : 하나의 예제만을 허용함
- zero-shot learning : 예제는 사용하지 않음. 태스크에 대한 설명, 지시사항만을 모델에게 줌
- few-shot, one-shot, zero-shot 모두 성능은 좋았다.
2. Approach
- 그동안에는 학습 시 세팅에 대한 정의한 내용.
- fine-tunning (FT)
- 원하는 테스트에 맞게 명시적으로 학습하는 과정
- 수천, 수백만의 라벨링 데이터 사용
- 장점은 성능이 좋음
- 단점은 일반화에 실패할 수 있는 가능성, 대형 데이터셋이 필요함
- 이 논문에서는 fine-tunning 하지 않음
- Few-Shot (FS)
- K개의 문맥 과 completion을 제공함. (예: 번역시 k개의 영어문장과, 번역된 문장)
- 장점
- 작업별 데이터의 필요성이 크게 감소
- 좁은 범위를 학습할 가능성이 줄어든다
- 단점
- 결과가 좋은편이 아님
- 소량의 작업별 데이터가 필요
- One-Shot (1S)
- 단 한번의 설명만 허용함
- 나머지는 few-shot과 동일
- One-Shot은 일부 태스크가 사람과 의사소통하는 방식이 가장 비슷
- Zero-Shot(0S)
- 아무런 설명도 허용하지 않음
- 가장 편리한 방법이지만 세팅이 어렵다.
- 일부 셋팅은 사람들이 태스크를 수행하는 방식과 가장 가깝다
- fine-tunning (FT)
2.1. Model and Architectures
- GPT-2와 같은 구조의 모델을 사용
- 8가지 크기의 모델을 훈련함
- gpt-3은 1750억 개의 매개변수를 사용
2.2. Training Dataset
- 거의 1조개의 단어
- 퀄리티를 높이기 위해 3단계로 나눔
- CommonCrawl 데이터에서 필터링함. 고품질 참조 코퍼스와 유서도 기반으로 필터링
- 문서 수준에서 중복 제거
- 고품질의 말뭉치를 추가. 다양성을 늘리기 위해.
- 훈련을 진행하는 동안 더 높은 품질의 데이터셋이 샘플링 -> 과적합 감소
3. Results
- 여러 테스트에서 테스트한 결과
4. Limitations
- 긴 구절에 대해 일관성을 잃고 모순된 문장을 포함한다.
- 양방향 아키텍처, 잡음 제거와 같은 학습 방식이 필요함.
- 비디오, 물리적 상호 작용과 같은 경험의 영향으로, 문맥적인 어령무이 있음.
- 사전 훈령 중 샘플의 효율성이 낮다.
- 모델이 고정관념, 편견이 있는 콘텐츠를 생성 할 수 있다.
5. Conclusion
- 1750억 개의 매개변수 언어 모델 연구
- 매우 큰 언어 모델이 일반적인 언어 개발에 중요 요소가 될 수 있음을 시사함.
반응형
'자연어처리 > LLM 모델' 카테고리의 다른 글
LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기 (3) | 2023.10.11 |
---|---|
LLM이란? 그리고 공부하려면 (2) | 2023.10.04 |
[LLM] GPT4 - 논문 리뷰 (0) | 2023.05.09 |
[LLM] GPT2 - 논문요약 (0) | 2022.11.15 |
[LLM] GPT 1 - 논문요약 (0) | 2022.11.08 |