목차
반응형
1. Abstract
- 해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)
- zero-shot task transfer 방법으로 연구
- 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임
2. Introduction
- 범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)
- 기존연구
- 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합
- self-attention block 사용했음.
- 이러한 방법들은 여전히 지도학습을 필요
- 현 연구
- 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행
3. Approach
- 기존 언어 모델(Language Model, ML)
- p(output | input,task)
- 같은 입력이라도 어떠한 Task인지에 따라 결과가 달라질 수 있도록 한다.
- 예1: 번역 - (프랑스어로 번역, 영어 텍스트, 프랑스어 텍스트)
- 예2: 독해 - (질문에 대답, 문서, 질문, 대답)
3.1. Training Dataset
- 사람이 필터링한 글만 사용
- 데이터: Web Text
- Reddit에서 3karma 이상의 글, 45만개의 링크 사용
- 위키피디아 글 제거
- 40GB 텍스트 확보
3.2. Input Representation
- Byte Pair Encoding(BPE)는 글자와 단어의 중간 단위를 사용
- 자주 나오는 단어와 자주 나오지 않는 단어의 입력을 적절히 채우기위해
- byte수준의 BPE의 사전은 256개만의 token (토근 개수 줄어듬)
- 그치만 직접 사용하는 것은 최적이 아님
- 예시: dog. dog! dog?
- 위 입력표현 장점
- 단어 수준의 경험 + 문자수준 접근법의 일반성
- 어떠한 unicode 문자열이든 확률을 부여할 수 있음
3.3. Model
- Transformer 구조
- Gpt-1 구조와 비슷, 약간의 차이
- Layer 정규화가 sub-block의 입력으로 옮겨졌다.
- residual path의 누적에 관한 부분의 초기화 방법이 변경
- residual layer의 가중치에 을 곱함 (N: residual layer의 수)
- 토큰 증가, batch size 증가
4. Experiments
- 여러 테스트에 실험해본 내용임 (다양한 기준으로 평가)
- Language Modeling, Children’s Boot Test, LAMBADA , Winograd Schema Challenge, Reading Comprehension, Summarization, Question Answering, Generalization vs Memorization
- Translation 에서는 성능이 안좋았음
5. Related Work
- 생략
6. Discussion
- 독해에서 좋은 성능
- 요약에서 기본적인 성능, 실사용에는 무리가 있음
- Bert 에서 언급한 단방향의 비효율성
7. Conclusion
- 해당 연구는 모델이 zero-shot으로 다양한 과제에서 잘 수행할 가능성을 제시.
반응형
'자연어처리 > LLM 모델' 카테고리의 다른 글
LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기 (3) | 2023.10.11 |
---|---|
LLM이란? 그리고 공부하려면 (2) | 2023.10.04 |
[LLM] GPT4 - 논문 리뷰 (0) | 2023.05.09 |
[LLM] GPT3 - 논문요약 (0) | 2022.11.22 |
[LLM] GPT 1 - 논문요약 (0) | 2022.11.08 |