인공지능 개발자 수다

인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 논문 요약

[LLM] GPT2 - 논문요약

Suda_777 2022. 11. 15. 20:56

목차

1. Abstract

해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)
zero-shot task transfer 방법으로 연구
- 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임

2. Introduction

범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)
기존연구
- 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합
- self-attention block 사용했음.
- 이러한 방법들은 여전히 지도학습을 필요
현 연구
- 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행

3. Approach

기존 언어 모델(Language Model, ML)

p(output | input,task)
- 같은 입력이라도 어떠한 Task인지에 따라 결과가 달라질 수 있도록 한다.
- 예1: 번역 - (프랑스어로 번역, 영어 텍스트, 프랑스어 텍스트)
- 예2: 독해 - (질문에 대답, 문서, 질문, 대답)

3.1. Training Dataset

사람이 필터링한 글만 사용
- 데이터: Web Text
- Reddit에서 3karma 이상의 글, 45만개의 링크 사용
- 위키피디아 글 제거
- 40GB 텍스트 확보

3.2. Input Representation

Byte Pair Encoding(BPE)는 글자와 단어의 중간 단위를 사용
- 자주 나오는 단어와 자주 나오지 않는 단어의 입력을 적절히 채우기위해
- byte수준의 BPE의 사전은 256개만의 token (토근 개수 줄어듬)
- 그치만 직접 사용하는 것은 최적이 아님
  - 예시: dog. dog! dog?
- 위 입력표현 장점
  - 단어 수준의 경험 + 문자수준 접근법의 일반성
  - 어떠한 unicode 문자열이든 확률을 부여할 수 있음

3.3. Model

Transformer 구조
Gpt-1 구조와 비슷, 약간의 차이
- Layer 정규화가 sub-block의 입력으로 옮겨졌다.
- residual path의 누적에 관한 부분의 초기화 방법이 변경
  - residual layer의 가중치에 $1 / \sqrt{N}$ 을 곱함 (N: residual layer의 수)
- 토큰 증가, batch size 증가

4. Experiments

여러 테스트에 실험해본 내용임 (다양한 기준으로 평가)
Language Modeling, Children’s Boot Test, LAMBADA , Winograd Schema Challenge, Reading Comprehension, Summarization, Question Answering, Generalization vs Memorization
Translation 에서는 성능이 안좋았음

5. Related Work

생략

6. Discussion

독해에서 좋은 성능
요약에서 기본적인 성능, 실사용에는 무리가 있음
Bert 에서 언급한 단방향의 비효율성

7. Conclusion

해당 연구는 모델이 zero-shot으로 다양한 과제에서 잘 수행할 가능성을 제시.

저작자표시 비영리 변경금지 (새창열림)

'자연어처리 > LLM 논문 요약' 카테고리의 다른 글

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기 (3)	2023.10.11
LLM이란? 그리고 공부하려면 (2)	2023.10.04
[LLM] GPT4 - 논문 리뷰 (0)	2023.05.09
[LLM] GPT3 - 논문요약 (1)	2022.11.22
[LLM] GPT 1 - 논문요약 (0)	2022.11.08

현재글[LLM] GPT2 - 논문요약

댓글

티스토리툴바