논문 링크 1. Abstract 해당 논문에서는 비지도 학습 방식 (기존에는 아니였고) zero-shot task transfer 방법으로 연구 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임 2. Introduction 범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능) 기존연구 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합 self-attention block 사용했음. 이러한 방법들은 여전히 지도학습을 필요 현 연구 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행 3. Approach 기존 언어 모..