인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

nlp 12

[LLM] GPT2 - 논문요약

논문 링크1. Abstract해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)zero-shot task transfer 방법으로 연구추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임2. Introduction범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)기존연구가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합self-attention block 사용했음.이러한 방법들은 여전히 지도학습을 필요현 연구어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행3. Approach기존 언어 모델(Language Mod..

[LLM] GPT 1 - 논문요약

논문: Improving Language Understanding by Generative Pre-Training논문 링크1. Introduction이전 연구의 어려운점기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가..

반응형