인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

자연어처리 25

[자연어처리] Transformer (NLP, 트랜스포머) 논문요약

0. 논문 소개논문 링크[Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org](https://arxiv.org/abs/1706.03762)1. Abstract기존 최고 성능은 인코더와 디코더를 사용한 복잡한 모델, 또는 CNN 기반 모델새로운 아..

[LLM] GPT3 - 논문요약

논문 링크 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org1. Introduction최근 연구의 한계몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능pretrain 과정에서 큰 정보가 학습..

[LLM] GPT2 - 논문요약

논문 링크1. Abstract해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)zero-shot task transfer 방법으로 연구추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임2. Introduction범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)기존연구가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합self-attention block 사용했음.이러한 방법들은 여전히 지도학습을 필요현 연구어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행3. Approach기존 언어 모델(Language Mod..

[LLM] GPT 1 - 논문요약

논문: Improving Language Understanding by Generative Pre-Training논문 링크1. Introduction이전 연구의 어려운점기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가..

반응형