인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

nlp 9

[자연어처리] Llama-2 모델 공부 (1)

1. 개요 지난 시간에 새로운 모델을 학습 하기 위해서는, 비용이 너무 커 개인이 실행하기는 어렵다는 것을 깨닳았다. 이번에는 오픈소스 사전 학습된(Pretrain)모델을 파인튜닝(Finetunning)하기위해, 유명한 오픈소스 모델 중 하나인 Llama2 모델을 사용하는 방법부터 알아 보자 2. 모델 종류 2.1.설명 Llama 2는 7B, 13B, 70B 등 다양한 매개변수 크기의 모델이 있음 chat: 대화 사용 사례에 최적화된 모델 hf: RLHF(인간 피드백)으로 조정 2.2. 종류 meta-llama/Llama-2-7b (링크) meta-llama/Llama-2-7b-hf(링크) meta-llama/Llama-2-7b-chat(링크) meta-llama/Llama-2-7b-chat-hf(링크)..

자연어처리 2023.10.18

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기

1. 데이터셋 뭐가 있을까? huggingface에서 데이터셋을 불러오는 방법이다. 1.1. 먼저 huggingface의 datasets을 설치한다. !pip install datasets 1.2. 다음으로 다운받을 수 있는 데이터셋의 리트스를 확인해 봅시다. from datasets import list_datasets datasets_list = list_datasets() print('데이터의 개수:', len(datasets_list)) print(datasets_list) 69289 데이터셋의 개수를 확인해보면 엄청 방대하다는 것을 알 수 있다. 그렇다면 어떠한 데이터들을 사용하는 것이 좋을까..? 1.3. LLM에서 사용한 여러 데이터셋 wikitext 설명: 'wikitext' 시리즈는 위키..

자연어처리 2023.10.11

LLM이란? 그리고 공부하려면

1. LLM 개요 Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다. LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다. LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self..

자연어처리 2023.10.04

[자연어처리] attention 논문 요약

논문 정보 논문 링크 논문 제목: Neural Machine Translation by jointly Learning to Align and Translate 설명: RNN 기반 0. Abstract 기존 기계번역 방식은 통계적 방식 고정길이 벡터의 사용이 성능 향상을 막음 qualitative analysis이 우리의 직관과 비슷함. 1. Introduction 기존 연구 인코더 - 디코더 형태의 연구가 성능이 좋음 인코더: 고정 길이로 벡터계산을 함 디코더: 인코딩된 벡터에서 번역해 출력 고정 길이 벡터는 긴 문장을 처리하기 어려움 해결방법 정렬하고 변환하는 방법을 배우는 인코더-디코더 모델 문장에서 관령성 높은 정보를 검색 인코딩에서 인풋 문장을 벡터의 하위 집합(a subset of these v..

자연어처리 2022.12.13

[논문 요약] 학생 맞춤형 교육 콘텐츠 (Automatic Concept Extraction for Domain and Student Modeling in Adaptive Textbooks)

논문 정보 논문 링크 제목: 적응형 교과서에서 도메인 및 학생 모델링을 위한 자동 개념 추출 날짜: 2021.12 설명: 교육분야 NLP 연구 0. Abstract 최근 연구 디지털 교과서의 인기가 높아짐 독자의 학습 방식에 맞춰 적응형 교과서 개발 학생 모델링, 적합한 네비게이션, 콘텐츠 추천시스템 등 본 논문 FACE 를 제시 supervised feature-based 자동 개념 추출 1. Introduction ITS 시스템 (인텔리전트 튜터링 시스템) 도메인, 학생 모델링 적응형 교과서 1세대 내비게이션 서포트 콘텐츠 추천 전문가가 라벨링 해야하는 한계가 있음 지난 10년간 변화 전문가 라벨링 없이 자동으로 핵심 구문 추출하기 위해 노력 현 연구 교과서에서 개념 키워드를 추출 Concept an..

논문요약 2022.12.06

[자연어처리] Transformer (NLP, 트랜스포머) 논문요약

0. 논문 소개 논문 링크 [Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org](https://arxiv.org/abs/1706.03762) 1. Abstract 기존 최고 성능은 인코더와 디코더를 사용한 복잡한 모델, 또는 CNN 기반 모..

자연어처리 2022.11.29

[논문요약] GPT3

논문 링크 Language Models are Few-Shot Learners Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi arxiv.org 1. Introduction 최근 연구의 한계 몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능 pretrain 과정에서 큰 ..

자연어처리 2022.11.22

[논문요약] GPT2

논문 링크 1. Abstract 해당 논문에서는 비지도 학습 방식 (기존에는 아니였고) zero-shot task transfer 방법으로 연구 추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임 2. Introduction 범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능) 기존연구 가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합 self-attention block 사용했음. 이러한 방법들은 여전히 지도학습을 필요 현 연구 어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행 3. Approach 기존 언어 모..

자연어처리 2022.11.15

[논문요약] GPT 1

논문: Improving Language Understanding by Generative Pre-Training 논문 링크 1. Introduction 이전 연구의 어려운점 기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음 Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명 unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안 최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용 데이터: 대량의 unlabeled data, task에 알맞는 labeled dat..

자연어처리 2022.11.08
반응형