인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

분류 전체보기 90

[논문 요약] 학생 맞춤형 교육 콘텐츠 (Automatic Concept Extraction for Domain and Student Modeling in Adaptive Textbooks)

논문 정보 논문 링크 제목: 적응형 교과서에서 도메인 및 학생 모델링을 위한 자동 개념 추출 날짜: 2021.12 설명: 교육분야 NLP 연구 0. Abstract 최근 연구 디지털 교과서의 인기가 높아짐 독자의 학습 방식에 맞춰 적응형 교과서 개발 학생 모델링, 적합한 네비게이션, 콘텐츠 추천시스템 등 본 논문 FACE 를 제시 supervised feature-based 자동 개념 추출 1. Introduction ITS 시스템 (인텔리전트 튜터링 시스템) 도메인, 학생 모델링 적응형 교과서 1세대 내비게이션 서포트 콘텐츠 추천 전문가가 라벨링 해야하는 한계가 있음 지난 10년간 변화 전문가 라벨링 없이 자동으로 핵심 구문 추출하기 위해 노력 현 연구 교과서에서 개념 키워드를 추출 Concept an..

논문요약 2022.12.06

[자연어처리] Transformer (NLP, 트랜스포머) 논문요약

0. 논문 소개논문 링크[Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org](https://arxiv.org/abs/1706.03762)1. Abstract기존 최고 성능은 인코더와 디코더를 사용한 복잡한 모델, 또는 CNN 기반 모델새로운 아..

[LLM] GPT3 - 논문요약

논문 링크 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org1. Introduction최근 연구의 한계몇가지 예제만으로 task에 적응 할 수 있으면 더 다양한 테스트크에 적용 가능pretrain 과정에서 큰 정보가 학습..

[LLM] GPT2 - 논문요약

논문 링크1. Abstract해당 논문에서는 비지도 학습 방식 (기존에는 아니였고)zero-shot task transfer 방법으로 연구추가설명: zero-shot이란 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것임2. Introduction범용적인 모델 필요(기존에는 좁은 범위의 문제만 가능)기존연구가장 성능이 높은 언어처리모델은 사전학습(pre-training)과 지도 세부학습(supervised fine-tuning)의 결합self-attention block 사용했음.이러한 방법들은 여전히 지도학습을 필요현 연구어떤 parameter나 모델구조의 변화 없이도 zero-shot setting 하에서 downstream task를 수행3. Approach기존 언어 모델(Language Mod..

[LLM] GPT 1 - 논문요약

논문: Improving Language Understanding by Generative Pre-Training논문 링크1. Introduction이전 연구의 어려운점기존의 딥러닝 모델은 지도학습, 레이블링된 데이터를 구하는데 한계가 있음Text representation을 학습시키는 것에 어떤 optimization objective가 효과적인지 불분명unsupervised pre-training과 supervised fine-tuning을 합친 semi=supervised learning을 제안최종 목표: 일반적으로 높은 성능을 낼 수 있는 특성을 학습, 이 후 조금의 변화를 통해 다양한 task에 적용데이터: 대량의 unlabeled data, task에 알맞는 labeled data가 있다고 가..

[AWS] AWS Lambda 사용하기

1. AWS Lambda 란 무엇인가 기능 실행단위 '함수' 트리거를 설정하여, 조건이 충족되면 함수를 실행 EC2와 다른 점 서버 없이 실행 실행이 종료되면 함수가 종료되어 비용이 발생하지 않음 배치 작업에 적합 2. 세팅 방법 2.1. 함수를 생성해 준다 2.2. 실행환경 4가지 중 선택 새로작성 AWS Lambda는 RedHat Amazon Linux(OS) 에서 동작 python 버전을 선택 할 수 있음 필요한 라이브러리는 직접 올려야 함 컨테이너 이미지 Docker 이미지를 사용 할 수 있음 서버리스 앱은 리포지토리 찾아보기 누군가 만들어놓은 환경을 사용할 수 있음

MLOps/AWS 2022.08.27

활성화 함수

글을 작성하는 데에 아래 자료를 참고하였습니다. 블로그 글 딥러닝의 정석 (한빛미디어) 1. 활성화 함수 사용 이유¶ 선형 뉴런 선형으로 이루어진 $z$에 적용 되는 함수 $f$ $f(x) = az + b$ 계산하기는 쉽지만 은닉층이 없는 신경망으로 표현될 수 있음 은닉층이 없다면 복잡한 관계를 학습하기 어렵다는 문제가 있다 활성화 함수는 딥러닝에 비선형성을 도입하기 위한 방법이다. 바람직한 활성화 함수 Gradient Vanishing 문제가 없어야한다 활성화 함수는 결과값이 0~1사이 값이라면, 역전파 과정에서 여러번 곱해지다보면 초기 학습되던 값이 소실되는 문제가 생겨 학습이 재대로 되지 않을 수 있다. Zero-Centered 활성화 함수의 출력은 기울기가 특정 방향으로 이동하지 않도록 0에서 대..

[Deep Learning] Overfitting 문제 해결

1. 개요 딥러닝 학습시 OverFitting을 해결하기 위한 다양한 방법에 대해 공부해보자 2. Overfitting 이란 모델이 데이터에 과하게 맞추게 되어, 앞으로 들어올 데이터는 맞지 않도록 학습된 형태 Test 데이터 셋의 Loss값은 작지만, Validation 데이터 셋의 Loss값이 커질때 3. 해결방법 개념 Overfitting을 해결하기 위해서는 일반적으로 모델의 복잡성을 줄이도록 해야 한다. Regularization 기법 3.1. Early Stopping 학습을 중간에 중단 Validation과 Test의 Loss를 모니터링해서 중단 시점을 정함 3.2. Weight decay 3.2.1. L1 Regularization 수식 $$ E(w) = E(w) + \frac{\lambda..

반응형