인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

Deep Learning/Deep Learning 개념 3

활성화 함수

글을 작성하는 데에 아래 자료를 참고하였습니다. 블로그 글 딥러닝의 정석 (한빛미디어) 1. 활성화 함수 사용 이유¶ 선형 뉴런 선형으로 이루어진 $z$에 적용 되는 함수 $f$ $f(x) = az + b$ 계산하기는 쉽지만 은닉층이 없는 신경망으로 표현될 수 있음 은닉층이 없다면 복잡한 관계를 학습하기 어렵다는 문제가 있다 활성화 함수는 딥러닝에 비선형성을 도입하기 위한 방법이다. 바람직한 활성화 함수 Gradient Vanishing 문제가 없어야한다 활성화 함수는 결과값이 0~1사이 값이라면, 역전파 과정에서 여러번 곱해지다보면 초기 학습되던 값이 소실되는 문제가 생겨 학습이 재대로 되지 않을 수 있다. Zero-Centered 활성화 함수의 출력은 기울기가 특정 방향으로 이동하지 않도록 0에서 대..

[Deep Learning] Overfitting 문제 해결

1. 개요 딥러닝 학습시 OverFitting을 해결하기 위한 다양한 방법에 대해 공부해보자 2. Overfitting 이란 모델이 데이터에 과하게 맞추게 되어, 앞으로 들어올 데이터는 맞지 않도록 학습된 형태 Test 데이터 셋의 Loss값은 작지만, Validation 데이터 셋의 Loss값이 커질때 3. 해결방법 개념 Overfitting을 해결하기 위해서는 일반적으로 모델의 복잡성을 줄이도록 해야 한다. Regularization 기법 3.1. Early Stopping 학습을 중간에 중단 Validation과 Test의 Loss를 모니터링해서 중단 시점을 정함 3.2. Weight decay 3.2.1. L1 Regularization 수식 $$ E(w) = E(w) + \frac{\lambda..

딥러닝 옵티마이저 (Optimizer) 종류와 설명

1. Gradient descent(GD)¶ $w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$ 2. Stochastic gradient decent(SGD)¶ full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해) 3. Momentum¶ 현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용) local minimum을 피하기 위한 방법 $m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}..

반응형