1. Gradient descent(GD)¶

$w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$

2. Stochastic gradient decent(SGD)¶

full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해)

현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용)

local minimum을 피하기 위한 방법

$m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}$

$w_t = w^{t-1} + m^t$

학습을 통해 크게 변동이 있었던 가중치에 대해서는 학습률을 감소시키고 학습을 통해 아직 가중치의 변동이 별로 없었던 가중치는 학습률을 증가시켜서 학습이 되게끔 한다.

한계점 : G가 계속 증가하기만함. >> 시간이 지나면 학습이 되지 않음

AdaGrad는 간단한 convex function에서 잘 동작하지만, 복잡한 다차원 곡면 function에서는 global minimum에 도달하기 전에 학습률이 0에 수렴할 수 있다.

지수이동평균을 적용, 학습의 최소 step은 유지

활성화 함수 (0)	2022.07.03
[Deep Learning] Overfitting 문제 해결 (0)	2021.05.22