목차
반응형
1. Gradient descent(GD)¶
$w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$
2. Stochastic gradient decent(SGD)¶
full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해)
3. Momentum¶
현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용)
local minimum을 피하기 위한 방법
$m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}$
$w_t = w^{t-1} + m^t$
4. AdaGrad¶
학습을 통해 크게 변동이 있었던 가중치에 대해서는 학습률을 감소시키고 학습을 통해 아직 가중치의 변동이 별로 없었던 가중치는 학습률을 증가시켜서 학습이 되게끔 한다.
한계점 : G가 계속 증가하기만함. >> 시간이 지나면 학습이 되지 않음
AdaGrad는 간단한 convex function에서 잘 동작하지만, 복잡한 다차원 곡면 function에서는 global minimum에 도달하기 전에 학습률이 0에 수렴할 수 있다.
5. RMSProp¶
지수이동평균을 적용, 학습의 최소 step은 유지
6. Adam¶
- RMSProp 방식과 Momentum 방식이 합쳐짐
반응형
'Deep Learning > Deep Learning 개념' 카테고리의 다른 글
활성화 함수 (0) | 2022.07.03 |
---|---|
[Deep Learning] Overfitting 문제 해결 (0) | 2021.05.22 |