1. Gradient descent(GD)¶ $w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$ 2. Stochastic gradient decent(SGD)¶ full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해) 3. Momentum¶ 현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용) local minimum을 피하기 위한 방법 $m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}..