인공지능 개발자 수다(유튜브 바로가기) 자세히보기

Deep Learning/Deep Learning 개념

딥러닝 옵티마이저 (Optimizer) 종류와 설명

Suda_777 2021. 5. 3. 21:54

목차

    반응형

     

     

     

    1. Gradient descent(GD)

     

    $w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$

     
    image.png
     

    2. Stochastic gradient decent(SGD)

     

    full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해)

     
    image.png
     

    3. Momentum

     

    현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용)

    local minimum을 피하기 위한 방법

     

    $m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}$

    $w_t = w^{t-1} + m^t$

     

    4. AdaGrad

    학습을 통해 크게 변동이 있었던 가중치에 대해서는 학습률을 감소시키고 학습을 통해 아직 가중치의 변동이 별로 없었던 가중치는 학습률을 증가시켜서 학습이 되게끔 한다.

    한계점 : G가 계속 증가하기만함. >> 시간이 지나면 학습이 되지 않음

    AdaGrad는 간단한 convex function에서 잘 동작하지만, 복잡한 다차원 곡면 function에서는 global minimum에 도달하기 전에 학습률이 0에 수렴할 수 있다.

     
    image.png
     

    5. RMSProp

    지수이동평균을 적용, 학습의 최소 step은 유지

     
    image.png
     

    6. Adam

     
    • RMSProp 방식과 Momentum 방식이 합쳐짐
     
    image.png
    반응형

    'Deep Learning > Deep Learning 개념' 카테고리의 다른 글

    활성화 함수  (0) 2022.07.03
    [Deep Learning] Overfitting 문제 해결  (0) 2021.05.22