DeepLearning

Adagrad->RMSProp, Adam -> AMSGrad

jiheek 2022. 7. 8. 13:58

Adam, RMSProp optimization 알고리즘들은 adaptive learning rate를 사용하기 때문에 모든 dimension에서 learning rate를 걱정하지 않아도 된다는 장점이 있었다. 이 adaptive 방식은 Adagrad에서 처음 소개되었다. 하지만 훈련 초기부터 squared gradient의 축적은 효과적인 learning rate를 감소시켜서 최적의 solution에 도달하기 전에 훈련이 종료될 수 있다.

 

이 문제는 exponential moving average를 기반으로 한 adaptive 방식 (RMSProp, Adam)에서 해결되었다. 이 방식은 훈련 초기부터가 아닌, window에서 squared gradient를 누적한다.

 

하지만 이 방식 또한 몇 케이스에서 수렴하지 않았다는 약점이 있었다. 몇 mini batch에서는 많은 정보를 가진 gradient를 발생할 수 있는데, ema 알고리즘을 사용하면 이 정보들이 빠르게 소멸하기 때문이다. 이 문제를 해결하기 위해서 지난 gradient에 대한 long-term memory 방식을 소개한다.

 

 

 

 

 

출처

https://medium.com/konvergen/adaptive-method-based-on-exponential-moving-averages-with-guaranteed-convergence-amsgrad-and-89d337c821cb

 

Adaptive Method Based on Exponential Moving Averages with Guaranteed Convergence ; AMSGrad and…

From all optimization algorithms that we have covered in this series, Adam and RMSProp are very popular among Deep Learning practitioner…

medium.com