Adam, RMSProp optimization 알고리즘들은 adaptive learning rate를 사용하기 때문에 모든 dimension에서 learning rate를 걱정하지 않아도 된다는 장점이 있었다. 이 adaptive 방식은 Adagrad에서 처음 소개되었다. 하지만 훈련 초기부터 squared gradient의 축적은 효과적인 learning rate를 감소시켜서 최적의 solution에 도달하기 전에 훈련이 종료될 수 있다.
이 문제는 exponential moving average를 기반으로 한 adaptive 방식 (RMSProp, Adam)에서 해결되었다. 이 방식은 훈련 초기부터가 아닌, window에서 squared gradient를 누적한다.
하지만 이 방식 또한 몇 케이스에서 수렴하지 않았다는 약점이 있었다. 몇 mini batch에서는 많은 정보를 가진 gradient를 발생할 수 있는데, ema 알고리즘을 사용하면 이 정보들이 빠르게 소멸하기 때문이다. 이 문제를 해결하기 위해서 지난 gradient에 대한 long-term memory 방식을 소개한다.
출처
Adaptive Method Based on Exponential Moving Averages with Guaranteed Convergence ; AMSGrad and…
From all optimization algorithms that we have covered in this series, Adam and RMSProp are very popular among Deep Learning practitioner…
medium.com
'DeepLearning' 카테고리의 다른 글
[논문리뷰] FixMatch: simplifying semi supervised learning with consistency and confidence (0) | 2022.07.20 |
---|---|
EMA (Exponential Moving Average) 알고리즘 (0) | 2022.07.08 |
Learning Rate Scheduler (0) | 2022.06.21 |
Semi-Supervised Learning (0) | 2022.06.08 |
[math] Variance, Covariance (0) | 2022.05.31 |