학습률

en · 짝 learning rate

경사하강법의 한 걸음 크기: 매 반복에서 매개변수 `w`가 `w ← w − η · ∇L(w)`로 갱신될 때 `η` (에타)가 학습률. 너무 작으면 수렴이 기어가고, 너무 크면 갱신이 최솟값을 지나쳐 발산할 수 있다. "딱 맞는" 범위는 손실의 *곡률*에 의존 — 이차식 손실의 2계 도함수가 `c`이면 안정 수렴의 상한은 `η < 2/c`. 실제 ML 훈련은 _스케줄_ (시간이 흐를수록 `η` 감소)과 _적응형_ (매개변수마다 다른 `η`)를 쓰는데, 둘 다 같은 관찰에서 나왔다 — 하나의 상수로 충분한 경우는 드물다.