경사하강법

en · 짝 gradient descent

모든 현대 ML 시스템의 심장에 있는 반복 레시피. 매개변수에 대한 손실의 기울기를 계산하고, 그 _반대_ 방향 (가장 가파른 내리막) 으로 한 걸음, 반복. 1차원에서는 `w ← w − η · L'(w)`. 같은 식이 매개변수 벡터로 확장된다 — 각 방향의 편미분, 벡터 뺄셈. 연구 프로젝트들이 갈리는 지점은 알고리즘 자체가 아니라, 손실의 선택, `η`의 크기와 스케줄, 잡음 있는·확률적·아주 고차원의 변형을 위한 트릭들 (미니배치, 모멘텀, Adam). 핵심 아이디어는 1847년 이래로 같다 — _언덕을 내려간다_.