Lemma
수학, 거꾸로
여정 · 7일 · ML / DL
7일에 역전파까지
자신 있게 틀리다가, 덜 틀리다가, 거의 맞춘다. 모델은 왜 학습하는가? 언덕을 내려간다. 언덕은 함수다. 내려가는 일이 미적분이다.
역전파는 하나의 트릭이 아니다. 네 모듈 — 로그, 미분, 선형화, 벡터 — 이 한 응용 아래에서 조용히 맞물려 돌아간다. 이 경로는 응용이 모듈을 쓰기 전에, 각 모듈이 먼저 자기 자리를 스스로 벌어내도록 한다.
경로 · 0/7 · 0%
- 1응용·일차 1·→ 다음/ml/confident-wrong함정부터 읽는다: 모델은 자신 있게 틀릴 수 있고, softmax는 그 사실을 모른다.열기 →
- 2모듈·일차 2/modules/log교차 엔트로피는 로그 공간에 산다. 확률의 곱이 왜 로그의 합으로 대체되는지 — float 언더플로우는 우회할 버그가 아니다.열기 →
- 3모듈·일차 3/modules/derivatives손실의 기울기가 학습의 방향. 같은 기계 — 할선이 접선으로 무너지는 — 가 새 이름(그래디언트)을 단다.열기 →
- 4모듈·일차 4/modules/linearization임계점에서 멀면 손실은 선형으로 보인다. 그 선형 근사가 모든 최적화기가 은근히 의지하는 바.열기 →
- 5모듈·일차 5/modules/vectors그래디언트는 벡터. 역전파는 조심스러운 벡터 미적분. 응용 *전에* 읽는다 — 추상이 먼저 페이지를 정당화하게.열기 →
- 6응용·일차 6/ml/gradient-descent도구가 다 작업대에 올라왔다. 실제 손실 곡면을 따라 내려간다. 방향만큼이나 *걸음 크기*가 중요하다는 걸 본다.열기 →
- 7복습·일차 7/ml/confident-wrong위 모두를 쥐고 다시 읽는다. § 5의 함정이 이제 *놀람*이 아니라 *명백한 따름정리*로 느껴져야 한다.열기 →