Lemma
수학, 거꾸로
여정 · 7일 · ML / DL

7일에 역전파까지

자신 있게 틀리다가, 덜 틀리다가, 거의 맞춘다. 모델은 왜 학습하는가? 언덕을 내려간다. 언덕은 함수다. 내려가는 일이 미적분이다.

역전파는 하나의 트릭이 아니다. 네 모듈 — 로그, 미분, 선형화, 벡터 — 이 한 응용 아래에서 조용히 맞물려 돌아간다. 이 경로는 응용이 모듈을 쓰기 전에, 각 모듈이 먼저 자기 자리를 스스로 벌어내도록 한다.

경로 · 0/7 · 0%
  1. 1
    응용·일차 1·다음
    /ml/confident-wrong
    함정부터 읽는다: 모델은 자신 있게 틀릴 수 있고, softmax는 그 사실을 모른다.
    열기 →
  2. 2
    모듈·일차 2
    /modules/log
    교차 엔트로피는 로그 공간에 산다. 확률의 곱이 왜 로그의 합으로 대체되는지 — float 언더플로우는 우회할 버그가 아니다.
    열기 →
  3. 3
    모듈·일차 3
    /modules/derivatives
    손실의 기울기가 학습의 방향. 같은 기계 — 할선이 접선으로 무너지는 — 가 새 이름(그래디언트)을 단다.
    열기 →
  4. 4
    모듈·일차 4
    /modules/linearization
    임계점에서 멀면 손실은 선형으로 보인다. 그 선형 근사가 모든 최적화기가 은근히 의지하는 바.
    열기 →
  5. 5
    모듈·일차 5
    /modules/vectors
    그래디언트는 벡터. 역전파는 조심스러운 벡터 미적분. 응용 *전에* 읽는다 — 추상이 먼저 페이지를 정당화하게.
    열기 →
  6. 6
    응용·일차 6
    /ml/gradient-descent
    도구가 다 작업대에 올라왔다. 실제 손실 곡면을 따라 내려간다. 방향만큼이나 *걸음 크기*가 중요하다는 걸 본다.
    열기 →
  7. 7
    복습·일차 7
    /ml/confident-wrong
    위 모두를 쥐고 다시 읽는다. § 5의 함정이 이제 *놀람*이 아니라 *명백한 따름정리*로 느껴져야 한다.
    열기 →