역문서빈도 (IDF)

en · 짝 inverse document frequency

`idf(t) = log(N / df(t))`, 여기서 `N`은 코퍼스 크기, `df(t)`는 단어 `t`를 포함하는 문서 수. 모든 문서에 있는 단어는 `log(1) = 0` — 신호 없음. 한 문서에만 있는 단어는 `log(N)` — 최대 신호. log는 튜닝 손잡이가 아니다: `df/N`을 "무작위 문서가 이 단어를 포함할 확률"로 보면, IDF는 엔트로피 모듈의 자기정보 `−log P(t)` 그 자체 — 단어가 나르는 놀람도의 비트 수. 확률 프레임은 휴리스틱이지만 (균등 무작위 문서·이진 존재 가정), 직관은 엄밀하다: 희귀함이 곧 신호다.