TF-IDF

en · 짝 TF-IDF

`tf(단어, 문서) · idf(단어, 코퍼스)`를 쿼리의 각 단어에 대해 합한 문서 점수. tf는 문서가 그 단어를 많이 쓸수록 점수를 더하고, idf는 여러 문서에 흔히 나타나는 단어를 깎는다. 이 곱은 "결합 확률의 로그" 직관을 *흉내*낸다 — 하지만 흉내일 뿐: tf는 빈도지 확률이 아니라서 TF-IDF는 정보이론에서 영감을 받은 휴리스틱이지 진짜 확률모델은 아니다. 20년 동안 검색 순위 매기기의 지배적 점수였고, 지금도 모든 신경 검색기 (BM25 = TF-IDF + 포화 + 길이 정규화) 가 넘어야 할 베이스라인.

발명

1958 TF (룬) · 1972 IDF (스파크 존스) · Hans Peter Luhn (1958) → Karen Spärck Jones (1972) · IBM Yorktown → Cambridge

룬(1958, IBM)이 *문서 안의 빈출 단어*가 그 문서가 무엇에 관한 것인지 알려준다는 걸 관찰했다 — term frequency. 14년 뒤 스파크 존스(1972, 케임브리지)가 빠진 절반을 채웠다 — *코퍼스 전체에서 드문 단어*가 신호다, inverse document frequency. 그 곱 TF-IDF가 BM25와 Google 이전 30년간 검색 랭킹의 지배적 점수였다.

en.wikipedia.org/wiki/Tf%E2%80%93idf ↗