Lemma
수학, 거꾸로

문서빈도 (df)

`df(t)` = 코퍼스에서 단어 `t`를 한 번이라도 포함하는 문서의 수. 문서당 이진 존재 (단어가 열 번 나와도 여전히 1로 셈). _집합 빈도_ (코퍼스 전체에서의 총 출현 수) 와는 다르다. IDF는 집합 빈도가 아니라 `df`로 만든다 — "있느냐 없느냐"가 쿼리가 신경 쓰는 신호이기 때문.

관련 용어
사용 위치 · 1