Lemma
수학, 거꾸로

BM25

en · 짝 BM25

`Okapi BM25` — TF-IDF에 경험적 보정 두 개를 더한 것. (1) **포화:** 원시 `tf`는 선형으로 자라지만, 한 문서에서 단어가 다섯 번째 나오는 것이 첫 번째만큼 중요하진 않다. BM25는 `tf`를 `(k₁+1)·tf / (k₁+tf)`로 바꿔 `k₁ ≈ 1.2` 근처에서 포화시킨다. (2) **길이 정규화:** 평균보다 긴 문서는 `tf`를 더 깎는다. 두 보정 모두 1990년대 검색 평가 (TREC) 에서 튜닝되어 살아남았고, 지금도 BM25는 신경 검색기가 넘어야 할 희소 검색의 기본 베이스라인이다.

관련 용어
사용 위치 · 1