1,024개 중 하나를 찾는 데 예/아니오 질문 몇 번이면 되는가?
매번 절반으로 자르면 답은 10 —
엔트로피 = 평균적으로 필요한 예/아니오 질문 수. 모두가 같은 확률이면 으로 무너지고, 한 결과가 지배하면 0으로 다가간다. Wordle, Huffman 압축, 비밀번호 강도, 결정 트리 — 모두 같은 수에 부딪힌다.
- 정의
. 의 어느 결과가 일어났는지 가리는 데 평균적으로 필요한 예/아니오 질문 수. N개 결과가 모두 같은 확률이면 (최대)이 되고, 한 결과가 확률 1이면 0 (최소)이 된다.
- 적용
불확실성에 구조가 있을 때: Wordle (추측당 정보 이득), Huffman/산술 압축 (섀넌 한계), 비밀번호 강도 (NIST 엔트로피), 결정 트리 분할 (정보 이득 기준), 언어모델 perplexity ( ), KL 발산과 상호정보량.
- 한계
사실 를 모른다 — 엔트로피는 분포 위에 정의되며, 표본에서 분포를 추정하는 일은 그 자체로 별도 문제. 연속 분포는 미분 엔트로피가 필요하다 (부호 양상이 다르고, 음수가 될 수 있다). 엔트로피는 주변 확률 만 본다 — 주변이 같아도 결합 구조가 매우 다를 수 있다 (그건 엔트로피가 아니라 상호정보량이 잡는다).
log₂ N — 같은 확률일 때의 바닥
로그 모듈이 끝난 곳에서 시작한다. 같은 확률의 결과 개가 있으면, 매 질문이 후보를 절반으로 자를 때 번 질문이면 된다. 카드 한 벌: 비트 — 여섯 질문이면 카드 식별. 동전 두 번: 비트. 64비트 무작위 정수: 정의상 64 비트. “
놀람도, 가중평균
결과들의 확률이 다를 때 “절반으로 자르기”는 더 이상 최선이 아니다. 90%/10%로 자르는 질문은 일부 정보만 준다 — 90%가 답인 경우에는 거의 좁혀지지 않으니까. 셈은 결과별로 한다. 확률 인 사건의
H(X) = −Σ p_i log₂ p_i = Σ p_i · (−log₂ p_i)
↑
probability × surprise, summed두 닻점. 균등 p = 1/N이면 — § 1의 “같은 확률 바닥”이 이제 최대값으로 다시 잡힌다. 집중 p = 1 (한 결과에 확률 1, 나머지 0)이면 — 질문도, 정보도, 불확실성도 없다. 모든 분포는 그 사이에 놓이고, 위 위젯으로 그 선 위를 직접 움직여 볼 수 있다.
평균이 왜 중요한가 — 섀넌 한계
1948년 섀넌은 어떤 부호도 심볼당 평균 비트보다 적게 압축할 수 없음을 증명했다 —
정보 이득 — Wordle 최적의 첫 추측
Wordle: 5글자 추측을 던지면 게임이 가지 피드백 패턴 (각 타일 회색/노랑/초록) 중 하나를 돌려준다. 각 패턴은 남은 후보 단어를 분할한다. 추측 한 번이 평균적으로 비트의
같은 원리가 머신러닝의 결정 트리 분할 (“어떤 특성이 레이블의 불확실성을 가장 많이 줄이는가?”), 20 questions 전략 (“기대 정보 이득이 가장 큰 질문을 물어라”), 알고리즘의 이진 탐색과 지문 조회 대비를 모두 떠받친다.
이게 어디에 나타나나 — 같은 식, 두 필러
엔트로피는 분위기로서의 무작위성이 아니다. 분포의 기대 놀람도다. 이 한 줄이 자리잡으면, 무관해 보이는 두 응용이 같은 네 줄로 묘사된다:
드문 단어 → 큰 놀람도 드문 색 → 큰 놀람도 예측 가능한 분포 → 낮은 엔트로피 균등 분포 → 높은 엔트로피
TF-IDF는 드문 단어 버전이다. 검색 쿼리에 가중치를 주는데, 이는 정확히 무작위 문서에서 그 단어를 볼 때의 놀람도다. 불용어(stopword)는 놀람도가 거의 0이라, 따로 목록을 손으로 정해두지 않아도 가중치가 저절로 0에 가까워진다.
이미지는 왜 압축될까는 픽셀 값 히스토그램 위의 드문 색 버전이고, 이웃 픽셀 차이 히스토그램 위에서 한 번 더 같은 이야기다. 매끈한 그림은 분포가 매우 예측 가능해 보이고 (낮은 엔트로피 → 작은 파일), 뒤섞인 그림은 균등해 보인다 (높은 엔트로피 → 큰 파일). 같은 H, 두 필러. 이 수는 언어나 픽셀의 성질이 아니라 분포의 성질이고, 분포라는 이름을 붙이는 모든 분야는 알게 모르게 이 모듈과 마주친다.
이 모듈이 흘러갈 곳
같은 정의가 새 이름으로 다시 나타난다.
H = −Σ p log₂ p. 확률 곱하기 놀람도의 합. 균등이면 , 한 결과가 압도하면 0. 나머지 — 섀넌 한계, Wordle 첫 추측, 비밀번호 강도, 교차 엔트로피 손실 — 는 따름정리.
위젯에서 균등을 누르자. H는 얼마인가? 이제 집중을 누르자: 계산하지 말고 어림하라 — H는 1 비트보다 위인가, 아래인가?
N = 2, 4, 8, 16에 대한 균등 분포의 H를 계산하라. 패턴은?
의 H를 계산하라. 균등 4와 비교하라.
CRANE을 추측하면 2,300단어 정답 목록에 대해 200개의 서로 다른 피드백 패턴이 나오고 후보가 그렇게 분할된다. 가장 큰 패턴에 168 단어, 평균 IG는 5.79 비트. SALET은 205 패턴, 가장 큰 패턴 119, IG 5.88. 둘 다 log₂ 2300 = 11.2 비트의 불확실성을 줄이는데, 왜 SALET이 “더 낫다”고 하는가? 최악의 경우에 대해 한 문장으로 답하라.
주니어가 말한다: “균등 분포는 엔트로피가 최저다. 가장 지루하니까 — 모든 결과가 같다.” 한 문장으로 반박하고, 실제 최저값을 말하라.
두 비밀번호. (a) {a–z, A–Z, 0–9} 62개 문자에서 8자 무작위. (b) Diceware 목록 7,776 단어에서 영문 단어 6개 무작위. 어느 쪽이 엔트로피가 더 큰가? , 사용.