도입 · 20 questions, 비틀어서

1,024개 중 하나를 찾는 데 예/아니오 질문 몇 번이면 되는가?

매번 절반으로 자르면 답은 10 — log₂(1,024) . 로그 모듈의 사전 탐색이 새 옷을 입은 모습이다. 그런데 항목들의 확률이 다 같지는 않다. “the”가 “antidisestablishmentarianism”보다 천 배 흔하다면, 드문 단어부터 묻는 건 헛수고다. 평균적으로 필요한 질문 수는 더 이상 $\log₂ N$ 이 아니라 엔트로피다.

엔트로피 = 평균적으로 필요한 예/아니오 질문 수. 모두가 같은 확률이면 $\log₂ N$ 으로 무너지고, 한 결과가 지배하면 0으로 다가간다. Wordle, Huffman 압축, 비밀번호 강도, 결정 트리 — 모두 같은 수에 부딪힌다.

도구 사양

정의: $H(X) = −Σ pᵢ \log₂ pᵢ$ . $X$ 의 어느 결과가 일어났는지 가리는 데 평균적으로 필요한 예/아니오 질문 수. N개 결과가 모두 같은 확률이면 $\log₂ N$ (최대)이 되고, 한 결과가 확률 1이면 0 (최소)이 된다.
적용: 불확실성에 구조가 있을 때: Wordle (추측당 정보 이득), Huffman/산술 압축 (섀넌 한계), 비밀번호 강도 (NIST 엔트로피), 결정 트리 분할 (정보 이득 기준), 언어모델 perplexity ( $2^H$ ), KL 발산과 상호정보량.
한계: 사실 $p$ 를 모른다 — 엔트로피는 분포 위에 정의되며, 표본에서 분포를 추정하는 일은 그 자체로 별도 문제. 연속 분포는 미분 엔트로피가 필요하다 (부호 양상이 다르고, 음수가 될 수 있다). 엔트로피는 주변 확률 $p$ 만 본다 — 주변이 같아도 결합 구조가 매우 다를 수 있다 (그건 엔트로피가 아니라 상호정보량이 잡는다).

위젯 — 섀넌 바

엔트로피 H1.85 bits

균등 한계 log₂(4)2.00 bits

한계 대비92%

가중치 A · p = 0.404.0가중치 B · p = 0.303.0가중치 C · p = 0.202.0가중치 D · p = 0.101.0

최대 p0.40

최소 p0.10

활성 결과4

균등 누르면 네 바가 같고, 각 p = 0.25, 결과당 놀람도 2 비트, H = 2 비트 — 네 결과에서의 최대값. 집중 누르면 한 바가 나머지를 삼키고, 그 바의 놀람도는 0 근처, 나머지 셋은 ≥ 2.5, H는 1 아래로 떨어진다. 확정 누르면 한 결과가 확률 1, 셋이 0, H = 0. 확률 막대 높이와 놀람도 막대 높이는 반대 이야기 — 엔트로피는 두 번째 이야기를 첫 번째로 가중평균한 결과다.

흐름

log₂ N — 같은 확률일 때의 바닥

로그 모듈이 끝난 곳에서 시작한다. 같은 확률의 결과 $N$ 개가 있으면, 매 질문이 후보를 절반으로 자를 때 $\log₂ N$ 번 질문이면 된다. 카드 한 벌: $\log₂ 52 ≈ 5.7$ 비트 — 여섯 질문이면 카드 식별. 동전 두 번: $\log₂ 4 = 2$ 비트. 64비트 무작위 정수: 정의상 64 비트. “ 비트 ”라는 단위는 같은 확률의 두 결과 중 하나를 가리는 예/아니오 질문 1번의 답이고, $\log₂ N$ 은 N 중 하나를 특정하는 데 필요한 그런 질문의 수.

놀람도, 가중평균

결과들의 확률이 다를 때 “절반으로 자르기”는 더 이상 최선이 아니다. 90%/10%로 자르는 질문은 일부 정보만 준다 — 90%가 답인 경우에는 거의 좁혀지지 않으니까. 셈은 결과별로 한다. 확률 $p$ 인 사건의 놀람도 는 $−\log₂ p$ — 그 결과를 알게 됐을 때 얻는 비트 수다. 흔한 사건은 놀람도가 작고, 드문 사건은 크다. 그 놀람도의 기대값이 엔트로피:

H(X) = −Σ p_i log₂ p_i  =  Σ p_i · (−log₂ p_i)
                          ↑
               probability × surprise, summed

두 닻점. 균등 p = 1/N이면 $H = \log₂ N$ — § 1의 “같은 확률 바닥”이 이제 최대값으로 다시 잡힌다. 집중 p = 1 (한 결과에 확률 1, 나머지 0)이면 $H = 0$ — 질문도, 정보도, 불확실성도 없다. 모든 분포는 그 사이에 놓이고, 위 위젯으로 그 선 위를 직접 움직여 볼 수 있다.

평균이 왜 중요한가 — 섀넌 한계

1948년 섀넌은 어떤 부호도 심볼당 평균 $H(X)$ 비트보다 적게 압축할 수 없음을 증명했다 — 섀넌 한계 . 영문 텍스트의 글자당 엔트로피는 약 1.0–1.5 비트로, 순진한 log₂ 26 ≈ 4.7보다 한참 낮다. 글자가 서로 독립이 아니고 확률도 같지 않기 때문이다. 그 간격이 바로 압축이 비집고 들어갈 자리고, zip과 gzip은 거기서 산다. 이 한계는 두 의미에서 빡빡하다. 어떤 부호도 이를 깰 수 없고, 일부 부호는 이 한계에 닿는다 (Huffman은 1 비트 안쪽, 산술 부호는 임의로 가까이). 엔트로피는 누가 만들어낸 수치가 아니라, 누가 다가가도 똑같이 부딪히는 바닥이다.

정보 이득 — Wordle 최적의 첫 추측

Wordle: 5글자 추측을 던지면 게임이 $3⁵$ 가지 피드백 패턴 (각 타일 회색/노랑/초록) 중 하나를 돌려준다. 각 패턴은 남은 후보 단어를 분할한다. 추측 한 번이 평균적으로 $IG = H(\text{단어}) − E[H(\text{단어} \mid \text{피드백})]$ 비트의 정보 이득 을 준다. IG를 최대화하는 것 — Wordle 풀이라면 누구나 직관으로든 명시적 계산으로든 결국 그렇게 한다. 공식 정답 ~2,300단어에 대한 수치 승자는 SALET (투구를 뜻하는 옛 단어), 약 5.88 비트로 CRANE (5.79)과 ADIEU (5.49)를 이긴다. “모음을 많이”라는 직관은 “글자가 피드백 패턴들에 고르게 흩어지게”에 밀린다 — 후자가 정확히 피드백 분포에서의 _최대 엔트로피_에 해당한다.

같은 원리가 머신러닝의 결정 트리 분할 (“어떤 특성이 레이블의 불확실성을 가장 많이 줄이는가?”), 20 questions 전략 (“기대 정보 이득이 가장 큰 질문을 물어라”), 알고리즘의 이진 탐색과 지문 조회 대비를 모두 떠받친다.

이게 어디에 나타나나 — 같은 식, 두 필러

엔트로피는 분위기로서의 무작위성이 아니다. 분포의 기대 놀람도다. 이 한 줄이 자리잡으면, 무관해 보이는 두 응용이 같은 네 줄로 묘사된다:

드문 단어              → 큰 놀람도
드문 색                → 큰 놀람도
예측 가능한 분포        → 낮은 엔트로피
균등 분포              → 높은 엔트로피

TF-IDF는 드문 단어 버전이다. 검색 쿼리에 $−\log P(\text{단어})$ 가중치를 주는데, 이는 정확히 무작위 문서에서 그 단어를 볼 때의 놀람도다. 불용어(stopword)는 놀람도가 거의 0이라, 따로 목록을 손으로 정해두지 않아도 가중치가 저절로 0에 가까워진다.

이미지는 왜 압축될까는 픽셀 값 히스토그램 위의 드문 색 버전이고, 이웃 픽셀 차이 히스토그램 위에서 한 번 더 같은 이야기다. 매끈한 그림은 분포가 매우 예측 가능해 보이고 (낮은 엔트로피 → 작은 파일), 뒤섞인 그림은 균등해 보인다 (높은 엔트로피 → 큰 파일). 같은 H, 두 필러. 이 수는 언어나 픽셀의 성질이 아니라 분포의 성질이고, 분포라는 이름을 붙이는 모든 분야는 알게 모르게 이 모듈과 마주친다.

이 모듈이 흘러갈 곳

같은 정의가 새 이름으로 다시 나타난다. 교차 엔트로피 (분류의 핵심 손실)는 본래의 엔트로피에 모델의 예측 분포가 진실과 다를 때의 벌점을 더한 것이다. KL 발산, 상호정보량, 언어 모델의 perplexity — 모두 이 모듈을 가져다 쓴다. 비밀번호 강도는 균등 공격자 가정 아래 키 공간의 $\log₂$ 로, § 1의 특수 케이스다. “이건 정보가 많다”, “저건 중복이다”라고 말할 때마다, 사람들은 이 모듈이 정확히 짚어낸 그 수를 가리키고 있다.

H = −Σ p log₂ p. 확률 곱하기 놀람도의 합. 균등이면 $\log₂ N$ , 한 결과가 압도하면 0. 나머지 — 섀넌 한계, Wordle 첫 추측, 비밀번호 강도, 교차 엔트로피 손실 — 는 따름정리.

exercises · 손으로 풀기

1위젯 읽기 · 균등 최대

위젯에서 균등을 누르자. H는 얼마인가? 이제 집중을 누르자: 계산하지 말고 어림하라 — H는 1 비트보다 위인가, 아래인가?

2손으로 계산 · 균등 N계산기 없이

N = 2, 4, 8, 16에 대한 균등 분포의 H를 계산하라. 패턴은?

3식 세우기 · 1/2, 1/4, 1/8, 1/8

$p = (1/2, 1/4, 1/8, 1/8)$ 의 H를 계산하라. 균등 4와 비교하라.

4Wordle · 왜 분할이 중요한가

CRANE을 추측하면 2,300단어 정답 목록에 대해 200개의 서로 다른 피드백 패턴이 나오고 후보가 그렇게 분할된다. 가장 큰 패턴에 168 단어, 평균 IG는 5.79 비트. SALET은 205 패턴, 가장 큰 패턴 119, IG 5.88. 둘 다 log₂ 2300 = 11.2 비트의 불확실성을 줄이는데, 왜 SALET이 “더 낫다”고 하는가? 최악의 경우에 대해 한 문장으로 답하라.

5악마의 문제 · '균등이 최저'계산기 없이

주니어가 말한다: “균등 분포는 엔트로피가 최저다. 가장 지루하니까 — 모든 결과가 같다.” 한 문장으로 반박하고, 실제 최저값을 말하라.

6비밀번호 · NIST 엔트로피

두 비밀번호. (a) {a–z, A–Z, 0–9} 62개 문자에서 8자 무작위. (b) Diceware 목록 7,776 단어에서 영문 단어 6개 무작위. 어느 쪽이 엔트로피가 더 큰가? $\log₂ 62 ≈ 5.95$ , $\log₂ 7776 ≈ 12.92$ 사용.

용어집 · 이 페이지에서 쓰임 · 6

logarithm·로그

지수의 역연산. log_b(x) 는 'b를 몇 제곱하면 x가 되는가'를 묻는다.

bit (information)·비트 (정보)

로그 밑이 2일 때의 정보 단위. 동전 던지기는 정확히 1 bit — 같은 확률의 두 결과를 가리려면 예/아니오 질문 1번이 필요해서. "이진 숫자"로서의 bit와는 다른 개념: 이진 숫자 한 자리는 1 bit를 _담을 수 있지만_, 90% 앞면이 나오는 편향 동전을 저장하는 이진 숫자 한 자리는 평균 1 bit *미만*의 정보만 담는다. 정보의 bit와 저장의 bit는 같은 단어를 쓰는 다른 것.

surprise·놀람도

`I(x) = −log₂ p(x)`, 결과 `x`가 일어났음을 알게 됐을 때 얻는 정보의 비트 수. 드문 결과(작은 p)는 큰 놀람도를 나르고, 확실한 결과(p = 1)는 0을 나른다. 엔트로피는 _기대_ 놀람도 — `H = E[I(X)] = Σ p log₂(1/p)`. 모스 부호의 직관이 여기 산다: 영어에서 'E'가 가장 자주 나오므로 등장당 놀람도가 작고, 그래서 짧은 부호를 받는다.

Shannon bound·섀넌 한계

소스 부호화 정리 (1948): 어떤 무손실 부호도 심볼당 평균 `H(X)` 비트보다 _적게_ 쓸 수 없다. Huffman 부호는 한계의 1 비트 안으로 들어가고, 산술 부호는 임의로 가까이 다가간다. 5GB 무작위 파일은 거의 압축되지 않고 5GB 영문 텍스트는 1/5로 줄어드는 이유: 영문 텍스트의 심볼당 엔트로피가 그 원시 바이트가 시사하는 것보다 작기 때문.

information gain·정보 이득

`IG(X | Y) = H(X) − H(X | Y)`. Y를 관측해서 X에 대한 불확실성이 평균적으로 몇 비트 줄어드는가. Wordle 풀이, 결정 트리의 분기, 20 questions 전략 — 모두가 암묵적으로 *최대화*하는 목적함수가 이것. 위 한계는 `H(X)`: 변수가 담은 비트보다 더 얻을 수는 없다.

cross-entropy·교차 엔트로피

분류기 훈련에 쓰이는 손실 함수. 정답 클래스 `y`와 `n`개 클래스에 대한 예측 분포 `p`가 주어졌을 때, 교차 엔트로피는 `−log p_y` — 모델이 정답에 부여한 확률의 음의 로그. 타겟이 원-핫이면 음의 로그우도와 같다. 자신만만하게 _틀린_ 답을 가혹하게 처벌하고 (`p_y → 0`이면 손실 `→ ∞`), 자신만만하게 _맞춘_ 답을 보상한다 (`p_y → 1`이면 손실 `→ 0`). log가 들어간 이유는 *독립 가능도의 곱셈*을 *덧셈*으로 바꾸기 때문이다.