Lemma
수학, 거꾸로
여정 · 4일 · 그래픽 → ML

압축은 어떻게 돌아가는가

JPEG는 1 MB 사진을 100 KB로 줄인다. TF-IDF는 백만 단어 어휘를 의미 있는 한 줌으로 줄인다. 두 페이지는 표면적으로 무관해 보인다 — 한쪽은 그래픽 코덱, 다른 한쪽은 검색 관련도 점수 — 그러나 같은 세 단계를 돈다 — 기저 변환, 작은 좌표 버리기, 재구성. 이 경로는 가능 영역을 정하는 엔트로피 한계를 먼저 열고, 그 한계를 따르는 세 페이지를 차례로 걷는다.

Lemma에서 압축골격(shape) — 다른 이름으로 반복되는 절차다. 추상 하한을 먼저 읽고, 세 사례를 차례로 만난다. 4일차에 이르면 픽셀단어 사이의 다리는 우연이 아니라 번역 문제로 보인다.

경로 · 0/4 · 0%
  1. 1
    모듈·일차 1·다음
    /modules/entropy
    이 경로의 나머지가 부딪힐 *한계*를 먼저 연다. 엔트로피 $H = -Σ pᵢ \log pᵢ$는 어떤 무손실 코더도 깰 수 없는 *심볼당 비트* 최솟값. § 5 — *같은 식, 두 필러* — 를 읽고, 추상이 끝나기 전에 압축 이야기가 이미 필러를 가로지른다는 사실을 표시해둔다.
    열기 →
  2. 2
    응용·일차 2
    /graphics/image-compression
    첫 사례 — 필러: 그래픽. 대상은 원본 픽셀 그리드, *기저 변환*은 원본 픽셀에서 이웃 차분 (또는 히스토그램) 으로 옮기는 일, 새 표현의 엔트로피가 원본의 엔트로피보다 훨씬 작다. PNG는 그 격차 안에 산다.
    열기 →
  3. 3
    응용·일차 3
    /graphics/jpeg-compression
    두 번째 사례 — 여전히 그래픽. 같은 세 단계, 더 공격적. 기저는 이번엔 DCT — 8×8 블록이 64개 주파수 계수로 바뀌고, 신호는 저주파에 모인다. *작은 좌표 버리기*는 양자화, *재구성*은 역 DCT. 결정적으로 이건 *손실 압축* — JPEG는 1일차가 말한 무손실 하한 아래로 가기 위해 *되돌릴 수 없는 손실*을 받아들인다.
    열기 →
  4. 4
    응용·일차 4
    /ml/tf-idf
    세 번째 사례 — 필러가 ML로 점프한다. 기저는 단어 가방 표현. *작은 좌표 버리기*는 $idf(t) = \log(N / df(t))$ — 흔한 단어가 거의 0 가중치를 받아 *사라진다*. 절차는 같은 세 단계, 이미지 대신 문서에, 바이트 대신 순위에 적용된 것. *같은 골격, 다른 압축 단위.*
    열기 →