수학, 거꾸로

압축

차원은 높고 중복은 많은 데이터. 대부분의 좌표가 작아질 때까지 기저를 바꾼다. 작은 것들은 버린다. 남은 걸로 재구성한다. JPEG·TF-IDF·허프만 코드는 *같은 절차* — 픽셀에, 단어에, 확률에 적용했을 뿐.

골격

1

기저 변환

신호가 적은 좌표에 집중되도록 기저를 고른다.
2

작은 좌표 버리기

임계값 이하의 좌표를 0으로 (또는 양자화).
3

재구성

살아남은 좌표로 기저 변환을 역으로.

인스턴스 · 3

그래픽 · jpeg-compression

JPEG는 왜 픽셀을 버릴까

목적 8×8 픽셀 블록을 64차원 벡터로

종료 조건 DCT 기저가 저주파에 에너지 집중; 나머지 양자화; 잔차는 Huffman.

ML / DL · tf-idf

목적 문서를 단어 가방으로; 고차원 희소 벡터

종료 조건 idf = log(N/df) 가 흔한 단어를 0으로; 희귀 단어가 신호를 짊어짐.

그래픽 · image-compression

이미지는 왜 압축될까

목적 원본 픽셀 그리드; 이웃 간 중복

종료 조건 히스토그램 + 공간 부호화가 엔트로피 하한이 예측한 것을 잡음.

기댄 모듈

이 골격을 따라 읽기

압축은 어떻게 돌아가는가 →

JPEG · TF-IDF · 픽셀 엔트로피 하한 — 그래픽과 ML에서 같은 3-단계 절차.