압축
차원은 높고 중복은 많은 데이터. 대부분의 좌표가 작아질 때까지 기저를 바꾼다. 작은 것들은 버린다. 남은 걸로 재구성한다. JPEG·TF-IDF·허프만 코드는 *같은 절차* — 픽셀에, 단어에, 확률에 적용했을 뿐.
골격
- 1 기저 변환신호가 적은 좌표에 집중되도록 기저를 고른다.
- 2 작은 좌표 버리기임계값 이하의 좌표를 0으로 (또는 양자화).
- 3 재구성살아남은 좌표로 기저 변환을 역으로.
인스턴스 · 3
그래픽 · jpeg-compression
JPEG는 왜 픽셀을 버릴까
목적 8×8 픽셀 블록을 64차원 벡터로
종료 조건 DCT 기저가 저주파에 에너지 집중; 나머지 양자화; 잔차는 Huffman.
ML / DL · tf-idf
TF-IDF
목적 문서를 단어 가방으로; 고차원 희소 벡터
종료 조건 idf = log(N/df) 가 흔한 단어를 0으로; 희귀 단어가 신호를 짊어짐.
그래픽 · image-compression
이미지는 왜 압축될까
목적 원본 픽셀 그리드; 이웃 간 중복
종료 조건 히스토그램 + 공간 부호화가 엔트로피 하한이 예측한 것을 잡음.
기댄 모듈
이 골격을 따라 읽기
압축은 어떻게 돌아가는가 →
JPEG · TF-IDF · 픽셀 엔트로피 하한 — 그래픽과 ML에서 같은 3-단계 절차.