알고리즘 이론 16강(3). 그리디 알고리즘 예제2

: 데이터를 효율적으로 압축하는 문제로 그리디 알고리즘의 대표적 예제중 하나이다.

: 자주 나타나는 문자열을 찾아 짧은 비트로 표현하고, 비교적 덜 나타나는 문자열은 긴 비트로 표현한다.

: 허프만 코드는 접두사가 없는(prefix-free) 코드다.

: 최초의 압축시에 사용되는 알고리즘

: 데이터 크기를 일반적으로 20~90% 정도 줄일 수 있다.

: Variable-length codeword가 허프만 코드를 이용해 압축한 데이터 길이이다.

# 허프만 코드 이용해 빈도별 가변 데이터 크기 추출

: 각 문자별 사용 빈도를 기준으로, 상향식 이진 트리형태로 만들고, 각 문자의 위치에 따라 가변 코드를 부여한다.

# 문자와 빈도수 주어졌을때 각 문자의 가변길이 코드워드를 구하는 예시

ex) [f:5] [e:9], [c:12], [b,13], [d,16], [a:45]

: 우선 작은 노드들부터 합쳐나가는데, (c)번에서와 같이 두 노드의 합보다 작은 노드가 2개 이상있으면, 그것들끼리 합하고, 1개이하면 두노드의 합과 비교한다.

HUFFMAN(C) // C는 문자들의 집합

n <- |C|

Q <- C // Q는 이진 최소힙, O(n)

for i <- 1 to n-1

do allocate a new node z

left[z] <- x <- EXTRACT-MIN(Q) // O(logn)

right[z] <- y <- EXTRACT-MIN(Q) // O(logn)

f[z] <- f[x] + f[y]

INSERT(Q,z) // O(logn)

return EXTRACT-MAIN(Q)

: 수행시간 O(nlogn)

: 앞서 말했듯 허프만 코드는 prefix code를 사용하기위해 이진트리를 사용한다.

# 인코딩 : abc => 0 101 100 = 0101100 // 인코딩은 매우쉬움

# 디코딩 : 001011101 => aabe //디코딩은 중복되는 표현 문제 발생 가능한데 이를 prefix 방식으로 해결한 것.

알고리즘 이론 34강. P와 NP (0)	2019.12.18
알고리즘 이론 23강. 최소 신장 트리(MST) (0)	2019.12.13
알고리즘 이론 16강(2). 그리디 알고리즘 예제 - Knapsack Problem(배낭문제) (0)	2019.12.11
알고리즘 이론 16강 - 그리디 알고리즘(Greedy Algorithm) (0)	2019.12.11
알고리즘 이론 15강(2). 동적 프로그래밍 예제 (0)	2019.12.07

차얀의 프로그래밍 노트