entropy: measure of the uncertainty of a random variable
- it is a measure of the amount of information required on the average to describe the random variable.
L(X)가 discrete한 Random variable이라고하고, p(x)를 PMF(probability mass function).이라고 할 때,
p(x) = Pr{X=x}, x ∈ 𝒳, 𝒳는 원소 x를 포함하는 집합, X는 일반적으로 확률변수.
- 엔트로피 H(X)의 정의.
- log의 밑은 2. bit를 정의하기 위해 나타낸다고 생각하면편함.
ex) x log x = 0, thus x = 0.
- 기댓값 E를 X에 대한 함수 g(X)에 대해서 구하는데, 이 때, 각 x에 대한 확률 값인 p(x)를 반영하기 위해 위의 수식 등장.
- 그리고 우측의 수식은 이 g(X)에 대한 자기 정보량 (self-referential expectation)은 log (1/p(X)) 이다. 낮은 확률이 더 많은 정보를 제공한다는 원리가 존재하며, 이 g(X)를 풀어서 위에 대입하면, H(X)를 완성 시킬 수 있다.
- 그래서 다음과 같이 수식으로 쓸 수 있다.
What is the average length of the shortest description of the random variable? 라는 질문이 들어왔을 때, 이를 답하기 위해 우리는 위와 같은 가정을 시작하고 간다.
- 여기서 아래 수식은 Bineary cross entropy와 같다.
- 예시로는 동전 던지기와 같은 예시가 있을 수 있다
- 다음과 같은 예시에서 H(X)의 Entropy는
= -(1/2 x log 1/2) - (1/4 x log 1/4) - (1/8 x log 1/8) - (1/8 x log 1/8) = 1/2 + 1/2 + 3/8 + 3/8 = 14/8 = 7/4 = 1.75
- 위에서 본 binary 상황에서 엔트로피의 그래프는 다음과 같이 그릴 수 있음.0 또는 1에 가까울수록 그만큼 불안정하다고 볼 수 있음. 따라서 0.5일 때 가장 큰 1 값을 가지게 됌.
- 그리고 앞서서 본 a,b,c,d를 알맞게 고르는 것에 기대 질문 횟수는 H(X)가 될 것이고, 이 값은 H(X) ~ H(X) + 1 사이의 값이 되는 것은 아주 뒤에서 보여줄 예정.
2-2 JOINT ENTROPY AND CONDITIONAL ENTROPY
- 이제는 H(X) -> H(X,Y)로 확장, 수식은 위와 같음.
- 혹은 아래의 수식으로 바꿔서 작성할 수 있다.
- 그리고 Conditional entropy H(Y|X)는 위와 같이 정리 가능.
- 그리고 Chain rule에 의해서 다음과 같이 정리 가능.
- Bayesian Theorem과 유사하다.
- Log를 양변에 똑같이 씌우면 결과 또한 다음과 같다.
- 저자가 Proof에 이건 당연하다고 써놓은 Corollary를 증명해보자면,
- 다음과 같이 증명할 수 있다.
- 왼쪽과 같은 p(x,y) joint distribution이 주어질 때, H(X|Y)를 구하는 식은 우측과 같다.
- 신경써야 할 점이 있다면, p(Y=i) x H(X|Y=i)에서 p(Y=i) = 1/4로 동일하며, H(X|Y=i)에서 X축 열의 합이 1이 되지 않기에 이를 1/4로 나누어서 재 분배를 한 값이 우측 수식에서 H(1/2, 1/4, 1/8, 1/8)과 같이 들어간다고 생각하면 된다.
- H(Y|X)의 경우에는 같은 방법으로 직접 구하면 될 것 같고, H(X, Y) = H(X) + H(Y|X) 임을 이용하자.
- 위의 증명 참고해서 H(Y|X) = 13/8이 됨을 보였고,
- H(X,Y) = H(X) + H(Y|X) = 14/8 + 13/8 = 27/8이다. 14/8은 이전 값 위에서 참조.
- 그리고 위에서 본 것 처럼 H(Y|X) != H(X|Y)이다. 하지만 H(X) - H(X|Y) = H(Y) - H(Y|X)는 성립한다. 이는 양변에 H(X|Y)와 H(Y|X)를 번갈아서 더하면 둘 다 H(X,Y)가 나오게 되어 성립한다.
'Information Theory' 카테고리의 다른 글
7-4 PREVIEW OF THE CHANNEL CODING THEOREM (2) | 2023.12.03 |
---|---|
7.2 7.3 SYMMETRIC CHANNELS, PROPERTIES OF CHANNEL CAPACITY (1) | 2023.12.01 |
7-1. CHANNEL CAPACITY (1) | 2023.11.30 |
2.6 JENSEN’S INEQUALITY, Convex function. (1) | 2023.11.19 |
Chapter 2-3, 2-4, 2-5, RELATIVE ENTROPY, MUTUAL INFORMATION + CHAIN RULE (0) | 2023.11.19 |