본문 바로가기
Information Theory

Chapter 2-1, 2-2, ENTROPY | Information Theory.

by 187cm 2023. 11. 18.
반응형

entropy: measure of the uncertainty of a random variable

- it is a measure of the amount of information required on the average to describe the random variable.

L(X)가 discrete한 Random variable이라고하고, p(x)를 PMF(probability mass function).이라고 할 때,

p(x) = Pr{X=x}, x ∈ 𝒳, 𝒳는 원소 x를 포함하는 집합, X는 일반적으로 확률변수.

- 엔트로피 H(X)의 정의.

- log의 밑은 2. bit를 정의하기 위해 나타낸다고 생각하면편함.

ex) x log x  = 0, thus x = 0.

- 기댓값 E를 X에 대한 함수 g(X)에 대해서 구하는데, 이 때, 각 x에 대한 확률 값인 p(x)를 반영하기 위해 위의 수식 등장.

- 그리고 우측의 수식은 이 g(X)에 대한 자기 정보량 (self-referential expectation)은  log (1/p(X)) 이다. 낮은 확률이 더 많은 정보를 제공한다는 원리가 존재하며, 이 g(X)를 풀어서 위에 대입하면, H(X)를 완성 시킬 수 있다.

- 그래서 다음과 같이 수식으로 쓸 수 있다.


What is the average length of the shortest description of the random variable? 라는 질문이 들어왔을 때, 이를 답하기 위해 우리는 위와 같은 가정을 시작하고 간다. 

- 여기서 아래 수식은 Bineary cross entropy와 같다. 

- 예시로는 동전 던지기와 같은 예시가 있을 수 있다

- 다음과 같은 예시에서 H(X)의 Entropy는 

=  -(1/2 x log 1/2) - (1/4 x log 1/4) - (1/8 x log 1/8) - (1/8 x log 1/8) = 1/2 + 1/2 + 3/8 + 3/8 = 14/8 = 7/4 = 1.75

- 위에서 본 binary 상황에서 엔트로피의 그래프는 다음과 같이 그릴 수 있음.0 또는 1에 가까울수록 그만큼 불안정하다고 볼 수 있음. 따라서 0.5일 때 가장 큰 1 값을 가지게 됌. 

- 그리고 앞서서 본 a,b,c,d를 알맞게 고르는 것에 기대 질문 횟수는 H(X)가 될 것이고, 이 값은 H(X) ~ H(X) + 1 사이의 값이 되는 것은 아주 뒤에서 보여줄 예정.


2-2 JOINT ENTROPY AND CONDITIONAL ENTROPY

- 이제는 H(X) -> H(X,Y)로 확장, 수식은 위와 같음.

- 혹은 아래의 수식으로 바꿔서 작성할 수 있다.

- 그리고 Conditional entropy H(Y|X)는 위와 같이 정리 가능.

- 그리고 Chain rule에 의해서 다음과 같이 정리 가능. 

- Bayesian Theorem과 유사하다.

- Log를 양변에 똑같이 씌우면 결과 또한 다음과 같다.

- 저자가 Proof에 이건 당연하다고 써놓은 Corollary를 증명해보자면, 

- 다음과 같이 증명할 수 있다.

 

- 왼쪽과 같은 p(x,y) joint distribution이 주어질 때, H(X|Y)를 구하는 식은 우측과 같다. 

- 신경써야 할 점이 있다면, p(Y=i) x H(X|Y=i)에서 p(Y=i) = 1/4로 동일하며, H(X|Y=i)에서 X축 열의 합이 1이 되지 않기에 이를 1/4로 나누어서 재 분배를 한 값이 우측 수식에서 H(1/2, 1/4, 1/8, 1/8)과 같이 들어간다고 생각하면 된다.

- H(Y|X)의 경우에는 같은 방법으로 직접 구하면 될 것 같고, H(X, Y) = H(X) + H(Y|X) 임을 이용하자. 

- 위의 증명 참고해서 H(Y|X) = 13/8이 됨을 보였고, 

- H(X,Y) = H(X) + H(Y|X) = 14/8 + 13/8 = 27/8이다. 14/8은 이전 값 위에서 참조. 

- 그리고 위에서 본 것 처럼 H(Y|X) != H(X|Y)이다. 하지만 H(X) - H(X|Y) = H(Y) - H(Y|X)는 성립한다. 이는 양변에 H(X|Y)와 H(Y|X)를 번갈아서 더하면 둘 다 H(X,Y)가 나오게 되어 성립한다.

 

반응형