信息理论
~~高级的概率论与数理统计~~
信息的定义
-
信息是一种用来消除不确定性的东西
-
信息来源于物质,但不等于物质
-
信息必须有一个载体,信息是载体的内容
-
信息的度量 (离散)
\(I(A) = -\log_2 P(A)\)
-
信息的度量单位是比特(bit),正对应于当前的计算机系统 (以e为底则称为奈特nat)
-
香农信息量相当于将信息论和概率论联系起来、
-
概率越小,信息量越大
-
非负数
-
可加性
-
事件的自信息
-
事件的自信息的本质
-
事件发生后所提供的信息量
-
事件发生前为确证事件发生的不确定性所需要的信息量
-
-
条件自信息的本质
-
事件Y发生后,X再发生需要的“新的信息量”
-
事件Y发生后,X又发生了,提供给观察者的“新的信息量”
-
事件的互信息(Mutual Infomation)
-
\(I(x ; y ) = I(x) - I(x | y)= -log P(x) - ( - log P(x | y) ) = log \frac{P(x, y)}{P(x)P(y)}\)
-
单一事件y发生后对事件x的不确定性减少的程度(有点像衡量两事件的相关性,可能为正、负、0)
也就是
已知 y 发生的情况下,x 发生带来的不确定性
不知道 y 是否发生的情况下,x 发生带来的不确定性
之差
-
对称性:\(I(x ; y ) = I(y ; x )\)
-
链式法则:\(I(x ; (y, z) ) = I(x) - I(x | (y,z) ) = I(x ; y ) + I((x ; z) | y )\)
(事件y , z 给 事件 x 带来的信息量 = 事件 y 给事件 x 带来的信息量 + y已知的条件下事件 z 给事件 x 额外带来的信息量)
熵
-
\(H(X) = \sum P(x_i) I(x_i) = - \sum P(x_i) \log P(x_i)\)
-
熵定义为随机变量各个事件的平均自信息,也就是随机变量的不确定性
-
熵针对随机变量,自信息针对的是具体事件(随机变量取值)
-
条件熵
-
单一事件的条件熵 即 简单地替换对应的p(x)为p(x|y)
\[ H(X|y) = - \sum_{x_i} P(x_i|y) \log P(x_i|y) \] -
随机变量的条件熵,定义为对条件随机变量的熵的期望,本质是随机变量Y确定后随机变量X还剩下的不确定度,理解上可以参考条件数学期望的定义
\[ H(X|Y) = \sum_{y_i} P(y_i) H(X|y_i) = - \sum_{x_i} \sum_{yj} P(x_i,y_j) \log P(x_i|y_j) \]
-
-
联合熵的链式法则:\(H(X, Y) = H(X) + H(Y | X)\)
-
特殊的,X,Y统计独立时,\(H(X, Y) = H(X) + H(Y)\)
-
多变量,\(H(X_1, X_2, \cdots, X_n) = \sum H(X_i | X_1, X_2, \cdots, X_{i-1})\)
-
-
熵的性质
-
本质上是K维概率空间上向量的函数
-
基本简单性质
-
非负性:\(H(X) \ge 0\)
-
确定性:当且仅当X是确定性的随机变量时,\(H(X) = 0\)
-
可扩展性:维度扩展
-
-
可加性
-
即上面的联合熵的链式法则推广
-
证明:
\(H(X_1,X_2) = H(X_2) + H(X_1 | X_2) = H(X_2)\) (\(X_2\)确定后,\(X_1\)也确定了,所以\(H(X_1 | X_2) = 0\))
\(H(X_1,X_2) = H(X_1) + H(X_2 | X_1)\)
两式相等,所以 \(H(X_2) = H(X_1) + H(X_2 | X_1)\)
-
-
极值性
- \(H_K(p_1,p_2, \cdots p_K) \leq H_K(\frac{1}{K},\frac{1}{K}, \cdots \frac{1}{K}) = log K\)
-
条件熵 <= 熵
-
\(H(X|Y) \leq H(X)\)
-
\(H(X|y) <> H(x)\)
-
-
凸函数性质
-
熵是定义在凸集上的上凸函数
-
凸函数性质:
-
Hessian矩阵正定/负定
-
Jensen不等式成立
\(\Sigma \theta_i f(x_i) \leq f(\Sigma \theta_i x_i)\)
-
-
-
\(H(\theta \alpha + (1-\theta) \beta) \geq \theta H(\alpha) + (1-\theta) H(\beta), \theta \in [0,1]\)
-
-
互信息 与 熵
-
\(I(x, y) = I(x) - I(x | y) = -log \frac{p(x)p(y)}{p(x,y)}\)
-
\(I(X;Y) = E(I(x,y)) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)\)
-
互信息等于事件Y(整个随机变量,有多种结果)发生后对事件X的不确定性减少的程度
-
数学上说,I(X;Y) 是输入的分布矢量 和 转移概率矩阵 的信息函数
-
互信息的凸性
-
-
-
相对熵(KL散度)
-
\(D(p||q) = \sum p(x) \log \frac{p(x)}{q(x)} = E_p(\log \frac{p(x)}{q(x)})\)
-
性质:
-
非负性
-
不对称性
-
与互信息的关系
\(I(X;Y) = D(p(x,y)||p(x)p(y))\)
-
与熵的关系
\(H(x) = H(U) - D(X||U)\) (U为均匀分布)
-
“链式”法则(P=P1P2相互独立, Q=Q1Q2相互独立)
\(D(P||Q) = D(P1||Q1) + D(P2||Q2)\)
-
-
-
疑义
-
\(X \in \{x_0, x_1, ... x_{n-1}\}\)为真实变量,\(\hat X\)为估计变量,使用\(\hat X\)来估计\(X\)
-
疑义度定义:
\[ P_E = \Sigma_{k=0}^{n-1} \Sigma_{i=0}^{n-1} P(X = k, \hat X = i) (i \neq k) \] -
Fano 不等式
\[ H(P_E) + P_E \log(n-1) \geq H(X| \hat X) \]
-
马尔可夫链
-
马尔可夫链的定义
-
一个随机过程,具有马尔可夫性质
-
马尔可夫性质:\(P(X_{n+1} | X_1, X_2, \cdots, X_n) = P(X_{n+1} | X_n)\)
-
数据处理定理:增加数据处理次数,不会增加数据量
\[ X -> Y -> Z \]\[ I(X;Y) \geq I(X;Z) \]\[ I(X;Y) \geq I(X;Y|Z) \] -
互信息的凸性
-
信息的度量(连续)
求和 --> 积分
-
互信息
\[ I(X;Y) = \int \int p(x,y) \log \frac{p(x,y)}{p(x)p(y)} dx dy \]-
二维正态变量的互信息
\[ I(X;Y) = - \frac{1}{2} \log (1-\rho^2) \]
-
-
微分熵
\[ H_c(X) = - \int p(x) \log p(x) dx \]-
一些说明:
-
微分熵实际上不是连续变量的不确定度,因为那个一般是无穷大
-
微分熵是一种保证前面离散变量性质的”龟腚“,实际可正可负
-
微分熵不具有线性不变性
-
-
峰值性
-
取值一定时,均匀分布的微分熵最大,为 \(H_c(X) = \ln L\)
-
方差一定时,高斯分布的微分熵最大,为 \(H_c(X) = \ln (\sqrt{2 \pi e} \sigma)\)
-
-
熵功率的定义
\[ \bar \sigma_x^2 = \frac{1}{2 \pi e} e^{2 H_c(X)} \]此时高斯分布的熵功率恰为\(\sigma^2\)
-
平稳离散信源
- 平稳随机过程
连续T时间段内的概率分布是相同的
\(E(X_t) = E(X_{t+k}) = E(X_0) = Const.\)
-
离散信源
-
平稳信源
\[ P(x_1, x_2, \cdots, x_n) = P(x_{1+k}, x_{2+k}, \cdots, x_{n+k}) \] -
简单无记忆信源
\[ P(x_1, x_2, \cdots, x_n) = P(x_1)P(x_2) \cdots P(x_n) \] -
m阶马尔可夫信源
\[ P(x_1, x_2, \cdots, x_n) = P(x_1)P(x_2|x_1) \cdots P(x_n|x_{n-1}, \cdots, x_{n-m}) \]
-
-
平稳信源的熵
-
\(H = - \sum P(\vec{X}) \log P(\vec{X})\) (会趋近于无穷大)
-
平均每符号熵 \(H_n(X) = \frac{H(X)}{n}\)
-
熵速率\(H = \lim_{n \to \infty} H_n\)
-
性质
-
\(H(X_N | X_{N-1}, \cdots, X_1)\) 单调不增
-
\(H_N(X)\)单调不增
-
\(H_N(X) \geq H(X_N | X_{N-1}, \cdots, X_1) \to \lim_{n \to \infty} H(X_N|X_{N-1}X_{N-2}\cdots X_1)\)
-
-
-
熵的相对率
- \(\eta = \frac{H}{\log n}\)
-
信源的冗余度
- \(R = 1 - \eta\)
-
马尔可夫源的熵率
-
\[ H_{\infty} = \lim_{n \to \infty} H_n = H(X | S) = \sum_{s_i \in K^m} P(s_i) H(X | S = s_i) \]
-
信息论 & 通信
核心
信源编码
在代价最小(最小的比特数)的意义上来最有效地表示一个信源
-
等长编码
- 比较好理解,对于所有可能输入的\(K^L\)字段都分配一个等长的编码,因此有 \(D^N \geq K^L\),即 \(N\geq \frac{L log K}{log D}\)
-
香农编码定理(渐进无损压缩的极限)
\(N = \frac{LH(U)}{log D}\)
-
\(L \to \infty,\frac{I(u^L)}{L} \to H(U)\)
-
利用典型列(大数定律型)进行直观证明(不严格)
-
由切比雪夫不等式,可严格证明
- \(2^{-n(H-\epsilon)} \leq P(\vec{X}) \leq 2^{-n(H+\epsilon)}\)
-
-
不等长编码
\(\bar L = \sum n_k p_k\)
不等长编码定理:
\[\exists\bar{L}_{best}, \ \frac{H(U)}{logD} \leq \bar{L} \leq \frac{H(U)}{logD} + 1\]证明:
定理扩展:
-
唯一可译性
-
Sardinas & Petterson 判据(后缀分解)
一个码是唯一可译码的充分必要条件是除\(S_0\)外没有任何一个后缀分解集中包含码字
-
Kraft 不等式(异字头码)
\(\sum D^{-l_i} \leq 1\)
-
等长码时,等号成立
-
不等长码时,不等号成立
-
相当于所有码字都放在一棵D叉树的叶子上,树的深度为码字的最长长度,每一层只能选择一个分支
-
唯一可译码不一定是异字头码,但唯一可译码必定满足Kraft不等式
-
重要关系:唯一可译码 --> Kraft 不等式成立 --> 存在同样长度分布的异字头码
-
-
-
即时可译性
-
Huffman 编码(最优,略)
-
D 元
-
-
Shannon 编码
-
前缀码
-
与 Huffman编码 相比,Shannon 编码逼近香农极限,但是收敛性能不如 Huffman 编码
-
-
Fano 编码
-
离散有记忆信源
-
马尔可夫信源的编码
-
信道接收
在代价尽量小、尽量正确可靠地接收信号的意义上来最有效地传输一个信源(信道传输是概率性的)
信道容量
-
无记忆信源DMS
\[I(X_1,X_2,\cdots X_N;Y_1,Y_2,\cdots Y_N) \leq \sum_{i=1}^{N} I(X_i, Y_i)\]\(C = max I(X,Y)\)
-
平行信道(积信道)
-
开关信道(和信道)
-
级联信道
-
对称信道
-
输入对称:行置换
-
输出对称:列置换
-
准对称:按列划分得到的若干子信道是对称矩阵
-
香农信道编码定理
如果信息传输速率R小于信道容量C,则总存在一种编码方法,使信 息在该信道上无错误地可靠传输。
有损压缩
Quote
率失真理论
给定失真率的要求下,数据压缩技术的理论极限
注意信息的度量看的是信息的熵,即典型列个数,而不是符号数
-
Lloyds算法(效率不高)
假设用R个比特来表示信息,则相当于做信息区域上的\(2^R-means\)算法
失真度量函数:
香农给出的是其抽象形式,实际上可以是任意的度量函数
常见失真度量函数
-
Hamming失真
\[ D(x,\hat x) = \left\{ \begin{array}{ll} 0 & x = \hat x \\ 1 & x \neq \hat x \end{array} \right. \]此时失真率为错误率
\[ Ed(X,\hat X) = P(X \neq \hat X) \] -
平方误差失真
\[ D(x,\hat x) = (x-\hat x)^2 \]
-
失真的规范化
即每个符号取正确自身值时的失真为0
\[ C_x = \min_{\hat x} d(x,\hat x) = 0\] -
零比特编码
虽然比特速率为0, 但是不同的\(\hat x\)导致的失真率也是不同的,应有最小值
比如说对于一个高斯变量,取\(\hat x = 0\)时取到最小值\(D = \sigma ^ 2\);否则若取\(\hat x \neq 0\),容易证明\(D\)会变大
因此,零比特编码最小平均失真 就是 编码的最大失真
-
信息率失真函数
核心即是找到下方的这条 理论极限的曲线,右上方的点可达,左下方的点不可达
即 误差率确定,最小极限比特数;比特数确定,最小极限误差率
其中
-
率失真函数\(R(D)\)是失真率\(D\)的函数,表示在失真率\(D\)下的最小比特数
-
失真率函数\(D(R)\)是比特数\(R\)的函数,表示在比特数\(R\)下的最小失真率
Quote
上面的定义本质上是将失真函数转化为了一个优化问题,但是比较复杂
在前面的基础上,定义 信息率失真函数
-
率失真信源编码定理
从而该函数的求解变成了一个类似信道容量计算的凸优化问题