概率与测度 (4):闲扯大数定理与学习理论

标签: Mathematics Learning Theory Math Probability | 发表时间:2011-10-24 22:33 | 作者:pluskid Mao..
出处:http://blog.pluskid.org

本文属于概率与测度系列

在本系列的上一篇文章中,我偷偷留了一个问题:为什么具体试验所得到的频率是趋向于该事件的概率的。这个问题似乎是显而易见的,但是仔细想想似乎也并不显然,并不能一下子得出这个结论来。事实上,历史上有以这个性质作为基础来构建概率论的理论体系的尝试,不过在现在的概率论公理化体系下面,这个可以作为一个结论推导出来,具体来说,它是大数定理的一个特殊情况。不过如本文标题所说,这次只是闲扯,因为我们目前的进度还没有到大数定理那里,所以就不仔细介绍众多形式的大数定理了,下面只给一个常见的形式,并且暂时省略证明:

定理 1 (大数定理):设 $\{X_i\}_{i=1}^n$ 是一列独立同分布的随机变量,且期望 $\mu=\mathbb{E}(X_i)$ 有限,令 $S_n=X_1+X_2+\ldots+X_n$ ,则 $S_n/n$ 依概率收敛于 $\mu$ 。

依概率收敛就是依测度收敛的特殊情况,这里具体来说,就是对任意的 $\epsilon >0$ ,有

\[
\lim_{n\rightarrow \infty} P\left(\left|\frac{S_n}{n} - \mu\right| < \epsilon\right) = 1
\]

现在回头来看我们的频率趋向于概率的问题。由于一系列重复试验中事件发生的频率是依赖于这些试验的一个随机变量(而不是一个数),并不能像正常意义下那样趋向于一个数,因此我们很自然地需要用到依概率收敛的概念。具体来说,我们希望控制频率这个随机变量与概率值之间的偏差尽量小。再具体一点,就是希望对任意的 $\epsilon > 0$ 和 $\delta > 0$ ,能够达到

\[
P\left(\left|\hat{p}_n - p\right| \geq \epsilon\right) < \delta
\]

这里小写的 $p$ 表示该事件发生的概率,$\hat{p}_n$ 表示经过 $n$ 次重复试验之后统计出来的该事件发生的频率。这个式子的意思就是说,频率和真实概率的偏差大于 $\epsilon$ 的概率可以控制到很小(小于 $\delta$ )。这个式子等价于

\[
\lim_{n\rightarrow} P\left(\left|\hat{p}_n - p\right| < \epsilon\right) = 1
\]

从这里就可以看出其实这个结论可以很容易从大数定理得到了。考虑随机重复试验,每次事件发生的概率为 $p$ ,第 $i$ 次试验里事件发生时 $X_i=1$ ,否则 $X_i=0$ ,则 $S_n=X_1+\ldots+X_n$ 就等于 $n$ 次试验中事件发生的次数,另一方面,对于所有 $i$ ,我们有 $\mu=\mathbb{E}(X_i)=p$ ,直接带入大数定理,即得到上面的结论。

这样,我们就证明了重复试验中事件发生的频率确实是(依概率)趋向于该事件的频率的。在结束本文之前,我还想闲扯两句关于学习理论 (learning theory) 的东西。常见的机器学习的设定是这样的:设我们有样本空间 $\mathcal{X}$ 和结果空间 $\mathcal{Y}$ ,以及 $\mathcal{X}\times \mathcal{Y}$ 上的一个(未知的)概率分布 $\mathcal{P}$ ,给定一个损失函数 (loss function) $\ell:\mathcal{Y}^{\mathcal{X}}\times \mathcal{X}\times\mathcal{Y}\rightarrow \mathbb{R}$ ,寻找最优的一个函数 $f^*$ ,使得如下的风险泛函 (Risk functional)

\[
R_{\mathcal{P}}(f) = \int\ell(f,x,y)d\mathcal{P}
\]

达到最小。一个在分类问题中常用的损失函数是

\[
\ell(f,x,y) = \begin{cases}0 & f(x) = y\\ 1 & f(x) \neq y\end{cases}
\]

这里的问题在于,$\mathcal{P}$ 是未知的,因此这个泛函无法直接求值。在实际问题中,我们会得到从 $\mathcal{P}$ 中抽样出来的 $n$ 对训练数据 $\{x_1,y_1\},\ldots,\{x_n,y_n\}$ ,用这些样本可以构造一个离散的经验分布 $\mathcal{P}_n$,也就是把概率平均地分配到每个观察到的样本对上了。然后可以得到“经验风险泛函”

\[
R_{\mathcal{P}_n}(f) = \int\ell(f,x,y)d\mathcal{P}_n
\]

对于某一个给定的 $f$ ,根据大数定理,我们可以得到,当 $n$ 趋向于无穷时,经验风险泛函是(依概率)收敛于风险泛函的。然而这对于机器学习来说还不够,因为机器学习是在一个给定的函数空间 $\mathcal{H}$ 中搜索一个最优的(使得风险泛函最小的)函数,因此为了保证这个搜索过程是合理的,需要保证对于整个空间 $\mathcal{H}$ 中的所有函数(也就是说,我们现在考虑的是要保证最坏情况也能处理好)能一致收敛。这里实际上是把传统的大数定理推广到了函数空间上——似乎 Vapnik 大神的统计学习理论中把这个推广作为学习理论的关键定理。

就我目前非常肤浅的了解来看,Vapnik 的统计学习理论除了给出了这里提到的收敛性以外,更重要的是分析了 $n$ 有限的情况。因为虽然 $n\rightarrow \infty$ 的情况在理论上是很重要的需要搞清楚的,但是当 $n\rightarrow \infty$ 时是好的并不是就代表 $n$ 有限的时候同样的做法就是好的,而实际学习问题中我们所能拿到的 $n$ 总是有限的。具体来说,在 $n$ 有限时,直接去最小化经验风险泛函并不一定是最优的,会造成 overfitting 等问题。

因此,除了分析 $n\rightarrow\infty$ 的情况,我们还分析在给定的 $n$ 时,给出一个 $R_{\mathcal{P}_n}$ 和 $R_{\mathcal{P}}$ 之间的差别的 bound ,这个 bound 不仅依赖于 $n$ 的大小,还依赖于我们所用的目标函数空间的“大小”——这里用 VC 维之类的东西来刻画。因此,在最小化经验风险泛函的同时,通过正则化的方法同时去最小化目标函数空间的“大小”——这个原则被 Vapnik 老人家称为“结构风险最小化”。由这个原则,就设计出了我们熟知的 Support Vector Machine 算法——具有优良的抗 overfitting 性能。

相关 [概率 测度 大数定理] 推荐:

概率与测度 (4):闲扯大数定理与学习理论

- Mao.. - Free Mind
在本系列的上一篇文章中,我偷偷留了一个问题:为什么具体试验所得到的频率是趋向于该事件的概率的. 这个问题似乎是显而易见的,但是仔细想想似乎也并不显然,并不能一下子得出这个结论来. 事实上,历史上有以这个性质作为基础来构建概率论的理论体系的尝试,不过在现在的概率论公理化体系下面,这个可以作为一个结论推导出来,具体来说,它是大数定理的一个特殊情况.

概率与测度 (3):概率模型

- Sosi - Free Mind
系列的前面两篇大致陈述了一下测度论方面的基础,由于这个学期有去旁听《概率论》这门课,所以主要还是按照课程进度来吧,不定期地把课程里一些有意思的内容抽取出来整理在这里. 先从一个例子开始,比如一个盒子里放了 8 个黑球和 2 个白球,从盒子里随机拿一个球,问它是白球的概率是多少,大家都会不假思索地说,1/5.

求解:概率选择题

- -_- - YesKafei Daily
“愤怒的小鸟”出现在物理考试中. 囧| 最牢固的车门 – 牢牢地被固定. 色狼等级考试试题 (@nuomifan). 2011年全国性考试时间表 (@17weiguan). 老外汉语考试,表情很痛苦 (@17weiguan). 围观公务员考试的壮观景象 (@17weiguan).

追MM功败垂成?只是概率惹的祸

- 欣 - 死理性派 - 果壳网
这种感觉应该不陌生:邂逅一个 MM,感觉不错,于是发动攻势. 先搞到 QQ 号或者手机号,然后请她吃饭她也欣然答应. 后来越聊越投机,甚至一起出去郊游. 可是,在某个月黑风高的夜晚,你蓄谋已久,“不经意间”拉起她的手,MM 却异常反感,从此以后电话不接短信不回. 而你,除了恢复以前的日子继续宅在宿舍枯坐于电脑前之外,偶尔也会感慨一下:为什么每次都是这样,总是在最后一步就不给力了.

概率论教你说谎:直觉思维的科学解释

- zhouqi - Matrix67: My Blog
    昨夜,M同学牵着女朋友的手走出宿舍楼,整夜没有回来;直到今天早晨,大家才见他支着腰回到寝室,样子十分疲惫. 我们几个好友似乎已经心领神会,于是一行人走上前去,带着淫邪的笑容拷问他:昨晚干啥了,那么疲惫. 本以为M同学会支支吾吾答不上话来,殊不知他义正严词地答道:我和女朋友去看通宵电影去了. 几个人不服气,问他,那电影票呢.

用JavaScript玩转游戏编程(一)掉宝类型概率

- vento - 博客园-Milo的游戏开发
游戏(和一些模拟程序)经常需要使用随机数,去应付不同的游戏(或商业)逻辑. 本文分析一个常见问题:有N类物件,设第i类物件的出现概率为P(X=i),如何产生这样的随机变量X. 输入数组<0.12, 0.4, 0.4, 0.07, 0.01> 输出符合以上概率的随机数序列,如<1, 4, 2, 1, 2, 2, 1, 0, ...>.

体罚孩童会增加患精神疾病概率

- - Starming星光社最新更新
      研究人员称,在儿童时期受过伤的成年人出现心理问题的概率更高,包括焦虑症、酗酒和吸毒.       该项研究首次探寻了心理问题和一般责打之间的关系. 为了更好地了解简单体罚的影响,更加严重的虐打被排除在外.       根据加拿大的曼尼托巴大学研究表明,在孩童时期被责打过的人往后产生心理问题的概率比常人高2~7%.

下篇 | 使用 Transformers 进行概率时间序列预测

- - SegmentFault 最新的文章
在《使用 Transformers 进行概率时间序列预测》的第一部分里,我们为大家介绍了传统时间序列预测和基于 Transformers 的方法,也一步步准备好了训练所需的数据集并定义了环境、模型、转换和 InstanceSplitter. 本篇内容将包含从数据加载器,到前向传播、训练、推理和展望未来发展等精彩内容.

不要相信直觉!那些概率统计的奇妙结论

- liuce.cn - 死理性派 - 果壳网
对于概率和统计的不确定性,我们始终有足够的直觉. 虽然如此,这依旧远远不够,多数人对概率的理解其实并不充分. 要知道这是一个数学家稍有闪失就会错的一塌胡涂的领域,原因很多时候正是我们的直觉,而正确结论却与之相悖. 我们不妨来看看几个概率统计中的奇妙结论,这也正是概率统计这门学科的魅力所在. 在单位圆内随机地取一条弦,其长超过该圆内接等边三角形的边长√3的概率等于多少.

学好数学很重要-谈CRC32碰撞的概率和可能性

- 三马 - 白菜的博客
      前段时间跟某大牛叽歪的时候,才被提到我写的一篇文章里提到的CRC32算法有误. 今天写代码,恰好需要用到这个函数,想起来了,就又回去看了下. 确认了下,原先的文章并没有错误,但是有一处描述是很有问题的.       原文是这样的,『综合以上的思路,决定采用CRC32来实现. CRC32也是一个哈希算法,和MD5类似,不过它是32位的,故更短一些,速度也更快.