本篇文章6797字,读完约17分钟

根据雷锋的《人工智能科技评论》,“深度学习”是机器学习领域的一本沉重的书。这三位作者是伊恩·古德费勒,机器学习领域的名人和谷歌大脑研究科学家;蒙特利尔大学教授,神经网络领域的三位创始人之一(也是伊恩·古德费勒的老师);蒙特利尔大学的神经网络和数据挖掘教授亚伦·科尔维尔。只要看看作者阵容,我们就知道这本书肯定能从基础知识和深层次学习的原则中谈论最新的方法,并且在技术的应用方面有很多具体的介绍。这本书不仅是针对大学生学习相关专业,但也提供了可靠的指导和新鲜的想法,以解决问题的研究人员和技术人员在该行业。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

面对如此精彩的书,不管你是否开始读它,雷锋。(公开号码:雷锋。人工智能研究协会希望为每个人提供一个共同讨论和提高的机会。所以我们邀请了在百度和阿里工作的高级算法工程师王启文与大家分享他的阅读经验。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

分享者:王启文,高级算法工程师,在百度和阿里工作,担任推荐系统、分布式系统、数据挖掘、用户建模和聊天机器人。“在算法的道路上,前进”。

“深度学习”阅读分享(3) ——第三章概率论与信息论

然后,在第二章之后,我们分享“深度学习”一书的第三章:概率论和信息论。

这节课将讨论一些基本概念,常用的分布,频率学派和贝叶斯学派的区别,贝叶斯规则,概率图,最后是信息论。这里的第4条:许多人可能第一次看到它,并且学到了如此多的概率,以至于他们甚至不知道它。那你真的是白学了。真的,不是开玩笑。然而,说实话,直到几年前我才知道这所学校的不同之处,因为它在浙江大学第三版的教科书中没有提到这一点。似乎提到频率学派是古典概率,没有别的,这也是现行教科书的缺陷。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

概率的概念是描述一个事件的可能性,比如今天是否下雨?在我们通常的回答中可能会有一些口语表达,比如可能的话,80%,好像是的,天气预报说是的。这是一种可能性或可信度。我们如何用数学方法来衡量它?是通过概率。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

为什么每个事件都有一些可能性?有时可能会发生,有时可能不会发生。它是由许多原因造成的,因为一切事物都有一定的不确定性和随机性,而它的来源是系统本身,即事件本身的随机性;第二,即使你了解系统的一些基本特性,在观察时也不一定准确,因为观察中会有随机误差,比如测量时的设备因素;第三,例如,你观察到的变量上的一些事件服从正态分布。这个正态分布真的正确吗?不一定,所以存在建模不完整的问题。这是不确定性和随机性的三个因素和三个原因。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

概率是不确定事件的表示和推理。书中提到简单和不确定的规则比复杂和确定的规则更实用。你怎么理解这个?就像第一句,大多数鸟会飞,这很容易理解,但事实上,第一句非常不精确,因为它有很多情况,有些鸟不能自己飞(企鹅,鸵鸟),有些年轻,生病,不能飞;如果它更严格,它可以表示为“除了什么”。。。什么?。。鸟儿可以飞到外面去”,而且它们听的时候很累。也就是说,简单和不确定的规则比复杂和确定的规则更实用。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

机器学习中有一个类似的概念叫做奥卡姆剃刀。简单的模型可以得到相似的结果,比复杂的模型有更高的精度。

有几类事件。不可避免的事件,太阳在东方升起,在西方落下是不可避免的;不可能的事件,1+1不能等于2(不要进入这个角落,在这个区域有很多段落,不要告诉我陈景润证明了1+1不等于2,我很担心你);我们赢得了500万张彩票,这是一个概率很小的事件。如何衡量小概率?是正态分布标准偏差的三倍,与μ 3 δ有关。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是对事件可能性的衡量,包括三类:不可避免的事件、随机事件和不可能的事件

以前的人做过一些实验——抛硬币来观察正面出现的可能性。可以看出,2048次仍然是0.51,然后越来越多的时候,它接近交易本身:当抛硬币时,正面和背面的概率应该是1/2。也就是说,实验越多,就越接近事件本身的概率,这也被称为大数定律。(注意:皮尔森真的很笨,扔了3.6瓦,哈哈,科学家看起来很“笨”)

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

有两类随机变量,根据其空.值可分为离散型和连续型不同的类别有不同的概率密度函数。Pdf概率密度函数是连续的,而pdf概率质量函数是离散的,这对应于不同的求解方法。这在机器学习中通常是很明显的。如果它是离散的,它就是一个分类问题;如果连续问题是返回问题,这是一对一的对应。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

概率将满足一些性质,如非负,加法,归一化,归一化意味着和为1。

这是一个离散的概率分布,事件x有可能得到x1,x2等等。这是一个离散的概率分布,如果它是连续的,就变成积分。

我们已经看到许多表达式,如均值、方差和协方差。注意,方差前面的分母是n-1,因为在这个地方使用了期望,而期望已经用完了一个自由度,所以这个地方的自由度应该减少一个;注意这个地方,否则在计算方差时会很尴尬。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是一个时间序列,它测试一个序列的平稳性,知道它的期望值是常数还是方差是常数。期待一个类似的意思。在图中,绿色序列的期望值是固定的,而红色序列的期望值是变化的。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

方差意味着波动幅度每次都应该相同。绿色序列的方差是固定的,红色序列的方差是变化的。

还有一个协方差。如果你拿自己和自己做比较,每个变化的周期应该是一致的。就像这个红色序列,前面的周期更长,后面的更短,再长,它的周期是不断变化的,这也是不稳定的。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

对方差的直观理解意味着,每个值之间的差异预计将被平方和求和,以获得近似的平均值(n-1除外)。

协方差是两个变量之间关系的度量,两个随机事件x和y;这种关系是指线性关系,而不是任意关系。如果X和Y是非线性关系,这种协方差就不能求解,应该引起注意。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是相关系数,它是使用的协方差,然后除以它的两个方差d(x)d(y);如果相关系数在不同的值,这意味着有不同的相关程度。0表示根本没有线性关系,-1表示完全负相关,1表示完全正相关。所有这些都是线性关系。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是一个图形解释,线性是这样的。二维空中的直线有一个斜率;这种非线性不能用协方差来衡量。

介绍几个概念。边际概率是,如果联合分布涉及两个事件,X和Y,那么固定的X将看到它的平均分布,这就是所谓的边际概率。条件概率是一个事件发生时另一个事件的概率分布。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是总概率公式,即当B事件发生时,求A的发生概率;b可能有多种值,每个值都应该计算。

链式法则是可能有多个依赖关系。像这种联合分布,三个事件,A,B和C,需要C发生,B发生,然后当B和C同时发生时,A发生。这是连锁规则。

这些是概率中几个重要的概率。条件概率和总概率刚才已经提到,贝叶斯是基于这两个基础。

这就是大爆炸理论。谢尔顿正在检查这个。

常用的概率分布,均匀,伯努利;类别分布中不再有一个值,而是多个值。实验一次有很多结果,相当于掷骰子和前面扔硬币,所以硬笔里只有两个值;还有高斯分布,也叫正态分布。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这个正态分布的钟形曲线。对于标准正态分布,平均值为0,标准差为1;这个数字包括正负两个标准差的范围,这不是我们常用的绘图方法。一般情况下,绘制时会绘制三个标准偏差,在此范围内曲线下的面积占总面积的99.7%。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是几个概率分布之间的关系,我分别整理出来了;他们之间的变化是有规律的。

伯努利分布相当于扔一次硬币;

多次投掷后,它变成二项分布;

多次投掷直到成功都是几何分布,比如第一次投掷三次看正面出现的概率;

负二项分布意味着在实验停止之前,实验进行了n次,成功了r次;

超几何分布不同于二项式分布,其核心区别在于它是一个没有放回的样本,而二项式分布是放回的;

核心当然是正态分布。

这幅图显示了在什么情况下应该使用什么样的分布。我们先不要谈细节。让我们等到以后使用它。

中心极限定律是多个随机变量的总和。如果把它看作一个新的随机变量,它也近似服从正态分布,这意味着。

书中有高斯分布,这意味着刚才提到的分布相对简单。我们能集成它们并设计我想要的分布吗?这使用高斯混合模型,其中他构建了三个概率分布:

第一个表达式是“各向同性”,其中两个变量x1和x2的分布方差必须相同。从整个几何图形来看,这些数据点就像一个球体或一个圆。每个方向的变化是相同的,这是一个规则的形状。如果他们不满意,就会变成两三种情况。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

第二组使用对角矩阵,即x1和x2在正方形矩阵的对角线上,其他位置为零,这控制了维度y之上的方差并将其放大;这相当于拉伸第一个变化。

第三种情况类似,X轴也是拉伸的;当然,在Y轴方向上存在拉伸,这意味着两个变量x1和x2的方向可以任意控制。这是高斯混合模型的功能,可以根据您想要的分布进行设计。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这里有一些伟大的人物。一个是数学王子高斯,他与阿基米德和牛顿并列为世界三大数学家。德国的货币叫马克,印在十个马克上的头像是高斯分布,头像的左边是正态分布;硬币上也有。似乎只有德国把科学家印在纸币上,其他国家基本上都是政治人物,这也反映了可怕的日耳曼民族。(值得学习)

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是一个标准正态分布。一次标准差、两次标准差和三次标准差对应的面积不同,分别为68%、95%和99.7%。超出三重标准差的事件被视为小概率事件,这也是它的定义。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

右图显示了一些相关的用法。例如,假设检验验证α,它也称为分位数。例如,0.05以上的概率是多少,验证点估计或区间估计的可靠性。

常用函数,这是一个sigmoid,它具有饱和特性。

还有一个softplus,它是softmax的弱化。Softmax将从右向左直接下降到0,并且在0的位置有一个突变,然后继续行走;点0的左导数和右导数不同。左导数为0,右导数为1,因此点0处的导数不存在。我该怎么办?为了数学好看,推导方便,把它变成softplus。在点0处变换后,它将作为一个整体被平滑,并且每个点都是可导的。实际上,书中也提到了relu经常用在深度网络dnn中,softmax就是在relu中。Softmax是relu的推广。relu中的0点也是不可微的,所以有一些常规的方法,也就是说,如果它达到这个点,他会给出0或1,这取决于具体情况。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是一些概率函数的基本性质。Sigmoid导数非常方便,并且还有其他特性。Softplus也有一些好的特性。(x)-(x)等于x,这很简单。

频率学派和贝叶斯学派。让我们先来谈谈贝叶斯。他起初只是一个牧师,也就是说,一个牧师。有趣的是,他做数学研究是为了研究上帝的存在;这有点像牛顿,但牛顿在早期没有做太多的研究。当他老的时候,他研究上帝,但是他最终没有得到任何结果。贝叶斯是一个彻头彻尾的学术屌丝,并于1742年加入皇家学会;当时,也有养牛人推荐它。他没有发表任何论文,但不知怎么就进去了。后来,情况相当悲惨,1761年他去世时没有任何消息。1763年,他的最后一部著作《在机会理论中解决问题》被发现,贝叶斯理论诞生了。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

当它出生时,它仍然是平静的,没有任何影响。直到20世纪,也就是几百年后(是的,当黄花菜变冷,花儿凋谢的时候),贝叶斯理论变得越来越有用,它已经成为概率论中的第二大学派。一般来说,当提到概率时,会提到频率学派和贝叶斯学派。这个人物,像梵高一样,在他死前毫无价值,在他死后却有价值。贝勒(不要想太多,不要在荒野中生存)非常非常低调。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

还有一个更悲剧的数学天才——加洛伊斯,他是法国群论的创始人,也是一个非常强大的天才。当我十几岁的时候,我提出五次多项式方程的解不存在。我把它一个接一个地展示给别人,希望大神会介绍和宣传它。柯西、傅立叶、泊松和其他人由于各种原因错过了这些结果,有些丢失了,有些被拒绝了。总之,那些大师们并不乐观。然后,在他21岁的时候,他年轻而充满活力,当他不开心的时候,他和他的情敌决斗,情敌是一个侦探,用枪战斗,然后光荣地死去。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

当然,在决斗的前夕,他知道他会挂断电话(知道他快要死了,而且快要死了。这是什么样的灵魂?),所以连夜整理你的手稿,解释事情,这就是群论的诞生。后来人们认为他是一个“愚蠢的天才”,他的英年早逝直接延缓了数十年的数学发展。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

上面的图片显示的是贝叶斯,不一定是他自己,因为这个人太低调了,甚至找不到图片,所以没有人能记得清楚,所以不一定是这样。下面是被击落的加洛瓦。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是贝叶斯规则,也就是条件概率。x和y是两个随机变量,y发生时x发生的概率乘以x发生时y发生的概率,再除以y单独发生的概率。一般来说,这是用于一些歧视和分类。机器学习分为两类:生成式和判别式。判别式的一个典型例子是贝斯规则;生成方法与判别方法的区别在于,生成方法使用模型尽可能地拟合其联合分布,而判别方法拟合条件分布。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

贝叶斯学派和频率学派的最大区别和根本区别在于模型y=wx+b,其中参数W和B是固定的。频率学派认为,只要通过连续采样和观察训练,参数W和B是固定的,就可以估计出来。相反,贝叶斯学派认为这些参数是变量,它们服从一定的分布,这是其最根本的区别。在此基础上,发展了最大似然估计或映射等。与众不同。这完全是两个不同的学校。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

从条件概率导出的贝叶斯规则。甲、乙、丙的联合分布可以这样表示,然后它可以对应一个图,概率图。像这样。

甲出现与乙出现之间存在一定的依存关系。一般来说,如果a、b和c是完全独立的,那么p (a、b和c)等于p(a)、p(b)和p(c)的乘积。这个图和张量流中的图一样。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

让我们介绍一下信息论。信息论是由香农提出的。1948年,他发表了一篇名为《通信的数学原理》的论文,对信息和通信行业产生了巨大的影响,相当于冯·诺依曼在计算机行业的水平。但他的功劳被低估了(吴俊的《数学美》)。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

信息论主要解决什么问题?首先,概率是事件发生时的可能性。如何衡量信息量?第二,对于一个随机事件,比如今天下雨,有多少信息?如果是在南方,可能会经常下雨,而且信息量不大;如果你在北方或北极,信息量将是巨大的。事实上,它是随机事件的概率分布,这个分布中的信息量是用熵来衡量的。以上是自我信息,条件分布,对应于条件熵;和相互信息等等。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

总之,信息论是以概率论为基础的,基本上概率论中的每一个概率都可以对应信息论中的解释。

这是香农和三本书提到的三个特征:

很可能发生的事件由于其高确定性而信息较少;

如果它不可能发生,或者很少发生,它的信息量就比较大;

独立事件有增量信息,刚才提到的雨就是一个例子;另一个例子是太阳从东方升起,又从西方升起。这两个事件是完全独立的,两个事件的信息量可以相加。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

这是信息论的几个概念,如自信息、互信息和条件熵。上面的公式是自我信息的标准,只要取一个对数并加上一个负号。熵是将各种情况相加,然后取平均值。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

信息论现在与各种行业和领域密切相关,如统计学、经济学和数学,它们都有很大的影响。

请看左边的图表,它显示了不同熵之间的关系。左边的整圈是X事件的范围,中间的十字部分是互信息。不同熵之间的关系用韦恩图表示。

这是交叉熵,也是一个关键概念。这是为了衡量一个事件的概率。就像左边接近于零一样,它表明这个事件的可能性很小,所以它对应的信息较少;然后到0.5的中间。例如,投掷硬币有两种结果。0.5的两个结果基本上是猜测出来的,完全是随机的;由于这个原因,不清楚结果是什么,相应的信息量是最大的;同样,在另一个极端,这个事件肯定会发生,可能性很大,而且信息量很小。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

还有一个kl散度,它基本上衡量两个概率分布之间的差异。这个公式也很复杂。如果你自己想一想,你必须先看一遍,然后才能直观地理解它。我现在说不清楚。(注:信息论也可以被可视化,请参考科拉的博客《视觉信息论》)

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

机器学习中也存在交叉熵,它与熵密切相关。区别在于少了一件东西。

这是kl散度,它是非对称的,也就是说,调整概率p和概率q的顺序是一个不同的概念,这两个不同的顺序应该在不同的场景中使用。它的目标是构造一个概率分布来近似和模拟另一个概率分布。这个概率分布由两个正态分布组成,并且这两个分布是叠加的。如何将其与Q相匹配?如果你使用左边的散度来测量和计算分布之间的误差,这个误差对应于kl散度,然后根据kl散度方向调整它。这是它的过程,类似于机器学习的过程。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

如果我们用左边的kl散度,P在Q之前,那么我们会得到这样的结果;绿色是合适的概率。其效果是保证在概率高的地方拟合概率高,而不考虑概率低的部分,所以结果将是平滑的。概率之和仍然是1,因此有必要确保标准化。在右边,反过来,Q在P之前,所以应该首先保证低概率,而高概率应该被忽略,所以拟合的概率分布应该尽可能向一个峰值倾斜,并且只能保证一个峰值。这解释了kl散度不对称的应用,它可以根据不同的应用场景采取不同的方向。

「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

刚才ppt里提到的一般内容,图片都是从朱的《大嘴谈数据挖掘》一书里出来的,的,这本书都是用图片来说明的,很好;还有“数学美”和一些概念。

好了,我说完了。

雷锋的人工智能科技评论。我要感谢来自王琦的各位嘉宾分享和校对并补充这篇文章。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:「Deep Learning」读书系列分享第三章:概率和信息论 | 分享总结

地址:http://www.hcsbodzyz.com/hcxw/6790.html