深度学习-007-2017.11.29

第2部分——第6章 深度前馈网络

6.3.2 logistic sigmoid 与双曲正切函数

tanh(z) 一般比 sigmoid 表现更好。

6.3.3 其他隐藏单元

隐藏单元是一个很活跃的研究领域,很多人也能找到效率高一点的隐藏单元,但是和现有成熟的隐藏单元表现大致相当的话,价值并不大。

6.4 架构设计

架构设计涉及到网络的宽度和深度(层数)。深度更深的网络一般效果更好,但是对于参数更难以优化。

6.4.1 万能近似定理和深度

万能近似定理:网络具有线性输出层,至少一层带激活函数的隐藏层,只要有足够数量的隐藏单元(不同层的隐藏单元数不同,同一层的称之为单元组)。就可以以任意精度来近似被学习的函数。

网络深度越深,能够很好的减少泛化误差,表现更好,如果深度不够,即使增加隐藏单元,并不一定能够有效的提高精度,甚至降低精度。

6.5 反向传播和其他的微分算法

反向传播算法允许来自代价函数的信息通过网络反向流动,用于计算梯度。

反向传播:是指用于计算梯度的方法。

6.5.1 计算图

神经网络节点图来描述网络的结构和操作。

6.5.2 微积分中的链式法则

关键:对于张量(指标大于等于2,等于2的时候是矩阵)的微分的链式法则,标量对矢量的导数(梯度),标量对张量的导数(高维梯度),分量的写法和整体的记法需要对应起来,才能更好的理解。

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.11.27

第2部分——第6章 深度前馈网络

6.2.2.4 其他的输出类型

在语音生产模型、物理运动模型里面高斯混合输出很有效。

线性、sigmoid、softmax输出单元是很常用的。

本节只是在Bernoulli和Multinoulli分布上使用的sigmoid和softmax输出单元的基础上做了一个简单的拓展和概括性的描述。也是说,在特殊问题中,我们将要考虑(寻求)合适的输出单元的函数来构建基于极大似然估计的成本函数。

6.3 隐藏单元

一般应用仿射变换:wx+b,然后使用逐元素的非线性函数g(z),激活函数g(z)一般不同。

6.3.1 整流线性单元及其扩展

ReLU函数是一个常用的整流线性单元,一般作用于仿射变换(wx+b)之上,整流线性单元或其他的扩展都基于一个原则,行为要接近线性,才更易优化。

maxout单元是分组,这个是工程实现的问题了。

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.11.24

第2部分——第6章 深度前馈网络

6.2.2.2 用于Bernoulli输出分布的sigmoid单元(第二次讨论)

目的:构造成本函数J(theta)

要求:J具有较大的梯度(容易通过梯度下降,找到参数theta,是的J取极值),对于(6.18)的来构造的成本函数,有较大的饱和区域,因此利用sigmoid函数改造线性回归变换,是的J没有饱和区域或者在饱和区域已经得到正确的结果。

6.2.2.3 用于Multinoulli 输出分布的softmax单元

对于二值问题(Bernoulli分布),可以使用sigmoid函数改造成本函数J(theta),

对于多值输出问题Multinoulli分布,可以用softmax函数改造成本函数J(theta),目的是避免出现饱和(J(theta)变的非常平)。

综合起来,整个流程如下:

训练集{x_i}, 参数theta,输出{y_i},条件概率p(y_i|x_i;theta),构成极大似然估计函数 p(y_1|x_1;theta)……p(y_n|x_n;theta) 连乘,

对于上述的连乘函数,取负对数,既成本函数,然后基于成本函数,应用梯度下降法,取得theta,并让J(theta)在该theta处取极值。

对于p(x)不同的分布,会涉及到对成本函数构造的一个修正,比如Bernoulli分布用sigmoid函数和Multinoulli分布用softmax函数,分别对各自的成本函数J(theta)改造。

 

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.11.17

第2部分

第6章 深度前馈网络

6.1 实例:学习XOR

对于一个2值问题,利用线性回归模型,找到一个解析解(主要是为了说明解决问题的流程),得到拟合(统计)参数。

6.2 基于梯度的学习

大多数情况下,参数模型定义一个分布p(y|x;theta),并使用极大似然估计确定成本函数J(theta)。

任何一个负对数似然组成的成本函数,都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。

贯穿神经网络始终的:代价函数的梯度必须足够大,并具有足够的预测性,为学习算法提供一个好的指引。构造成本函数的时候要尽可能避免J变的非常平(对应梯度为0,饱和)

6.2.2 输出单元(第一次讨论)

对于Bernoulli分布,找到了 sigmoid函数,来对非线性化(避免所有层之间线性回归导致等效为2层的线性回归),同时也为避免出现饱和现象。

成本函数J依然通过极大似然估计的负对数来实现。

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.11.10

第5章

5.7 监督学习算法

大多数的监督学习是给予估计条件概率p(y|x)。

具体算法分为:支持向量机(很重要的一个分支,后来被联结学派打败),决策树等,同样被联结学派打败。

5.8 无监督学习算法

主要是:PCA(主成份分析),k-均值聚类。

都是为了分类。

用训练集训练,用测试集测试。训练参数。

5.9 随机梯度下降

应用极大似然估计(为主)获得成本函数 J(theta) ,利用J的梯度下降趋近于0(如果存在)寻找J的极值点。

5.10 构建机器学习算法

特定的数据集、成本函数、优化过程,模型。

5.11 促使深度学习发展的挑战

介绍了各种困难,比如维数灾难。

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.11.3

第5章

5.5 极大似然估计

极大似然估计是估计统计参数的一个非常重要的方法。是机器学习中的首选估计方法。极大似然估计有点模糊了,就把概率论与数理统计的教材找出来,重新拉了一遍。

5.6 贝叶斯统计

相对于极大似然估计是点估计,贝叶斯统计是区间估计。

贝叶斯统计对应机器学习中的是,贝叶斯学派。

 

发表在 我爱读书 | 标签为 | 留下评论

深度学习-007-2017.10.27

第5章

5.4 统计,无偏估计,方差。

对于数据训练问题中出现的欠拟合和过拟合问题,可以用偏离+方差来确定,

泛化误差会随着模型容量先减少后增加,而偏离+方差规律一致并吻合,

偏离随着容量增加而减少比较容易理解,比如以多项式拟合,一般来说在数据量充分的前提下,阶数越高,拟合精读越高,因此偏离越少。

但是为何方差会随着容量增加而减少?这个问题还没有很好的理解,需要进一步讨论。

发表在 我爱读书 | 标签为 | 留下评论

Zz中科院院士姚期智:计算机科学正在迎来黄金时代

 

■本报记者 彭科峰

“计算机科学正在迎来一个前所未有的黄金时代。阿尔法狗横扫中韩等国的围棋高手,量子计算机或在近5年内问世,这些新闻无不证明了这一点。”在日前由阿里巴巴集团举办的杭州云栖大会上,中科院院士、清华大学交叉信息研究院院长姚期智向记者表示,计算机科学正在打破边界,带来新变革。而且,当前计算机科学的黄金时代是“前所未有”的,与过去的辉煌时代不同,影响力也更加深远。

姚期智介绍,当前,国内外的众多科技公司正在努力拓展自己的经营范围,比如微软、谷歌、IBM等正在研发量子计算机。2015年,Alphabet成立,谷歌成为全资子公司,旗下的众多子公司也在关注包括生命科学、自动驾驶、风险投资、金融服务等在内的各种领域。

姚期智表示,以制药行业为例,以前制药企业会雇佣一些计算机学家来编写代码、设计算法,“也就是说生理学家雇佣了计算机科学家”。但现在谷歌等科技公司也成立了生命科学部门,如果谷歌也要研发药物的话,那么两者的雇佣关系发生了逆转,变成计算机科学家雇佣医学家。“目前,计算机在药物研发过程中发挥着重要作用。角色逆转趋势在未来可能愈演愈烈。至于未来哪个学科会处于主导地位,这要看哪个学科贡献的价值更高。”

为什么会这样?姚期智认为,主要是3个原因导致了计算机科学黄金时代的到来。第一,计算机科学此前低调地累积了三四十年知识,但很多理论结果没有得到应用,理论准备充足。第二,不同学科的跨界合作越来越普遍,这意味着计算机成果可以跨领域应用,对其他学科、领域产生影响,而不仅仅是一种应用工具。第三就是计算机科学在商业世界得到广泛运用,特别是高新产业领域,这可以看作决定性因素。

“过去,学术圈为了获得认可和职称,一般更加注重理论研究,不太关心成果的应用情况。虽然近三四年在应用上的注意力有所增长,但总体来说仍然和过去相似。但是未来可能会更好,学术界会有更多人思考成果应用,而不是简单地进行理论研究。”姚期智最后表示。

《中国科学报》 (2017-10-25 第4版 综合)
发表在 吱吱喳喳 | 留下评论

深度学习-006-2017.10.24

第5章,

5.2对于容量,过拟合,欠拟合这几个概念展开阐述。

对于容量一个直观的例子是多项式的阶数,高则参数多,则容量高。

过欠拟合,要针对数据集选择合适的参数容量,否则会出现训练误差小但是测试误差大。

正则化,引入权重衰减等正则化项,是控制过欠拟合的一种算法,目的是降低泛化误差。非常重要的概念。

5.3 超参数和验证集

比如容量,正则化里的参数都是超参数,这是不能用训练集上的学习来获取的。

训练集获取学习参数,验证集获取超参数。

当数据集不够大时,有k折交叉验证算法来解决(部分的)数据集不够大带来大误差的问题。

发表在 我爱读书 | 标签为 | 留下评论

深度学习-005-2017.10.17

听报告。

新一代人工智能及其挑战

吴飞(浙大杰青)

主要是从国家政策上来看人工智能。

有一句话印象很深:现在的人工智能就像20世纪初的电力一样,会成为未来的基础设施。

发表在 我爱读书 | 标签为 | 留下评论