首页 » 信息技术 »

用直觉理解Cost函数

2019年1月7日 / 89次阅读

  • 打开支付宝,搜索“ 529018372 ”,领取专属红包!每日支付每日领。

在学习英文的神经网络资料的时候,经常会看到直觉这个词(intuition),国外的学者有倾向于通过直觉来理解和寻找灵感的习惯。本人很认同这种思维方式,这篇博文是今天下午在公交车上的一个机灵,通过直觉来理解各种常见的Cost函数。

首先,能够作为神经网络训练时候使用的Cost函数,需要具备两个直觉上必须要满足的条件:

(1)函数值为正;这样训练过程才能不断地去减小它;

(2)当神经网络的输出接近正确值的时候,Cost函数会趋近于越来越小。

 

二次Cost函数

二次Cost函数,英文是Quadratic Cost Function。函数表达式如下:

$$C(w,b) = \frac{1}{2n} \sum_x \| y(x) - a\|^2$$

1/2的出现,完全是为了简化计算,求导的时候指数上的那个2拿下来就约掉了,这个简化完全不影响函数的效果。(同样的1/2简化思路还在weight decay中出现。)

这个Cost函数,还有很多其它的名字,比如MSE,LSE,最小二乘法函数等,其实都是一个东西。这个函数从直觉上也很好理解,就像方差,将神经网络的输出与正确值的差取平方和。函数值为正,并且当神经网络在输出接近正确值的时候,函数趋向于越来越小。

选择二次Cost函数,其实背后也是有严格的数学推导的,虽然直觉上很容易能够理解这个函数。

 

交叉熵函数

交叉熵函数,英文是Cross Entropy Cost Function。函数表达式如下:

$$C(w,b) =-\frac{1}{n} \sum_x \left[y \ln a + (1-y ) \ln (1-a) \right]$$

最前面的负号,是为了让表达式的值为正。

我们可以从这样来理解交叉熵函数:

(1)当y需要输出是1的时候,乘以lna,在a趋向于1的时候,ylna趋向于0;

(2)当y需要输出是0 的时候,乘以ln(1-a),在a趋向于0的时候,(1-y)ln(1-a)趋向于0.

因此整个表达式为正,通过在训练过程中会趋向于0,可以作为Cost函数。

以上(1)和(2)分表对应了两个表达式的子项,这两者缺一不可。因为,我们既要让应该是1的输出,趋向于1,也要让应该是0的输出,趋向于0。关于这句话的理解,你在看完下面的softmax函数之后,就会理解了。

还有一种关于交叉熵函数的直觉的理解:交叉熵函数在配合sigmoid神经元激活函数的时候,解决了最后输出层学习慢的问题;解决学习慢的方式,是在求导的时候,将sigmoid函数针对weighted input (z)的导数约掉了,最后得到了a-y这样的差错表达式(术语源自BP算法);因此,如果我们使用a-y来求积分,进行反向计算,得到的就是交叉熵函数。

选择交叉熵函数,背后也是有严格的数学理论推导,这个函数如上所述,适合于配合sigmoid函数,并且适合在分类问题上使用。

 

Softmax输出层

Softmax的引入,改变的不仅仅是Cost函数,还有整个输出层。神经网络输出层的表达式为:

$$a^L_j = \frac{e^{z^L_j}}{\sum_k e^{z^L_k}}$$

softmax将输出层映射为一个概率分布,因此其对应的Cost函数,就表达成了:

$$C(w,b) = -\frac{1}{n} \sum_x \ln a^L_y$$

看着是不是很像交叉熵函数,是的!其实就是交叉熵函数的这部分:ylna。只不过,y取值为1,就不写了。

从直觉如何来理解:

(1)依然是函数为正;

(2)趋向0;

(3)只计算y=1时,对应的a的表达式的值.

为什么softmax只计算y=1时的值,就可以作为Cost函数的输出呢?为何这里跟交叉熵不一样?

因为,softmax是将神经网络的输出层,映射为了一个概率分布,只有概率最高的那个值是有意义的,当概率高的那个输出越来越高的时候,其它的分布值自然就会越来越小,这就是跟交叉熵不一样的原因。

数学妙的地方,在于,softmax层推导出来的误差依然是a-y,跟交叉熵一样。即解决了最后一层学习慢的问题,也一定程度上解决了交叉熵函数在某些时候计算过程中,出现runtime warning的问题。(调试过神经网络的同学,应该有体会)

 

以上就是通过直觉来理解神经网络经常使用的几个Cost函数的内容。

本文链接:http://www.maixj.net/ict/zhijue-cost-19885

相关文章

留言区

电子邮件地址不会被公开。 必填项已用*标注


前一篇:
后一篇:
推一篇:可靠正规,长期稳定,网络兼职项目!!

栏目精选

云上小悟,麦新杰的独立博客

Ctrl+D 收藏本页

栏目


©Copyright 麦新杰 Since 2014 云上小悟独立博客版权所有 备案号:苏ICP备14045477号-1。云上小悟网站部分内容来源于网络,转载目的是为了整合信息,收藏学习,服务大家,有些转载内容也难以判断是否有侵权问题,如果侵犯了您的权益,请及时联系站长,我会立即删除。

网站二维码
go to top