交叉熵和对数损失函数之间的关系

编程之家收集整理的这篇文章主要介绍了交叉熵和对数损失函数之间的关系编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

搜索热词

交叉熵@H_502_3@

熵/信息熵

假设一个发送者想传输一个随机变量的值给接收者。这个过程中,他们传输的平均信息量为:

\large H[x]=-\sum_xp(x){log}_{2}p(x)

\large H[x]

随机变量

\large x

的熵,其中

\large lim_{p\rightarrow 0}p{log}_2p=0

把熵扩展到连续变量

\large x

的概率分布

\large p(x)

,则熵变为

\large H[x]=-\int p(x)lnp(x)dx

被称为微分熵。

在离散分布下,最大熵对应于变量的所有可能状态的均匀分布。

最大化微分熵的分布是高斯分布

\large p(x)=\frac{1}{(2\pi\sigma ^2)^{1/2}}exp\{-\frac{(x-u)^2}{2\sigma ^2}\}

相对熵/KL散度

考虑某个未知分布

\large p(x)

,假设我们使用一个近似分布

\large q(x)

对其进行建模。如果我们使用

\large q(x)

来建立一个编码体系,用来把

\large x

传递给接收者,由于我们使用了

\large q(x)

而不是真实分布

\large p(x)

,因此在具体化

\large x

时,我们需要一些附加信息。我们需要的附加信息量为:

\large KL(p||q)=-\int p(x)lnq(x)dx-(-\int p(x)lnp(x)dx)

                    

\large =-\int p(x)ln\{\frac{q(x)}{p(x)}\}dx

这被称为分布

\large p(x)

与分布

\large q(x)

之间的相对熵,或者KL散度。KL散度大于等于零,当两个分布一致时等于零。

交叉熵

交叉熵本质上可以看成,用一个猜测的分布的编码去编码真实的分布,得到的信息量:

\large CEH(p,q)=-\sum_{x\in\chi }p(x)lnq(x)=H(p)+D_{KL}(p||q)

\large CEH(p,q)

\large =-\sum_{x\in\chi }p(x)lnq(x)

\large =-[P_p(x=1)lnP_q(x=1)+P_p(x=0)P_q(x=0)]

\large =-[plnq+(1-p)ln(1-q)]

\large =-[ylnh_\theta(x)+(1-y)ln(1-h_\theta(x))]

对所有训练样本取均值得到:

\large -\frac{1}{m}\sum_{i=1}^{m}y_ilog(h_\theta(x_i))+(1-y_i)log(1-h_{\theta(x_i)})

对数损失函数@H_502_3@

对数损失函数的表达式为:

\large -\frac{1}{m}\sum_{i=1}^{m}y_ilog(h_\theta(x_i))+(1-y_i)log(1-h_{\theta(x_i)})

参见https://blog.csdn.net/qq_38625259/article/details/88362765

交叉熵和对数损失函数之间的关系@H_502_3@

交叉熵中未知真实分布

\large p(x)

相当于对数损失中的真实标记

\large y

,寻找的近似分布

\large q(x)

相当于我们的预测值。如果把所有样本取均值就把交叉熵转化成了对数损失函数

 

本文转载自:https://blog.csdn.net/qq_38625259/article/details/88371462?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control

总结

以上是编程之家为你收集整理的交叉熵和对数损失函数之间的关系全部内容,希望文章能够帮你解决交叉熵和对数损失函数之间的关系所遇到的程序开发问题。

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢寻找一群志同道合、互帮互助的学习伙伴,可以点击下方链接加入:
编程之家官方1群:1065694478(已满)
编程之家官方2群:163560250(已满)
编程之家官方3群:312128206(已满)
编程之家官方4群:230427597

相关文章

猜你在找的NLP相关文章

HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了联合概率分布,其中x和y分别表示观察序列和相对应的标注序列的随机变
一、GRU算法 GRU(Gate Recurrent Unit,循环门单元)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Ter
本文简单整理了以下内容: (一)马尔可夫随机场(Markov random field,无向图模型)简单回顾 (二)条件随机场(Conditional random field,CRF) 这篇写的非常
什么是注意力(Attention)? 注意力机制可看作模糊记忆的一种形式。记忆由模型的隐藏状态组成,模型选择从记忆中检索内容。深入了解注意力之前,先简要回顾Seq2Seq模型。传统的机器翻译主要基于S
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。在 11 个 NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquA
一、前言 文本分类(Text Classification或Text Categorization,TC),或者称为自动文本分类(Automatic Text Categorization),是指计算
TextRank 算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的 PageRank算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代
目录 Transformer 1. 前言 2. Transformer详解3. 总结 2.1 Transformer整体结构 2.2 输入编码 2.3 Self-Attention 2.4 Multi