熵、交叉熵和KL散度的基本概念和交叉熵损失函数的通俗介绍

让我们试着去理解最广泛使用的损失函数-交叉熵。

交叉熵（也称为对数损失）是分类问题中最常用的损失函数之一。但是，由于当今庞大的库和框架的存在以及它们的易用性，我们中的大多数人常常在不了解熵的核心概念的情况下着手解决问题。所以，在这篇文章中，让我们看看熵背后的基本概念，把它与交叉熵和KL散度联系起来。我们还将查看一个使用损失函数作为交叉熵的分类问题的示例。

什么是熵？

为了开始了解熵到底指的是什么，让我们深入了解信息理论的一些基础知识。在这个数字时代，信息是由位（0和1）组成的。在通信时，有些位是有用的，有些是多余的，有些是错误的，等等。当我们传递信息时，我们希望尽可能多地向接收者传递有用的信息。

在Claude Shannon的论文“通信数学理论（1948）”中，他指出传输1位信息意味着将接收者的不确定性降低2倍。

让我们看看他是什么意思。例如，假设一个地方的天气是随机的，每天都有50-50个晴天或下雨的机会。

现在，如果一个气象站告诉你明天会下雨，那么他们已经把你的不确定性降低了2倍。起初，有两种可能性相同，但在收到气象站的最新消息后，我们只有一种可能性。在这里，气象台给我们发送了一点有用的信息，不管他们如何编码这些信息，这都是真的。

即使发送的消息是“未雨绸缪”的，每个字符占用一个字节，消息的总大小对应40位，但它们仍然只传递1位有用信息。

假设天气有8种可能的状态，所有的可能性都一样。

现在，当气象台给你第二天的天气时，他们会把你的不确定性降低8倍。由于每个事件都有1/8的机会发生，因此折减系数为8。

但如果可能性不一样呢？比如说，75%的几率是晴天，25%的几率是雨天。

现在，如果气象台说第二天会下雨，那么你的不确定性就降低了4倍，这是2位信息。不确定性的降低只是事件概率的倒数。在这种情况下，25%的反比是4，对数（4）到基2等于2。所以，我们得到了2位有用的信息。

如果气象台说第二天会是晴天，那么我们就能得到0.41位有用的信息。那么，我们平均要从气象站得到多少信息呢？

好吧，有75%的可能性明天会是晴天，这给了你0.41比特的信息，25%的可能性明天会下雨，这给了你2比特的信息，这相当于，

我们平均每天从气象站得到0.81位信息。所以，我们刚才计算的是熵。这是一个很好的衡量事件有多不确定的指标。它是由，

熵的方程现在完全有意义了。它测量你每天学习天气时得到的平均信息量。一般来说，它给出了我们从一个给定概率分布的样本中得到的平均信息量，它告诉我们概率分布是多么不可预测。

如果我们生活在一个每天都是晴天的沙漠中间，平均来说，我们每天从气象站得不到多少信息。熵将接近于零。另一方面，如果天气变化很大，熵就会大得多。

交叉熵

现在，我们来谈谈交叉熵。它只是平均消息长度。考虑到8种可能的天气条件的相同示例，所有这些条件都同样可能，每个条件都可以使用3位编码。

这里的平均消息长度是3，这就是交叉熵。但现在，假设你生活在一个阳光充足的地区，那里的天气概率分布如下：

每天有35%的可能性是晴天，只有1%的可能性是雷雨。所以，我们可以计算这个概率分布的熵，

Entropy = -(0.35 * log(0.35) + 0.35 * log(0.35) + 0.1 * log(0.1) + 0.1 * log(0.1) + 0.04 * log(0.04) + 0.04 * log(0.04) + 0.01 * log(0.01) + 0.01 * log(0.01))

Entropy = 2.23 bits

注意，这里使用的二元的记录。

所以，平均来说，气象台发送3位，但收信人只能得到2.23个有用的位。我们可以做得更好。

例如，让我们这样更改代码：