IEEE 754：格式的基本原理：次正规数和正规数

问题描述

有人可以澄清一下吗：

为什么次正规数的格式是 ±(0.F) × 2^-126 而不是 ±(1.F) × 2^-127？
为什么普通数字的确切格式是：±(1.F) × 2^exp 而不是 ±(11.F) × 2^exp 或 ±(10.F) × 2^exp？

解决方法

浮点格式使用符号（- 或 +）、指数（e_min 到 e_max，包括），以及一个有效数，它是一个 p 基数 b 的数字，其中 b 是格式的固定基数，p 被称为精度。我们将考虑一种二进制格式，其中 b 是 2。

令有效数的数字为 f₀,f₋₁,f₋₂,... f_1−p，所以有效数是 sum_{−p f_i•bⁱ，和表示的值是 (-1)^s•b^e•sum−p f_i•bⁱ，其中 s 是符号位，e 是指数。}

如果 f₀ 为零，我们可以从总和中省略它，表示的值等于 (-1)^s•b^e•sum_{−p f_i•bⁱ = (−1)^s•b^e−1•sum_{−p f_i•bⁱ⁺¹ = (−1)^s•b^e−1•sum_{1−p f_i−1•bⁱ。因此，当 f₀ 为零，并且 e 不是 e_min 时，数字有两种表示方式。对它们都进行编码会很浪费，所以我们需要一种不对两种表示都进行编码的编码方案。}}}

我们做到了：

某些值 E 对指数 e 进行编码。 s 和 f₋₁ 到 f_{1−p 的值>} 直接存储为位。
如果 E 为零，则 e 为 e_min 和 f0 为零。
如果 E 不为零，e 是 E−bias 和 f >₀ 是 1，其中 bias 是 1−e_min。
（E 的一个特殊值可能会被保留来表示无穷大和 NaN，这里不再进一步讨论。）

这个表示和这个编码方案回答了问题：

为什么次正规数的格式是±(0.F) × 2^{− 126} 而不是±(1.F) × 2⁻¹²⁷？

形式为 ±(1.F) × 2⁻¹²⁷ 的次正规数将无法包含零，并且会包含不在格式表示的数字中的数字，因为它们的数字带有非- 低于所选集合中最低非零数字的零数字。（第一段描述的形式的最低位对应于b^{e_min+(1−p)}，而形式为 ±(1.F) × 2⁻¹²⁷ 的数字的最低位对应于 b^{e_min−1+(1−p)}.)

为什么正常数字的格式是：±(1.F) × 2^exp 而不是 ±(11.F) × 2^exp，或者说，±(10.F) × 2^exp？

小数点（或“小数点”）在有效数中的位置无关紧要，只要它是固定的。如本文所用，在第一位数字后使用小数点描述的表示等效于在最后一位数字后或任何其他位置使用小数点的表示，并对指数边界进行适当调整：同一组数字是表示和算术性质相同。所以，在考虑 1.F 和 11.F 的区别时，我们并不关心小数点在哪里。但是，我们确实关心表示了多少位数字。浮点格式使用具有固定位数的表示。 11.F 比 1.F 多一位，我们没有理由对其进行编码。

至于 11.F 和 10.F 之间的差异，存在正常/次正常区别的原因是因为在算术上有相同数字的两种表示如果第一位为零和指数不是最小的。将一种形式指定为范式允许我们消除这些重复的表示。但是11.F和10.F代表不同的数字，所以没有重复消除，也没有理由说其中一个是正常的，另一个不是。

我使用简化示例检查了两种格式的属性。为简单起见，我使用格式 0.F × 10^-2 和 1.F × 10^-3，其中 F 有 2 个十进制数字，没有 ±。

最小值（非零）/最大值：

Format          Min value (non-zero)           Max value
0.F × 10^-2     0.01 × 10^-2 = 0.0001          0.99 × 10^-2 = 0.0099
1.F × 10^-3     1.00 × 10^-3 = 0.001           9.99 × 10^-3 = 0.00999

这是图形表示：

在这里我们看到，从值 0.001 开始格式 1.F × 10^-3 不再允许表示较小的值。但是，格式 0.F × 10^-2 允许表示较小的值。这是放大版：

结论：从图形表示中我们看到格式0.F × 10^-2优于格式1.F × 10^-3的属性是：

提供更大的动态范围：log10(max_real / min_real)：1.99 vs 0.99
给出的精度较低：可以表示的值较少：100 vs 900

尽管 more dynamic range，但对于次规范 IEEE 754 似乎更喜欢 less precision。因此，这就是次正规数的格式是 ±(0.F) × 2^-126 而不是 ±(1.F) × 2^-127 的原因。

format ieee-754