【算法】解析IEEE 754 标准

2023-01-05 18:20:13

目录结构：

contents structure [-]

浮点数的存储过程

次正规数（Denormalized Number）
零（zero）
非数值（NaN）
无穷大（infinity）

除数为0.0会发生什么
浮点数的范围
浮点数的精度
参考文献

IEEE 754(Institute of Electrical and Electronics Engineers)在1985年发布,该标准是为了统一规范浮点数的存储。

1.浮点数的存储过程

在IEEE 754标准中浮点数由三部分组成：符号位（sign bit），有偏指数（biased exponent），小数（fraction）。浮点数分为两种，单精度浮点数（single precision）和双精度浮点数（double precision），它们两个所占的位数不同。

单精度浮点数（共32位）：
1个符号位
8个指数位
23个小数位

双精度浮点数（共64位）：
1个符号位
11个指数位
52个小数位

接下来笔者以单精度浮点数0.15625讲解浮点数的存储过程：
0.15625₁₀转化为二进制就是0.00101₂，然后将该数写成科学计数法（scientific notation），根据IEEE 754的规定，小数点的左边只能有一个1，所以最终的科学计数法形式是：

0.15625₁₀ = 0.00101₂ = 1.01₂ * 10^-3

然后就可以得到小数部分为.01₂，指数部分为-3。

最终在内存中的存储结果就是如下图：

符号位（sign）：0，因为该数是正数（1表示负数）。

有偏指数（biased exponent）：-3 + 偏移量（bias）,在单精度浮点数中偏移量是127，因此127+(-3)=124，所以偏移指数是124。在双精度浮点数中偏移量是1023，因此偏移指数是1020。

小数(fraction)：.01000000000000000000000₂

在上面已经展示了浮点数的存储过程，接下来再仔细说一说有偏指数，还是拿单精度浮点数来说吧！在单精度浮点数中，有8位可以用来存储指数（范围就是：0～255），那么怎么表示负的指数呢？IEEE 754标准的制定者为了解决这个问题，约定了指数偏移量（单精度的偏移量是127），指数值要在加上偏移量后才能进行存储，这样就能表示指数的正负值了。通常情况下，如果存储的值大于偏移量，那么就意味着指数是正的；如果存储的值小于偏移量，那么就意味着指数是负的；如果存储的值等于偏移量，那么就意味着指数为0。

下面的对应关系，显示了有偏指数代表的各种含义：

0 == 特殊情况：零（zero） 或 次正规数（subnormal）
1 == 2 ^ -126
    ...
125 == 2 ^ -2
126 == 2 ^ -1
127 == 2 ^  0
128 == 2 ^  1
129 == 2 ^  2
    ...
254 == 2 ^ 127
255 == 特殊情况：无穷大（infinity） 或 非数值（NaN）

1.1 次正规数（Denormalized Number）

IEEE 754的设计者注意到，除了0.0所有的二进制的科学计数法都有一个1在小数点的左边。在上面也提到过，在写成标准的科学计数法的形式后，小数点的左边只能有一个1。
比如：
25.0₁₀ == 11001₂ = 1.1001₂ * 2⁴
0.625₁₀ == 0.101₂ = 1.01₂ * 2^-1
小数点的左边都是以一个1开始的，为了节约内存，它们规定：所有数在小数点左边默认有一个1。

按照这个规定的话，那么能够表示的最小正数就是：
0 00000001 00000000000000000000001₂ = 1.00000000000000000000001₂ * 2^-126

如果指数全为0，只能表示数字0的话，那么表示小数位的23位就没有利用起来。于是IEEE754的设计值，规定了一种新的数次正规数（Subnormal Number Or Denormalize Number)。规定如下：
如果指数位全为0的话，那么在科学计数法中小数点的左边就默认为一个0。这样的数，就被称为次正规数。

在次正规数中所有的偏移指数位都是0，于是规定在单精度浮点数中指数应该为-126（并非-127），在双精度浮点数中指数应该为-1022（并非-1023）

所以最小的正数就应该是：
0 00000000 00000000000000000000001₂ = 0.00000000000000000000001₂ * 2^-126

1.2 零（zero）

数值0被特殊表示：

符号位（sign） = 0或1
有偏指数（biased exponent） = 0
小数（fraction）= 0

0的内存二进制码为：

0 00000000 0000000000000000000000₂
1 00000000 0000000000000000000000₂

1.3 非数值（NaN）

有一些算数操作是非法的，比如对负数开根号。这类非法操作被称为浮点数异常（floating-point exception）,异常结果由特殊字符NaN（Not a Number）表示。

符号位（sign） = 0或1
有偏指数（biased exponent）= 所有位都是1
小数（fraction） = 除了所有位都是0的数（因为所有为0，表示无穷大）

小数位只要不全为0，就表示非数值。
0 11111111 11111111111100000010000₂
或
1 11111111 11111111111100000010000₂

1.4 无穷大（infinity）

无穷大有两种，正无穷大（Positive Infinity）和负无穷大（Negative Infinity）。

符号位（sign） = 0表示正无穷大，1表示负无穷大。
有偏指数（biased exponent） = 所有位都是1
小数（fraction） = 所有位都是0.

正无穷大
0 11111111 00000000000000000000000₂
负无穷大
1 11111111 00000000000000000000000₂

2.除数为0.0会发生什么

如果计算机是采用的IEEE 754的标准（绝大部分计算机都是采用该标准）。那么当除数为0.0时，会发生不可预期的行为（注意程序不会中断）

#include <iostream>
#include <limits>
int main(){
//is_iec559是否支持IEC-559 / IEEE-754标准
std::cout << std::numeric_limits<float>::is_iec559 << std::endl;
std::cout << (1.0 / 0.0) << std::endl;
std::cout << (-1.0 / 0.0) << std::endl;
std::cout << (0.0 / 0.0) << std::endl;
return 0;
}

程序的输出结果是:

1
inf
-inf
-nan

3.浮点数的范围

在学习过上面的知识后，我们清楚了IEEE 754中浮点数在内存中的表示形式，我们也知道0（zero）是最小的（这里和下面只讨论非负数），次正规数（Denormalized Number）的表示范围比0大，正规数（normalized Number）表示的范围比次正规数大。

下面清楚的显示了一些范围和数值：

0 00000000 00000000000000000000001₂ = 0000 0001₁₆ = 2⁻¹²⁶ × 2⁻²³ = 2⁻¹⁴⁹ ≈ 1.4012984643₁₀ × 10⁻⁴⁵
(最小的次正规数，smallest positive subnormal number)

0 00000000 11111111111111111111111₂ = 007f ffff₁₆ = 2⁻¹²⁶ × (1 − 2⁻²³) ≈ 1.1754942107₁₀ ×10⁻³⁸
(最大的次正规数，largest subnormal number)

0 00000001 00000000000000000000000₂ = 0080 0000₁₆ = 2⁻¹²⁶ ≈ 1.1754943508₁₀ × 10⁻³⁸
（最小的正正规数，smallest positive normal number）

0 11111110 11111111111111111111111₂ = 7f7f ffff₁₆ = 2127₁₀ × (2₁₀ − 2⁻²³) ≈ 3.4028234664₁₀ × 1038
（最大的正正规数，largest normal number）

0 01111110 11111111111111111111111₂ = 3f7f ffff₁₆ = 1 − 2⁻²⁴ ≈ 0.9999999404₁₀
（比数值1小的最大数，largest number less than one）

0 01111111 00000000000000000000000₂ = 3f80 0000₁₆ = 1 × 2⁰= 1₁₀ （数值1，one）

0 01111111 00000000000000000000001₂ = 3f80 0001₁₆ = 1 + 2⁻²³ ≈ 1.0000001192₁₀
（比数值1大的最小数，smallest number larger than one）

1 10000000 000000000000000000000002 = c000 000016 = −2

0 00000000 000000000000000000000002 = 0000 000016 = 0

1 00000000 000000000000000000000002 = 8000 000016 = −0

0 11111111 000000000000000000000002 = 7f80 000016 = infinity（正无穷）

1 11111111 000000000000000000000002 = ff80 000016 = −infinity（负无穷）

0 10000000 100100100001111110110112 = 4049 0fdb16 ≈ 3.14159274101 ≈ π （圆周率，pi ）

0 01111101 010101010101010101010112 = 3eaa aaab16 ≈ 0.333333343267 ≈ 1/3

x 11111111 100000000000000000000012 = ffc0 000116 = qNaN (on x86 and ARM processors)

x 11111111 000000000000000000000012 = ff80 000116 = sNaN (on x86 and ARM processors)

通常我们所说的浮点数的范围，都是指的正规数的存储范围。

Level	Width	Range at full precision
Single precision	32bits	±1.18×10⁻³⁸ to ±3.4×10³⁸
Double precision	64 bits	±2.23×10⁻³⁰⁸ to ±1.80×10³⁰⁸

4.浮点数的精度

在单精度浮点数中的二进制小数位有23个，所能表示2^23个数，那么只需要换算成在10进制下能够表示相同个数的位数，就可以得到精度了。
10ⁿ = 2²³
10ⁿ = 8388608
10⁶ < 8388608 < 10⁷
所以但精度浮点数的精度为6位，同理也可以得到双精度浮点数的精度为15位。

注意：精度为6位，并不是表示所有小于6的数都可以被精确存储，比如0.9。因为这个精度是由二进制的精度位数计算而来的。

所以浮点数的相等判断中，只需要判断他们的差值小于精度就可以了。

#include <stdio.h>      /* printf */
#include <math.h>       /* fabs */

int main ()
{
  float f1 = 0.007;
  float f2 = 0.009;

  int res = ( fabs(f1-f2) < 1e-6 );
  printf ("f1 == f2 is : %s\n",res?"true":"false");
  return 0;
}

输出结果：

f1 == f2 is : false

5.参考文献

Single-precision floating-point format_Wikipedia
IEEE 754-1985_Wikipedia
What is a subnormal floating point number?
What is a “bias value” of floating-point numbers?

码农公寓