浮點數與IEEE 754

轉自：http://www.cnblogs.com/kingwolfofsky/archive/2011/07/21/2112299.html

浮點數

1. 什麼是浮點數

在計算機系統的發展過程中，曾經提出過多種方法表達實數。典型的比如相對於浮點數的定點數（Fixed Point Number）。在這種表達方式中，小數點固定的位於實數所有數字中間的某個位置。貨幣的表達就可以使用這種方式，比如 99.00 或者 00.99 可以用於表達具有四位精度（Precision），小數點後有兩位的貨幣值。由於小數點位置固定，所以可以直接用四位數值來表達相應的數值。SQL 中的 NUMBER 數據類型就是利用定點數來定義的。還有一種提議的表達方式爲有理數表達方式，即用兩個整數的比值來表達實數。

定點數表達法的缺點在於其形式過於僵硬，固定的小數點位置決定了固定位數的整數部分和小數部分，不利於同時表達特別大的數或者特別小的數。最終，絕大多數現代的計算機系統採納了所謂的浮點數表達方式。這種表達方式利用科學計數法來表達實數，即用一個尾數（Mantissa，尾數有時也稱爲有效數字——Significand；尾數實際上是有效數字的非正式說法），一個基數（Base），一個指數（Exponent）以及一個表示正負的符號來表達實數。比如 123.45 用十進制科學計數法可以表達爲 1.2345 × 10² ，其中 1.2345 爲尾數，10 爲基數，2 爲指數。浮點數利用指數達到了浮動小數點的效果，從而可以靈活地表達更大範圍的實數。

2. IEEE 浮點數

計算機中是用有限的連續字節保存浮點數的。在 IEEE 標準中，浮點數是將特定長度的連續字節的所有二進制位分割爲特定寬度的符號域，指數域和尾數域三個域，其中保存的值分別用於表示給定二進制浮點數中的符號，指數和尾數。這樣，通過尾數和可以調節的指數（所以稱爲"浮點"）就可以表達給定的數值了。

IEEE 754 指定：

n 兩種基本的浮點格式：單精度和雙精度。

Ø IEEE 單精度格式具有 24 位有效數字精度，並總共佔用 32 位。

Ø IEEE 雙精度格式具有 53 位有效數字精度，並總共佔用 64 位。

n 兩種擴展浮點格式：單精度擴展和雙精度擴展。此標準並未規定這些格式的精確精度和和大小，但它指定了最小精度和大小。例如，IEEE 雙精度擴展格式必須至少具有 64 位有效數字精度，並總共佔用至少 79 位。

具體的格式參見下面的圖例：

3. 浮點格式

浮點格式是一種數據結構，用於指定包含浮點數的字段、這些字段的佈局及其算術解釋。浮點存儲格式指定如何將浮點格式存儲在內存中。IEEE 標準定義了這些格式，但具體選擇哪種存儲格式由實現工具決定。

彙編語言軟件有時取決於所使用的存儲格式，但更高級別的語言通常僅處理浮點數據類型的語言概念。這些類型在不同的高級語言中具有不同的名稱，並且與表中所示的IEEE 格式相對應。

IEEE 精度	C、C++	Fortran （僅限 SPARC）
單精度	float	REAL 或 REAL*4
雙精度	double	DOUBLE PRECISION 或 REAL*8
雙精度擴展	long double	REAL*16

IEEE 754 明確規定了單精度浮點格式和雙精度浮點格式，併爲這兩種基本格式分別定義了一組擴展格式。表中顯示的long double 和 REAL*16 類型適用於 IEEE 標準定義的一種雙精度擴展格式。

3.1.單精度格式

IEEE 單精度格式由三個字段組成：23 位小數 f ； 8 位偏置指數 e ；以及 1 位符號 s。這些字段連續存儲在一個 32 位字中（如下圖所示）。

Ø 0:22 位包含 23 位小數 f，其中第 0 位是小數的最低有效位，第 22 位是最高有效位。

IEEE 標準要求浮點數必須是規範的。這意味着尾數的小數點左側必須爲 1，因此我們在保存尾數的時候，可以省略小數點前面這個 1，從而騰出一個二進制位來保存更多的尾數。這樣我們實際上用 23 位長的尾數域表達了 24 位的尾數。

Ø 23:30 位包含 8 位偏置指數 e，第 23 位是偏置指數的最低有效位，第 30 位是最高有效位。

8 位的指數爲可以表達 0 到 255 之間的 256 個指數值。但是，指數可以爲正數，也可以爲負數。爲了處理負指數的情況，實際的指數值按要求需要加上一個偏差（Bias）值作爲保存在指數域中的值，單精度數的偏差值爲 127；偏差的引入使得對於單精度數，實際可以表達的指數值的範圍就變成 -127 到 128 之間（包含兩端）。在本文中，最小指數和最大指數分別用 e_min 和 e_max 來表達。稍後將介紹實際的指數值-127（保存爲全0）以及 +128（保存爲全 1）保留用作特殊值的處理。

Ø 最高的第 31 位包含符號位s。s爲0表示數值爲正數，而s爲1則表示負數。

3.2.雙精度格式

IEEE 雙精度格式由三個字段組成：52 位小數 f ； 11 位偏置指數 e ；以及 1 位符號s。這些字段連續存儲在兩個 32 位字中（如下圖所示）。在 SPARC 體系結構中，較高地址的 32 位字包含小數的 32 位最低有效位，而在 x86體系結構中，則較低地址的 32-位字包含小數的 32 位最低有效位。

如果用 f[31:0] 表示小數的 32 位最低有效位，則在這 32 位最低有效位中，第 0 位是整個小數的最低有效位，而第 31 位則是最高有效位。在另一個 32 位字中， 0:19 位包含 20 位小數的最高有效位 f[51:32]，其中第 0 位是這20 位最高有效位中的最低有效位，而第 19 位是整個小數的最高有效位； 20:30 位包含11 位偏置指數 e，其中第 20 位是偏置指數的最低有效位，而第 30 位是最高有效位；最高的第 31 位包含符號位 s。

上圖將這兩個連續的 32 位字按一個 64 位字那樣進行了編號，其中

Ø 0:51 位包含 52 位小數 f，其中第 0 位是小數的最低有效位，第 51 位是最高有效位。

IEEE 標準要求浮點數必須是規範的。這意味着尾數的小數點左側必須爲 1，因此我們在保存尾數的時候，可以省略小數點前面這個 1，從而騰出一個二進制位來保存更多的尾數。這樣我們實際上用 52 位長的尾數域表達了 53 位的尾數。

Ø 52:62 位包含 11 位偏置指數 e，第 52 位是偏置指數的最低有效位，第 62 位是最高有效位。

11 位的指數爲可以表達 0 到 2047 之間的2048個指數值。但是，指數可以爲正數，也可以爲負數。爲了處理負指數的情況，實際的指數值按要求需要加上一個偏差（Bias）值作爲保存在指數域中的值，單精度數的偏差值爲1023；偏差的引入使得對於單精度數，實際可以表達的指數值的範圍就變成 -1023到1024之間（包含兩端）。在本文中，最小指數和最大指數分別用 e_min 和 e_max 來表達。稍後將介紹實際的指數值-1023（保存爲全0）以及 +1024（保存爲全 1）保留用作特殊值的處理。

Ø 最高的第 63 位包含符號位s。s爲0表示數值爲正數，而s爲1則表示負數。

3.3.雙精度擴展格式 (SPARC)

SPARC 浮點環境的四倍精度格式符合雙精度擴展格式的 IEEE 定義。四倍精度格式佔用 32 位字幷包含以下三個字段：112 位小數 f、15 位偏置指數 e 和 1 位符號 s。這三個字段連續存儲，如圖2-3 所示。

地址最高的 32 位字包含小數的 32 位最低有效位，用 f[31:0] 表示。緊鄰的兩個 32 位字分別包含 f[63:32]和 f[95:64]。下面的 0:15 位包含小數的 16 位最高有效位 f[111:96]，其中第 0 位是這 16 位的最低有效位，而第 15 位是整個小數的最高有效位。16:30 位包含 15 位偏置指數 e，其中第 16 位是該偏置指數的最低有效位，而第 30 位是最高有效位；第 31 位包含符號位 s。

下圖將這四個連續的 32 位字按一個 128 位字那樣進行了編號，其中 0:111 位存儲小數 f ； 112:126 位存儲15 位偏置指數 e ；而第 127 位存儲符號位 s。

3.4.雙精度擴展格式 (x86)

該浮點環境雙精度擴展格式符合雙精度擴展格式的 IEEE 定義。它包含四個字段：63 位小數 f、1 位顯式前導有效數位 j、15 位偏置指數 e 以及 1 位符號 s。

在 x86 體系結構系列中，這些字段連續存儲在十個相連地址的 8 位字節中。由於 UNIXSystem V Application Binary Interface Intel 386 Processor Supplement (Intel ABI) 要求雙精度擴展參數，從而佔用堆棧中三個相連地址的 32 位字，其中地址最高字的 16 位最高有效位未用，如下圖所示。

地址最低的 32 位字包含小數的 32 位最低有效位 f[31:0]，其中第 0 位是整個小數的最低有效位，而第 31 位則是 32 位最低有效位的最高有效位。地址居中的 32 位字中，0:30 位包含小數的 31 位最高有效位 f[62:32]（其中第 0 位是這 31 位最高有效位的最低有效位，而第 30 位是整個小數的最高有效位）；地址居中 32 位字的第 31 位包含顯式前導有效數位 j。

地址最高的 32 位字中，0:14 位包含 15 位偏置指數 e，其中第 0 位是該偏置指數的最低有效位，而第 14 位是最高有效位；第 15 位包含符號位 s。雖然地址最高的 32 位字的最高 16 位未被 x86 體系結構系列使用，但如上所述，它們對於符合 Intel ABI 規定是至關重要的。

4. 將實數轉換成浮點數

4.1 浮點數的規範化

同樣的數值可以有多種浮點數表達方式，比如上面例子中的 123.45 可以表達爲 12.345 × 10¹，0.12345 × 10³ 或者 1.2345 × 10²。因爲這種多樣性，有必要對其加以規範化以達到統一表達的目標。規範的（Normalized）浮點數表達方式具有如下形式：

±d.dd...d × β^e, (0 ≤ d _i< β)

其中 d.dd...d 即尾數，β 爲基數，e 爲指數。尾數中數字的個數稱爲精度，在本文中用 p 來表示。每個數字 d 介於 0 和基數之間，包括 0。小數點左側的數字不爲 0。

基於規範表達的浮點數對應的具體值可由下面的表達式計算而得：

±(d ₀ + d ₁β^-1 + ... + d _p_-1β^-(p-1))β^e, (0 ≤ d _i< β)

對於十進制的浮點數，即基數 β 等於 10 的浮點數而言，上面的表達式非常容易理解，也很直白。計算機內部的數值表達是基於二進制的。從上面的表達式，我們可以知道，二進制數同樣可以有小數點，也同樣具有類似於十進制的表達方式。只是此時 β 等於 2，而每個數字 d 只能在 0 和 1 之間取值。比如二進制數 1001.101 相當於 1 × 2 ³ + 0 × 2² + 0 × 2¹ + 1 × 2⁰ + 1 × 2^-1 + 0 × 2^-2 + 1 × 2^-3，對應於十進制的 9.625。其規範浮點數表達爲 1.001101 × 2³。

4.2 根據精度表示浮點數

以上面的9.625爲例，其規範浮點數表達爲 1.001101 × 2³，

因此按單精度格式表示爲：

1 10000010 00110100000000000000000

同理按雙精度格式表示爲：

1 10000000010 0011010000000000000000000000000000000000000000000000

5. 特殊值

通過前面的介紹，你應該已經瞭解的浮點數的基本知識，這些知識對於一個不接觸浮點數應用的人應該足夠了。不過，如果你興趣正濃，或者面對着一個棘手的浮點數應用，可以通過本節瞭解到關於浮點數的一些值得注意的特殊之處。

我們已經知道，單精度浮點數指數域實際可以表達的指數值的範圍爲 -127 到 128 之間（包含兩端）。其中，值-127（保存爲全0）以及 +128（保存爲全1）保留用作特殊值的處理。本節將詳細 IEEE 標準中所定義的這些特殊值。

浮點數中的特殊值主要用於特殊情況或者錯誤的處理。比如在程序對一個負數進行開平方時，一個特殊的返回值將用於標記這種錯誤，該值爲 NaN（Not a Number）。沒有這樣的特殊值，對於此類錯誤只能粗暴地終止計算。除了 NaN 之外，IEEE 標準還定義了 ±0，±∞ 以及非規範化數（Denormalized Number）。

對於單精度浮點數，所有這些特殊值都由保留的特殊指數值 -127 和 128 來編碼。如果我們分別用 e_min 和 e_max 來表達其它常規指數值範圍的邊界，即 -126 和 127，則保留的特殊指數值可以分別表達爲 e_min - 1 和 e_max + 1; 。基於這個表達方式，IEEE 標準的特殊值如下所示：

其中 f 表示尾數中的小數點右側的（Fraction）部分。第一行即我們之前介紹的普通的規範化浮點數。隨後我們將分別對餘下的特殊值加以介紹。

5.1 NaN

NaN 用於處理計算中出現的錯誤情況，比如 0.0 除以 0.0 或者求負數的平方根。由上面的表中可以看出，對於單精度浮點數，NaN 表示爲指數爲 e_max + 1 = 128（指數域全爲 1），且尾數域不等於零的浮點數。IEEE 標準沒有要求具體的尾數域，所以 NaN 實際上不是一個，而是一族。不同的實現可以自由選擇尾數域的值來表達NaN，比如 Java 中的常量 Float.NaN 的浮點數可能表達爲 01111111110000000000000000000000，其中尾數域的第一位爲 1，其餘均爲 0（不計隱藏的一位），但這取決系統的硬件架構。Java 中甚至允許程序員自己構造具有特定位模式的 NaN 值（通過 Float.intBitsToFloat() 方法）。比如，程序員可以利用這種定製的 NaN 值中的特定位模式來表達某些診斷信息。

定製的 NaN 值，可以通過 Float.isNaN() 方法判定其爲 NaN，但是它和 Float.NaN 常量卻不相等。實際上，所有的 NaN 值都是無序的。數值比較操作符 <，<=，> 和 >= 在任一操作數爲 NaN 時均返回 false。等於操作符== 在任一操作數爲 NaN 時均返回 false，即使是兩個具有相同位模式的 NaN 也一樣。而操作符 != 則當任一操作數爲 NaN 時返回 true。這個規則的一個有趣的結果是 x!=x 當 x 爲 NaN 時竟然爲真。

可以產生 NaN 的操作如下所示：

此外，任何有 NaN 作爲操作數的操作也將產生 NaN。用特殊的 NaN 來表達上述運算錯誤的意義在於避免了因這些錯誤而導致運算的不必要的終止。比如，如果一個被循環調用的浮點運算方法，可能由於輸入的參數問題而導致發生這些錯誤，NaN 使得即使某次循環發生了這樣的錯誤，也可以簡單地繼續執行循環以進行那些沒有錯誤的運算。你可能想到，既然 Java 有異常處理機制，也許可以通過捕獲並忽略異常達到相同的效果。但是，要知道，IEEE 標準不是僅僅爲 Java 而制定的，各種語言處理異常的機制不盡相同，這將使得代碼的遷移變得更加困難。何況，不是所有語言都有類似的異常或者信號（Signal）處理機制。

注意: Java 中，不同於浮點數的處理，整數的 0 除以 0 將拋出 java.lang.ArithmeticException 異常。

5.2 無窮

和 NaN 一樣，特殊值無窮（Infinity）的指數部分同樣爲 e_max + 1 = 128，不過無窮的尾數域必須爲零。無窮用於表達計算中產生的上溢（Overflow）問題。比如兩個極大的數相乘時，儘管兩個操作數本身可以用保存爲浮點數，但其結果可能大到無法保存爲浮點數，而必須進行舍入。根據 IEEE 標準，此時不是將結果舍入爲可以保存的最大的浮點數（因爲這個數可能離實際的結果相差太遠而毫無意義），而是將其舍入爲無窮。對於負數結果也是如此，只不過此時舍入爲負無窮，也就是說符號域爲 1 的無窮。有了 NaN 的經驗我們不難理解，特殊值無窮使得計算中發生的上溢錯誤不必以終止運算爲結果。

無窮和除 NaN 以外的其它浮點數一樣是有序的，從小到大依次爲負無窮，負的有窮非零值，正負零（隨後介紹），正的有窮非零值以及正無窮。除 NaN 以外的任何非零值除以零，結果都將是無窮，而符號則由作爲除數的零的符號決定。

回顧我們對 NaN 的介紹，當零除以零時得到的結果不是無窮而是 NaN 。原因不難理解，當除數和被除數都逼近於零時，其商可能爲任何值，所以 IEEE 標準決定此時用 NaN 作爲商比較合適。

5.3 有符號的零

因爲 IEEE 標準的浮點數格式中，小數點左側的 1 是隱藏的，而零顯然需要尾數必須是零。所以，零也就無法直接用這種格式表達而只能特殊處理。

實際上，零保存爲尾數域爲全爲 0，指數域爲 e_min - 1 = -127，也就是說指數域也全爲 0。考慮到符號域的作用，所以存在着兩個零，即 +0 和 -0。不同於正負無窮之間是有序的，IEEE 標準規定正負零是相等的。

零有正負之分，的確非常容易讓人困惑。這一點是基於數值分析的多種考慮，經利弊權衡後形成的結果。有符號的零可以避免運算中，特別是涉及無窮的運算中，符號信息的丟失。舉例而言，如果零無符號，則等式 1/(1/x) = x 當x = ±∞ 時不再成立。原因是如果零無符號，1 和正負無窮的比值爲同一個零，然後 1 與 0 的比值爲正無窮，符號沒有了。解決這個問題，除非無窮也沒有符號。但是無窮的符號表達了上溢發生在數軸的哪一側，這個信息顯然是不能不要的。零有符號也造成了其它問題，比如當 x=y 時，等式1/x = 1/y 在 x 和 y 分別爲 +0 和 -0 時，兩端分別爲正無窮和負無窮而不再成立。當然，解決這個問題的另一個思路是和無窮一樣，規定零也是有序的。但是，如果零是有序的，則即使 if (x==0) 這樣簡單的判斷也由於 x 可能是 ±0 而變得不確定了。兩害取其輕者，零還是無序的好。

5.4 非規範化數

我們來考察浮點數的一個特殊情況。選擇兩個絕對值極小的浮點數，以單精度的二進制浮點數爲例，比如 1.001 × 2^-125 和 1.0001 × 2^-125 這兩個數（分別對應於十進制的 2.6448623 × 10^-38 和 2.4979255 × 10^-38）。顯然，他們都是普通的浮點數（指數爲 -125，大於允許的最小值 -126；尾數更沒問題），按照 IEEE 754 可以分別保存爲00000001000100000000000000000000（0x1100000）和 00000001000010000000000000000000（0x1080000）。

現在我們看看這兩個浮點數的差值。不難得出，該差值爲 0.0001 × 2^-125，表達爲規範浮點數則爲 1.0 × 2^-129。問題在於其指數大於允許的最小指數值，所以無法保存爲規範浮點數。最終，只能近似爲零（Flush to Zero）。這中特殊情況意味着下面本來十分可靠的代碼也可能出現問題：

if (x != y) {

z = 1 / (x -y);

}

正如我們精心選擇的兩個浮點數展現的問題一樣，即使 x 不等於 y，x 和 y 的差值仍然可能絕對值過小，而近似爲零，導致除以 0 的情況發生。

爲了解決此類問題，IEEE 標準中引入了非規範（Denormalized）浮點數。規定當浮點數的指數爲允許的最小指數值，即 e_min 時，尾數不必是規範化的。比如上面例子中的差值可以表達爲非規範的浮點數 0.001 × 2^-126，其中指數-126 等於 e_min。注意，這裏規定的是"不必"，這也就意味着"可以"。當浮點數實際的指數爲 e_min，且指數域也爲e_min時，該浮點數仍是規範的，也就是說，保存時隱含着一個隱藏的尾數位。爲了保存非規範浮點數，IEEE 標準採用了類似處理特殊值零時所採用的辦法，即用特殊的指數域值 e_min - 1 加以標記，當然，此時的尾數域不能爲零。這樣，例子中的差值可以保存爲 00000000000100000000000000000000（0x100000），沒有隱含的尾數位。

有了非規範浮點數，去掉了隱含的尾數位的制約，可以保存絕對值更小的浮點數。而且，也由於不再受到隱含尾數域的制約，上述關於極小差值的問題也不存在了，因爲所有可以保存的浮點數之間的差值同樣可以保存。

6. 範圍和精度

很多小數根本無法在二進制計算機中精確表示（比如最簡單的 0.1）由於浮點數尾數域的位數是有限的，爲此，浮點數的處理辦法是持續該過程直到由此得到的尾數足以填滿尾數域，之後對多餘的位進行舍入。換句話說，除了我們之前講到的精度問題之外，十進制到二進制的變換也並不能保證總是精確的，而只能是近似值。事實上，只有很少一部分十進制小數具有精確的二進制浮點數表達。再加上浮點數運算過程中的誤差累積，結果是很多我們看來非常簡單的十進制運算在計算機上卻往往出人意料。這就是最常見的浮點運算的"不準確"問題。

參見下面的 Java 示例：

System.out.print("34.6-34.0=" + (34.6f-34.0f));

這段代碼的輸出結果如下：

34.6-34.0=0.5999985

產生這個誤差的原因是 34.6 無法精確的表達爲相應的浮點數，而只能保存爲經過舍入的近似值。這個近似值與 34.0之間的運算自然無法產生精確的結果。

存儲格式的範圍和精度

格式	有效數字（二進制）	最小正正規數	最大正數	有效數字（十進制）
單精	24	1.175... 10^-38	3.402... 10⁺³⁸	6-9
雙精度	53	2.225... 10^-308	1.797...10⁺³⁰⁸	15-17
雙精度擴展(SPARC)	113	3.362... 10^-4932	1.189...10⁺⁴⁹³2	33-36
雙精度擴展(x86)	64	3.362... 10^-4932	1.189...10⁺⁴⁹³²	18-21

7. 舍入

值得注意的是，對於單精度數，由於我們只有 24 位的指數（其中一位隱藏），所以可以表達的最大指數爲 2²⁴ - 1 = 16,777,215。特別的，16,777,216 是偶數，所以我們可以通過將它除以 2 並相應地調整指數來保存這個數，這樣16,777,216 同樣可以被精確的保存。相反，數值 16,777,217 則無法被精確的保存。由此，我們可以看到單精度的浮點數可以表達的十進制數值中，真正有效的數字不高於 8 位。事實上，對相對誤差的數值分析結果顯示有效的精度大約爲 7.22 位。參考下面的示例：

真值（true value）	存儲值（stored value）
16,777,215	1.6777215E7
16,777,216	1.6777216E7
16,777,217	1.6777216E7
16,777,218	1.6777218E7
16,777,219	1.677722E7
16,777,220	1.677722E7
16,777,221	1.677722E7
16,777,222	1.6777222E7
16,777,223	1.6777224E7
16,777,224	1.6777224E7
16,777,225	1.6777224E7

根據標準要求，無法精確保存的值必須向最接近的可保存的值進行舍入。這有點像我們熟悉的十進制的四捨五入，即不足一半則舍，一半以上（包括一半）則進。不過對於二進制浮點數而言，還多一條規矩，就是當需要舍入的值剛好是一半時，不是簡單地進，而是在前後兩個等距接近的可保存的值中，取其中最後一位有效數字爲零者。從上面的示例中可以看出，奇數都被舍入爲偶數，且有舍有進。我們可以將這種舍入誤差理解爲"半位"的誤差。所以，爲了避免 7.22 對很多人造成的困惑，有些文章經常以 7.5 位來說明單精度浮點數的精度問題。

提示: 這裏採用的浮點數舍入規則有時被稱爲舍入到偶數（Round to Even）。相比簡單地逢一半則進的舍入規則，舍入到偶數有助於從某些角度減小計算中產生的舍入誤差累積問題。因此爲 IEEE 標準所採用

浮點數與IEEE 754

DAPPER 事務 TRANSACTION

Invalidate、InvalidateRect詳解

浮點數與IEEE 754

C/C++ 不檢查數組下標是否越界

谷歌面試題：給定一個數據流，其中包含無窮盡的搜索關鍵字（比如，人們在谷歌搜索時不斷輸入的關鍵字）。如何才能從這個無窮盡的流中隨機的選取 1000 個關鍵字？

Fibonacci數計算中的兩個思維盲點及其擴展數列的通用高效解法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結