浮點數[轉]

定點數與浮點數區別

最近做HDR時,經常要用NV提供的16位紋理,它的說明書16位能達到24位的精度,就很奇怪?一直搞不懂浮點數的精度怎麼算的?
今天認真看了一下IEEE float point的標準,終於明白是什麼了
1. 什麼是浮點數
在計算機系統的發展過程中,曾經提出過多種方法表達實數。典型的比如相對於浮點數的定點數(Fixed Point Number)。在這種表達方式中,小數點固定的位於實數所有數字中間的某個位置。貨幣的表達就可以使用這種方式,比如 99.00 或者 00.99 可以用於表達具有四位精度(Precision),小數點後有兩位的貨幣值。由於小數點位置固定,所以可以直接用四位數值來表達相應的數值。SQL 中的 NUMBER 數據類型就是利用定點數來定義的。還有一種提議的表達方式爲有理數表達方式,即用兩個整數的比值來表達實數。

定點數表達法的缺點在於其形式過於僵硬,固定的小數點位置決定了固定位數的整數部分和小數部分,不利於同時表達特別大的數或者特別小的數。最終,絕大多數現代的計算機系統採納了所謂的浮點數表達方式。這種表達方式利用科學計數法來表達實數,即用一個尾數(Mantissa ),一個基數(Base),一個指數(Exponent)以及一個表示正負的符號來表達實數。比如 123.45 用十進制科學計數法可以表達爲 1.2345 × 102 ,其中 1.2345 爲尾數,10 爲基數,2 爲指數。浮點數利用指數達到了浮動小數點的效果,從而可以靈活地表達更大範圍的實數。

提示: 尾數有時也稱爲有效數字(Significand)。尾數實際上是有效數字的非正式說法。

同樣的數值可以有多種浮點數表達方式,比如上面例子中的 123.45 可以表達爲 12.345 × 101,0.12345 × 103 或者 1.2345 × 102。因爲這種多樣性,有必要對其加以規範化以達到統一表達的目標。規範的(Normalized)浮點數表達方式具有如下形式:

±d.dd...d × β e , (0 ≤ d i < β)

其中 d.dd...d 即尾數,β 爲基數,e 爲指數。尾數中數字的個數稱爲精度,在本文中用 p 來表示。每個數字 d 介於 0 和基數之間,包括 0。小數點左側的數字不爲 0。

基於規範表達的浮點數對應的具體值可由下面的表達式計算而得:

±(d 0 + d 1β-1 + ... + d p-1β-(p-1))β e , (0 ≤ d i < β)

對於十進制的浮點數,即基數 β 等於 10 的浮點數而言,上面的表達式非常容易理解,也很直白。計算機內部的數值表達是基於二進制的。從上面的表達式,我們可以知道,二進制數同樣可以有小數點,也同樣具有類似於十進制的表達方式。只是此時 β 等於 2,而每個數字 d 只能在 0 和 1 之間取值。比如二進制數 1001.101 相當於 1 × 2 3 + 0 × 22 + 0 × 21 + 1 × 20 + 1 × 2-1 + 0 × 2-2 + 1 × 2-3,對應於十進制的 9.625。其規範浮點數表達爲 1.001101 × 23。


2. IEEE 浮點數
計算機中是用有限的連續字節保存浮點數的。保存這些浮點數當然必須有特定的格式,Java 平臺上的浮點數類型 float 和 double 採納了 IEEE 754 標準中所定義的單精度 32 位浮點數和雙精度 64 位浮點數的格式。

注意: Java 平臺還支持該標準定義的兩種擴展格式,即 float-extended-exponent 和 double-extended-exponent 擴展格式。這裏將不作介紹,有興趣的讀者可以參考相應的參考資料。

在 IEEE 標準中,浮點數是將特定長度的連續字節的所有二進制位分割爲特定寬度的符號域,指數域和尾數域三個域,其中保存的值分別用於表示給定二進制浮點數中的符號,指數和尾數。這樣,通過尾數和可以調節的指數(所以稱爲"浮點")就可以表達給定的數值了。具體的格式參見下面的圖例:

 

在上面的圖例中,第一個域爲符號域。其中 0 表示數值爲正數,而 1 則表示負數。

第二個域爲指數域,對應於我們之前介紹的二進制科學計數法中的指數部分。其中單精度數爲 8 位,雙精度數爲 11 位。以單精度數爲例,8 位的指數爲可以表達 0 到 255 之間的 255 個指數值。但是,指數可以爲正數,也可以爲負數。爲了處理負指數的情況,實際的指數值按要求需要加上一個偏差(Bias)值作爲保存在指數域中的值,單精度數的偏差值爲 127,而雙精度數的偏差值爲 1023。比如,單精度的實際指數值 0 在指數域中將保存爲 127;而保存在指數域中的 64 則表示實際的指數值 -63。 偏差的引入使得對於單精度數,實際可以表達的指數值的範圍就變成 -127 到 128 之間(包含兩端)。我們不久還將看到,實際的指數值 -127(保存爲 全 0)以及 +128(保存爲全 1)保留用作特殊值的處理。這樣,實際可以表達的有效指數範圍就在 -127 和 127 之間。在本文中,最小指數和最大指數分別用 emin 和 emax 來表達。

圖例中的第三個域爲尾數域,其中單精度數爲 23 位長,雙精度數爲 52 位長。除了我們將要講到的某些特殊值外,IEEE 標準要求浮點數必須是規範的。這意味着尾數的小數點左側必須爲 1,因此我們在保存尾數的時候,可以省略小數點前面這個 1,從而騰出一個二進制位來保存更多的尾數。這樣我們實際上用 23 位長的尾數域表達了 24 位的尾數。比如對於單精度數而言,二進制的 1001.101(對應於十進制的 9.625)可以表達爲 1.001101 × 23,所以實際保存在尾數域中的值爲 00110100000000000000000,即去掉小數點左側的 1,並用 0 在右側補齊。

值得注意的是,對於單精度數,由於我們只有 24 位的尾數(其中一位隱藏),所以可以表達的最大尾數爲 224 - 1 = 16,777,215。特別的,16,777,216 是偶數,所以我們可以通過將它除以 2 並相應地調整指數來保存這個數,這樣 16,777,216 同樣可以被精確的保存。相反,數值 16,777,217 則無法被精確的保存。由此,我們可以看到單精度的浮點數可以表達的十進制數值中,真正有效的數字不高於 8 位。事實上,對相對誤差的數值分析結果顯示有效的精度大約爲 7.22 位。參考下面的示例:

        true value                stored value
        --------------------------------------
        16,777,215                1.6777215E7
        16,777,216                1.6777216E7
        16,777,217                1.6777216E7
        16,777,218                1.6777218E7
        16,777,219                1.677722E7
        16,777,220                1.677722E7
        16,777,221                1.677722E7
        16,777,222                1.6777222E7
        16,777,223                1.6777224E7
        16,777,224                1.6777224E7
        16,777,225                1.6777224E7
        --------------------------------------根據標準要求,無法精確保存的值必須向最接近的可保存的值進行舍入。這有點像我們熟悉的十進制的四捨五入,即不足一半則舍,一半以上(包括一半)則進。不過對於二進制浮點數而言,還多一條規矩,就是當需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可保存的值中,取其中最後一位有效數字爲零者。從上面的示例中可以看出,奇數都被舍入爲偶數,且有舍有進。我們可以將這種舍入誤差理解爲"半位"的誤差。所以,爲了避免 7.22 對很多人造成的困惑,有些文章經常以 7.5 位來說明單精度浮點數的精度問題。

提示: 這裏採用的浮點數舍入規則有時被稱爲舍入到偶數(Round to Even)。相比簡單地逢一半則進的舍入規則,舍入到偶數有助於從某些角度減小計算中產生的舍入誤差累積問題。因此爲 IEEE 標準所採用。

3. 實數和浮點數之間的變換
現在我們已經明白了浮點數的 IEEE 表達方式。我們來做些實數和浮點數之間的變換練習以加深理解。在這些練習中,你還會發現一些圍繞浮點數運算的令人吃驚的事實。

首先我們來看看事情簡單的一面,從浮點數變換到實數。理解了浮點數的格式,做這個練習並不難。假定我們有一個 32 位的數據,用十六進制表示爲 0xC0B40000,並且我們知道它實際上是一個單精度的浮點數。爲了得到該浮點數實際表達的實數,我們首先將它變換爲二進制形式:

  C    0    B    4    0    0    0    0
1100 0000 1011 0100 0000 0000 0000 0000接着按照浮點數的格式切分爲相應的域:

1  10000001 01101000000000000000000符號域 1 意味着負數;指數域爲 129 意味着實際的指數爲 2 (減去偏差值 127);尾數域爲 01101 意味着實際的二進制尾數爲 1.01101 (加上隱含的小數點前面的 1)。所以,實際的實數爲:

-1.01101 × 22
-(20 + 2-2 + 2-3 2-5) × 22
-5.625從實數向浮點數變換稍微麻煩一點。假定我們需要將實數 -9.625 表達爲單精度的浮點數格式。方法是首先將它用二進制浮點數表達,然後變換爲相應的浮點數格式。

首先,將小數點左側的整數部分變換爲其二進制形式,9 的二進制性形式爲 1001。處理小數部分的算法是將我們的小數部分乘以基數 2,記錄乘積結果的整數部分,接着將結果的小數部分繼續乘以 2,並不斷繼續該過程:

0.625 × 2 = 1.25        1
0.25  × 2 = 0.5         0
0.5   × 2 = 1           1
0當最後的結果爲零時,結束這個過程。這時右側的一列數字就是我們所需的二進制小數部分,即 0.101。這樣,我們就得到了完整的二進制形式 1001.101。用規範浮點數表達爲 1.001101 × 23。

因爲是負數,所以符號域爲 1。指數爲 3,所以指數域爲 3 + 127 = 130,即二進制的 10000010。尾數省略掉小數點左側的 1 之後爲 001101,右側用零補齊。最終結果爲:

1 10000010 00110100000000000000000最後可以將浮點數形式表示爲十六進制的數據如下:

1100 0001 0001 1010 0000 0000 0000 0000
  C    1    1    A    0    0    0    0最終結果爲 0xC11A0000。

很簡單?等等!你可能已經注意到了,在上面這個我們有意選擇的示例中,不斷的將產生的小數部分乘以 2 的過程掩蓋了一個事實。該過程結束的標誌是小數部分乘以 2 的結果爲 1,不難想象,很多小數根本不能經過有限次這樣的過程而得到結果(比如最簡單的 0.1)。我們已經知道浮點數尾數域的位數是有限的,爲此,浮點數的處理辦法是持續該過程直到由此得到的尾數足以填滿尾數域,之後對多餘的位進行舍入。換句話說,除了我們之前講到的精度問題之外,十進制到二進制的變換也並不能保證總是精確的,而只能是近似值。事實上,只有很少一部分十進制小數具有精確的二進制浮點數表達。再加上浮點數運算過程中的誤差累積,結果是很多我們看來非常簡單的十進制運算在計算機上卻往往出人意料。這就是最常見的浮點運算的"不準確"問題。參見下面的 Java 示例:

System.out.print("34.6-34.0=" + (34.6f-34.0f));這段代碼的輸出結果如下:

34.6-34.0=0.5999985產生這個誤差的原因是 34.6 無法精確的表達爲相應的浮點數,而只能保存爲經過舍入的近似值。這個近似值與 34.0 之間的運算自然無法產生精確的結果。


4. 特殊值
通過前面的介紹,你應該已經瞭解的浮點數的基本知識,這些知識對於一個不接觸浮點數應用的人應該足夠了。不過,如果你興趣正濃,或者面對着一個棘手的浮點數應用,可以通過本節瞭解到關於浮點數的一些值得注意的特殊之處。

我們已經知道,指數域實際可以表達的指數值的範圍爲 -127 到 128 之間(包含兩端)。其中,值 -127(保存爲 全 0)以及 +128(保存爲全 1)保留用作特殊值的處理。本節將詳細 IEEE 標準中所定義的這些特殊值。

浮點數中的特殊值主要用於特殊情況或者錯誤的處理。比如在程序對一個負數進行開平方時,一個特殊的返回值將用於標記這種錯誤,該值爲 NaN(Not a Number)。沒有這樣的特殊值,對於此類錯誤只能粗暴地終止計算。除了 NaN 之外,IEEE 標準還定義了 ±0,±∞ 以及非規範化數(Denormalized Number)。

對於單精度浮點數,所有這些特殊值都由保留的特殊指數值 -127 和 128 來編碼。如果我們分別用 emin 和 emax 來表達其它常規指數值範圍的邊界,即 -126 和 127,則保留的特殊指數值可以分別表達爲 emin - 1 和 emax + 1; 。基於這個表達方式,IEEE 標準的特殊值如下所示:

 

其中 f 表示尾數中的小數點右側的(Fraction)部分。第一行即我們之前介紹的普通的規範化浮點數。隨後我們將分別對餘下的特殊值加以介紹。

4.1. NaN
NaN 用於處理計算中出現的錯誤情況,比如 0.0 除以 0.0 或者求負數的平方根。由上面的表中可以看出,對於單精度浮點數,NaN 表示爲指數爲 emax + 1 = 128(指數域全爲 1),且尾數域不等於零的浮點數。IEEE 標準沒有要求具體的尾數域,所以 NaN 實際上不是一個,而是一族。不同的實現可以自由選擇尾數域的值來表達 NaN,比如 Java 中的常量 Float.NaN 的浮點數可能表達爲 01111111110000000000000000000000,其中尾數域的第一位爲 1,其餘均爲 0(不計隱藏的一位),但這取決系統的硬件架構。Java 中甚至允許程序員自己構造具有特定位模式的 NaN 值(通過 Float.intBitsToFloat() 方法)。比如,程序員可以利用這種定製的 NaN 值中的特定位模式來表達某些診斷信息。

定製的 NaN 值,可以通過 Float.isNaN() 方法判定其爲 NaN,但是它和 Float.NaN 常量卻不相等。實際上,所有的 NaN 值都是無序的。數值比較操作符 <,<=,> 和 >= 在任一操作數爲 NaN 時均返回 false。等於操作符 == 在任一操作數爲 NaN 時均返回 false,即使是兩個具有相同位模式的 NaN 也一樣。而操作符 != 則當任一操作數爲 NaN 時返回 true。這個規則的一個有趣的結果是 x!=x 當 x 爲 NaN 時竟然爲真。

可以產生 NaN 的操作如下所示:

 

此外,任何有 NaN 作爲操作數的操作也將產生 NaN。用特殊的 NaN 來表達上述運算錯誤的意義在於避免了因這些錯誤而導致運算的不必要的終止。比如,如果一個被循環調用的浮點運算方法,可能由於輸入的參數問題而導致發生這些錯誤,NaN 使得 即使某次循環發生了這樣的錯誤,也可以簡單地繼續執行循環以進行那些沒有錯誤的運算。你可能想到,既然 Java 有異常處理機制,也許可以通過捕獲並忽略異常達到相同的效果。但是,要知道,IEEE 標準不是僅僅爲 Java 而制定的,各種語言處理異常的機制不盡相同,這將使得代碼的遷移變得更加困難。何況,不是所有語言都有類似的異常或者信號(Signal)處理機制。

注意: Java 中,不同於浮點數的處理,整數的 0 除以 0 將拋出 java.lang.ArithmeticException 異常。

4.2. 無窮
和 NaN 一樣,特殊值無窮(Infinity)的指數部分同樣爲 emax + 1 = 128,不過無窮的尾數域必須爲零。無窮用於表達計算中產生的上溢(Overflow)問題。比如兩個極大的數相乘時,儘管兩個操作數本身可以用保存爲浮點數,但其結果可能大到無法保存爲浮點數,而必須進行舍入。根據 IEEE 標準,此時不是將結果舍入爲可以保存的最大的浮點數(因爲這個數可能離實際的結果相差太遠而毫無意義),而是將其舍入爲無窮。對於負數結果也是如此,只不過此時舍入爲負無窮,也就是說符號域爲 1 的無窮。有了 NaN 的經驗我們不難理解,特殊值無窮使得計算中發生的上溢錯誤不必以終止運算爲結果。

無窮和除 NaN 以外的其它浮點數一樣是有序的,從小到大依次爲負無窮,負的有窮非零值,正負零(隨後介紹),正的有窮非零值以及正無窮。除 NaN 以外的任何非零值除以零,結果都將是無窮,而符號則由作爲除數的零的符號決定。

回顧我們對 NaN 的介紹,當零除以零時得到的結果不是無窮而是 NaN 。原因不難理解,當除數和被除數都逼近於零時,其商可能爲任何值,所以 IEEE 標準決定此時用 NaN 作爲商比較合適。

4.3. 有符號的零
因爲 IEEE 標準的浮點數格式中,小數點左側的 1 是隱藏的,而零顯然需要尾數必須是零。所以,零也就無法直接用這種格式表達而只能特殊處理。

實際上,零保存爲尾數域爲全爲 0,指數域爲 emin - 1 = -127,也就是說指數域也全爲 0。考慮到符號域的作用,所以存在着兩個零,即 +0 和 -0。不同於正負無窮之間是有序的,IEEE 標準規定正負零是相等的。

零有正負之分,的確非常容易讓人困惑。這一點是基於數值分析的多種考慮,經利弊權衡後形成的結果。有符號的零可以避免運算中,特別是涉及無窮的運算中,符號信息的丟失。舉例而言,如果零無符號,則等式 1/(1/x) = x 當x = ±∞ 時不再成立。原因是如果零無符號,1 和正負無窮的比值爲同一個零,然後 1 與 0 的比值爲正無窮,符號沒有了。解決這個問題,除非無窮也沒有符號。但是無窮的符號表達了上溢發生在數軸的哪一側,這個信息顯然是不能不要的。零有符號也造成了其它問題,比如當 x=y 時,等式1/x = 1/y 在 x 和 y 分別爲 +0 和 -0 時,兩端分別爲正無窮和負無窮而不再成立。當然,解決這個問題的另一個思路是和無窮一樣,規定零也是有序的。但是,如果零是有序的,則即使 if (x==0) 這樣簡單的判斷也由於 x 可能是 ±0 而變得不確定了。兩害取其輕者,零還是無序的好。

4.4. 非規範化數
我們來考察浮點數的一個特殊情況。選擇兩個絕對值極小的浮點數,以單精度的二進制浮點數爲例,比如 1.001 × 2-125 和 1.0001 × 2-125 這兩個數(分別對應於十進制的 2.6448623 × 10-38 和 2.4979255 × 10-38)。顯然,他們都是普通的浮點數(指數爲 -125,大於允許的最小值 -126;尾數更沒問題),按照 IEEE 754 可以分別保存爲 00000001000100000000000000000000(0x1100000)和 00000001000010000000000000000000(0x1080000)。

現在我們看看這兩個浮點數的差值。不難得出,該差值爲 0.0001 × 2-125,表達爲規範浮點數則爲 1.0 × 2-129。問題在於其指數大於允許的最小指數值,所以無法保存爲規範浮點數。最終,只能近似爲零(Flush to Zero)。這中特殊情況意味着下面本來十分可靠的代碼也可能出現問題:

if (x != y) {
        z = 1 / (x -y);
}正如我們精心選擇的兩個浮點數展現的問題一樣,即使 x 不等於 y,x 和 y 的差值仍然可能絕對值過小,而近似爲零,導致除以 0 的情況發生。

爲了解決此類問題,IEEE 標準中引入了非規範(Denormalized)浮點數。規定當浮點數的指數爲允許的最小指數值,即 emin 時,尾數不必是規範化的。比如上面例子中的差值可以表達爲非規範的浮點數 0.001 × 2-126,其中指數 -126 等於 emin。注意,這裏規定的是"不必",這也就意味着"可以"。當浮點數實際的指數爲 emin,且指數域也爲 emin 時,該浮點數仍是規範的,也就是說,保存時隱含着一個隱藏的尾數位。爲了保存非規範浮點數,IEEE 標準採用了類似處理特殊值零時所採用的辦法,即用特殊的指數域值 emin - 1 加以標記,當然,此時的尾數域不能爲零。這樣,例子中的差值可以保存爲 00000000000100000000000000000000(0x100000),沒有隱含的尾數位。

有了非規範浮點數,去掉了隱含的尾數位的制約,可以保存絕對值更小的浮點數。而且,也由於不再受到隱含尾數域的制約,上述關於極小差值的問題也不存在了,因爲所有可以保存的浮點數之間的差值同樣可以保存。


A 16-bit floating-point number has a 1-bit sign (S), a 5-bit
    exponent (E), and a 10-bit mantissa (M).  The value of a 16-bit
    floating-point number is determined by the following:

        (-1)^S * 0.0,                        if E == 0 and M == 0,
        (-1)^S * 2^-14 * (M / 2^10),         if E == 0 and M != 0,
        (-1)^S * 2^(E-15) * (1 + M/2^10),    if 0 < E < 31,
        (-1)^S * INF,                        if E == 31 and M == 0, or
        NaN,                                 if E == 31 and M != 0,

    where

        S = floor((N mod 65536) / 32768),
        E = floor((N mod 32768) / 1024), and
        M = N mod 1024.

因此當E=0時,按非規範浮點數處理得到的結果就2^-24精度的數字

--------------------------------------

1. 範圍
  float和double的範圍是由指數的位數來決定的。
  float的指數位有8位,而double的指數位有11位,分佈如下:
  float:
  1bit(符號位) 8bits(指數位) 23bits(尾數位)
  double:
  1bit(符號位) 11bits(指數位) 52bits(尾數位)
  於是,float的指數範圍爲-127~+128,而double的指數範圍爲-1023~+1024,並且指數位是按補碼的形式來劃分的。
  其中負指數決定了浮點數所能表達的絕對值最小的非零數;而正指數決定了浮點數所能表達的絕對值最大的數,也即決定了浮點數的取值範圍。
  float的範圍爲-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的範圍爲-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。

2.  精度
  float和double的精度是由尾數的位數來決定的。浮點數在內存中是按科學計數法來存儲的,其整數部分始終是一個隱含着的“1”,由於它是不變的,故不能對精度造成影響(這裏的觀點有誤, 多一位隱藏位,相當於多一個二進制位, 會增加精度)。
  float:2^23 = 8388608,一共七位,這意味着最多能有7位有效數字,但絕對能保證的爲6位,也即float的精度爲6~7位有效數字;
  double:2^52 = 4503599627370496,一共16位,同理,double的精度爲15~16位。

3.Oracle中Number類型

在Oracle中Number類型可以用來存儲0,正負定點或者浮點數,可表示的數據範圍在
1.0 * 10(-130) —— 9.9...9 * 10(125) {38個9後邊帶88個0}
的數字,當Oracle中的數學表達式的值>=1.0*10(126)時,Oracle就會報錯。
Number的數據聲明如下:
表示        作用        說明
Number(p, s)        聲明一個定點數        p(precision)爲精度,s(scale)表示小數點右邊的數字個數,精度最大值爲38,
Number(p)        聲明一個整數        相當於Number(p, 0)
Number        聲明一個浮點數        其精度爲38,要注意的是scale的值沒有應用,也就是說scale的指不能簡單的理解爲0,或者其他的數。

定點數的精度(p)和刻度(s)遵循以下規則:
?        當一個數的整數部分的長度 > p-s 時,Oracle就會報錯
?        當一個數的小數部分的長度 > s 時,Oracle就會舍入。
?        當s(scale)爲負數時,Oracle就對小數點左邊的s個數字進行舍入。
?        當s > p 時, p表示小數點後第s位向左最多可以有多少位數字,如果大於p則Oracle報錯,小數點後s位向右的數字被舍入

4.驗證
create or replace function  func_test(p_type number) return number
is
/*
 功能:基於警度圖數據同步
*/
 l_cnt number;
begin
 select p_type into l_cnt from dual;
 return l_cnt;
end func_test;
/
show err;

5.結論

number 的總長度是40位,其中可能包括:小數點,負號位。

select to_char(func_test(-987.1234567891234567891234567891234567891234)) from dual;
-987.12345678912345678912345678912345679   //包括小數點及負號位共40位
select to_char(func_test(9876.1234567891234567891234567891234567891234)) from dual;
9876.12345678912345678912345678912345679   //4位整數+小數點+35位小數=40位
select to_char(func_test(987.1234567891234567891234567891234567891234)) from dual;
987.123456789123456789123456789123456789   //3位整數+小數點+36位小數=40位
select to_char(func_test(1234567891234567891234567891234567891234)) from dual;
1234567891234567891234567891234567891234   //40位整數
select to_char(func_test(12345678912345678912345678912345678912345)) from dual;
1.2345678912345678912345678912345679E+40   //41位時精度發生丟失
1.2345678912345678912345678912345679×10^40 即 12345678912345678912345678912345678900000


以下是http://topic.csdn.net/t/20040805/19/3246590.html關於精度的討論

------------------------------------

這個精度是指 有效數字,而不單指小數點後的位數。 
至於精度是   6,   是指   最壞情況下,保持的精度至少有   6   位。 

這是因爲,IEEE標準的   float   類型用   23   bit   來表示浮點數的小數部分。 
極限情況下(這時沒有使用隱含的高位),這裏所能表示的   10   進制的精度是   log10(2^23)   =   6.92... 
所以最小也能保持   6   位的精度。 
============================ 

至於樓主所說的情形,是因爲你的那種情況不是極限情形。 
實際上,浮點數的存儲形式是類似於:     
      數字   *   2^(冪) 
的形式的。 
而   123456.789098765678   
    表示成   1.111   0001   0010   0000   0110   0101   *   2^(16)   的--   *前的是2進制。 
不信可以自己算算,將那個   2   進制轉成   10   進制,然後   16次   乘   2   ,看結果是否如此。 
這裏小數點前的   1   是隱含的,實際存儲的只有小數點後的數,就是   23   bit。 

可以說,能夠保留到   10   位完全是數字本身的結構,比較幸運了。 
你甚至試試   
float   x   =   0.000000000931322574615478515625;   //   2^-30 
然後用   printf( "%.35f\n ",   x);看看,這裏甚至完全保持原來的精度, 
這就是數字本身的特殊結構所導致的。 
再試試   999989.98   看看,精度還有沒有   10位了。 
========================================== 

實際上,絕大部分情況(除了很接近0的數),都是使用   一位隱含的高位   的, 
這時的精度是   log10(2^24)   =   7.22 
所以也有的書也說   float   的精度是   7   位


發佈了3 篇原創文章 · 獲贊 14 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章