浮點數的存儲

1、先看一例題:

#include <stdio.h>

  void main(void){

    int num=9; /* num是整型變量,設爲9 */

    float* pFloat=&num; /* pFloat表示num的內存地址,但是設爲浮點數 */

    printf("num的值爲:%d\n",num); /* 顯示num的整型值 */

    printf("*pFloat的值爲:%f\n",*pFloat); /* 顯示num的浮點值 */

    *pFloat=9.0; /* 將num的值改爲浮點數 */

    printf("num的值爲:%d\n",num); /* 顯示num的整型值 */

    printf("*pFloat的值爲:%f\n",*pFloat); /* 顯示num的浮點值 */

  }
運算結果如下:

 num的值爲:9
 *pFloat的值爲:0.000000
 num的值爲:1091567616
 *pFloat的值爲:9.000000
num和*pFloat在內存中明明是同一個數,爲什麼浮點數和整數的解讀結果會差別這麼大?
    union X
    {
        int a; //第一成員爲int,故初始化時轉爲int存儲方式
        float f;
    };

    union X example={3.14};

    printf("a=%d,f=%f\n",example.a,example.f);//a=3,f=3.000000
////////////////////////////////////////////////////////////////////////
    union X
    {
        float f;//第一成員爲float,故初始化時轉爲float存儲方式
        int a;

    };

    union X example={3.14};

    printf("a=%d,f=%f\n",example.a,example.f);//a=1078523331,f=3.140000
要理解這個結果,一定要搞懂浮點數在計算機內部的表示方法。


2、在討論浮點數之前,先看一下整數在計算機內部是怎樣表示的。

 int num=9;

上面這條命令,聲明瞭一個整數變量,類型爲int,值爲9(二進制寫法爲1001)。普通的32位計算機,用4個字節表示int變量,所以9就被保存爲00000000 00000000 00000000 00001001,寫成16進制就是0x00000009。

那麼,我們的問題就簡化成:爲什麼0x00000009還原成浮點數,就成了0.000000?


3、根據國際標準IEEE 754,任意一個二進制浮點數V可以表示成下面的形式:

          V = (-1)s * M * 2^(E)

  (1)(-1)^s表示符號位,當s=0,V爲正數;當s=1,V爲負數。

  (2)M表示有效數字,大於等於1,小於2。

  (3)2^E表示指數位。

舉例來說,十進制的5.0,寫成二進制是101.0,相當於1.01×2^2。那麼,按照上面V的格式,可以得出s=0,M=1.01,E=2。

十進制的-5.0,寫成二進制是-101.0,相當於-1.01×2^2。那麼,s=1,M=1.01,E=2。

IEEE 754規定,對於32位的浮點數,最高的1位是符號位s,接着的8位是指數E,剩下的23位爲有效數字M。


對於64位的浮點數,最高的1位是符號位S,接着的11位是指數E,剩下的52位爲有效數字M。


4、

IEEE 754對有效數字M和指數E,還有一些特別規定。

前面說過,1≤M<2,也就是說,M可以寫成1.xxxxxx的形式,其中xxxxxx表示小數部分。IEEE 754規定,在計算機內部保存M時,默認這個數的第一位總是1,因此可以被捨去,只保存後面的xxxxxx部分(不夠23位後面補0)。比如保存1.01的時候,只保存01,等到讀取的時候,再把第一位的1加上去。這樣做的目的,是節省1位有效數字。以32位浮點數爲例,留給M只有23位,將第一位的1捨去以後,等於可以保存24位有效數字


至於指數E,情況就比較複雜。

首先,E爲一個無符號整數(unsigned int)。這意味着,如果E爲8位,它的取值範圍爲0~255;如果E爲11位,它的取值範圍爲0~2047。但是,我們知道,科學計數法中的E是可以出現負數的,所以IEEE 754規定,E的真實值必須再減去一箇中間數,對於8位的E,這個中間數是127;對於11位的E,這個中間數是1023。

比如,2^10的E是10,所以保存成32位浮點數時,必須保存成10+127=137,即10001001。(即在計算機保存中存爲137)

然後,指數E還可以再分成三種情況:

(1)(保存值)E不全爲0或不全爲1。這時,浮點數就採用上面的規則表示,即指數E的計算值減去127(或1023),得到真實值,再將有效數字M前加上第一位的1。

(2)(保存值)E全爲0。這時,浮點數的指數E等於1-127(或者1-1023),有效數字M不再加上第一位的1,而是還原爲0.xxxxxx的小數。這樣做是爲了表示±0,以及接近於0的很小的數字。

e = 0 時  E = 1 – 127 = -126, M = 0 + decimals = decimals , 我們簡單的記爲 0.m
e != 0 時  E = e – 127,  M = 1 + decimals , 我們簡單的記爲 1.m
 
至於e = 0 時,E 爲什麼不取爲 0 –127 而是 1 – 127, 這是爲了實現 一個平穩的過渡。簡單的說,就是 e = 0 時最大的數,
和 e = 1 時最小的數要非常的接近。
e = 0時 最大的M 可以 0.99999988079071044921875 ,而最小的 e  = 1 時,最小的 M = 1,這兩個M是連續的(非常接近),必須保證指數是一樣的時候,他們纔會銜接的很好,這是IEEE 754 用的一點小技巧。
 
簡單的說:
IF (e ==0)
    E = –126
    M = 0.m
    return float(sign, E, M)
ELSE
    E = e – 127
    M = 1.m
    return float(sign, E, M)

(3)(內存)E全爲1。這時,如果有效數字M全爲0,表示±無窮大(正負取決於符號位s);如果有效數字M不全爲0,表示這個數不是一個數(NaN)。

5、

好了,關於浮點數的表示規則,就說到這裏。

下面,讓我們回到一開始的問題:爲什麼0x00000009還原成浮點數,就成了0.000000?//先用2進製表示

首先,將0x00000009拆分,得到第一位符號位s=0,後面8位的指數E=00000000,最後23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全爲0,所以符合上一節的第二種情況。因此,浮點數V就寫成:

  V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

顯然,V是一個很小的接近於0的正數,所以用十進制小數表示就是0.000000。


再看例題的第二部分。

請問浮點數9.0,如何用二進制表示?還原成十進制又是多少?//先用轉換成2進製表示

首先,浮點數9.0等於二進制的1001.0,即1.001×2^3。

那麼,第一位的符號位s=0,有效數字M等於001後面再加20個0,湊滿23位,指數E等於3+127=130,即10000010。

所以,寫成二進制形式,應該是s+E+M,即0 10000010 001 0000 0000 0000 0000 0000。這個32位的二進制數,還原成十進制,正是1091567616。


從float 到 double 的轉換:
 
一個數字,不管是float 還是 double 。肯定都有一樣的 sign E M
但是 sign e m 這三個的表示可能有所不同。
可以發現,sign肯定是相同的。
e 和 m 可能不同。
float 的e 我們記爲 ef
double 的e 我們記爲 ed
 
這樣 ef – 127 = ed – 1023
ed = ef – 127 + 1023
m 從二進制上看更加直觀, 他們表示的都是一個二進制的小數,所以,應該完全一致,才能表示出一樣的M
 
利用上面的算法,我表示一下上圖中的float 到double
0 01111111100 0100000000000000000000000000000000000000000000000000

考慮到一些語言沒有 float 也 沒有int64 ,完全就用int 來表示這個過程。
 

     int buffer[2];

     int sign =  value >> 31;
     int M    =  value & 0x007FFFFF;
     int e     =  ((value >> 23 ) & 0xFF) - 127 + 1023;

   
     //小尾的機器
     buffer[1] = ((sign & 1) << 31) | ((e & 0x7FF) << 20) | (M >> 3);
     buffer[0] = (M & 0x7) << 29;

    

     //大尾的機器

buffer[0] = ((sign & 1) << 31) | ((e & 0x7FF) << 20) | (M >> 3);
      buffer[1] = (M & 0x7) << 29;



轉至 http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html



發佈了95 篇原創文章 · 獲贊 2 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章