浮點數的存儲

1、先看一例題：

#include <stdio.h>

　　void main(void){

　　　　int num=9; /* num是整型變量，設爲9 */

　　　　float* pFloat=&num; /* pFloat表示num的內存地址，但是設爲浮點數 */

　　　　printf("num的值爲：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值爲：%f\n",*pFloat); /* 顯示num的浮點值 */

　　　　*pFloat=9.0; /* 將num的值改爲浮點數 */

　　　　printf("num的值爲：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值爲：%f\n",*pFloat); /* 顯示num的浮點值 */

　　}

運算結果如下：

　num的值爲：9
　*pFloat的值爲：0.000000
　num的值爲：1091567616
　*pFloat的值爲：9.000000

num和*pFloat在內存中明明是同一個數，爲什麼浮點數和整數的解讀結果會差別這麼大？

    union X
    {
        int a; //第一成員爲int，故初始化時轉爲int存儲方式
        float f;
    };

    union X example={3.14};

    printf("a=%d,f=%f\n",example.a,example.f);//a=3,f=3.000000
////////////////////////////////////////////////////////////////////////
    union X
    {
        float f;//第一成員爲float，故初始化時轉爲float存儲方式
        int a;

    };

    union X example={3.14};

    printf("a=%d,f=%f\n",example.a,example.f);//a=1078523331,f=3.140000

要理解這個結果，一定要搞懂浮點數在計算機內部的表示方法。

2、在討論浮點數之前，先看一下整數在計算機內部是怎樣表示的。

　int num=9;

上面這條命令，聲明瞭一個整數變量，類型爲int，值爲9（二進制寫法爲1001）。普通的32位計算機，用4個字節表示int變量，所以9就被保存爲00000000 00000000 00000000 00001001，寫成16進制就是0x00000009。

那麼，我們的問題就簡化成：爲什麼0x00000009還原成浮點數，就成了0.000000？

3、根據國際標準IEEE 754，任意一個二進制浮點數V可以表示成下面的形式：

V = (-1)^s * M * 2^(E)

　　（1）(-1)^s表示符號位，當s=0，V爲正數；當s=1，V爲負數。

　　（2）M表示有效數字，大於等於1，小於2。

　　（3）2^E表示指數位。

舉例來說，十進制的5.0，寫成二進制是101.0，相當於1.01×2^2。那麼，按照上面V的格式，可以得出s=0，M=1.01，E=2。

十進制的-5.0，寫成二進制是-101.0，相當於-1.01×2^2。那麼，s=1，M=1.01，E=2。

IEEE 754規定，對於32位的浮點數，最高的1位是符號位s，接着的8位是指數E，剩下的23位爲有效數字M。

對於64位的浮點數，最高的1位是符號位S，接着的11位是指數E，剩下的52位爲有效數字M。

4、

IEEE 754對有效數字M和指數E，還有一些特別規定。

前面說過，1≤M<2，也就是說，M可以寫成1.xxxxxx的形式，其中xxxxxx表示小數部分。IEEE 754規定，在計算機內部保存M時，默認這個數的第一位總是1，因此可以被捨去，只保存後面的xxxxxx部分(不夠23位後面補0)。比如保存1.01的時候，只保存01，等到讀取的時候，再把第一位的1加上去。這樣做的目的，是節省1位有效數字。以32位浮點數爲例，留給M只有23位，將第一位的1捨去以後，等於可以保存24位有效數字。

至於指數E，情況就比較複雜。

首先，E爲一個無符號整數（unsigned int）。這意味着，如果E爲8位，它的取值範圍爲0~255；如果E爲11位，它的取值範圍爲0~2047。但是，我們知道，科學計數法中的E是可以出現負數的，所以IEEE 754規定，E的真實值必須再減去一箇中間數，對於8位的E，這個中間數是127；對於11位的E，這個中間數是1023。

比如，2^10的E是10，所以保存成32位浮點數時，必須保存成10+127=137，即10001001。(即在計算機保存中存爲137)

然後，指數E還可以再分成三種情況：

（1）(保存值)E不全爲0或不全爲1。這時，浮點數就採用上面的規則表示，即指數E的計算值減去127（或1023），得到真實值，再將有效數字M前加上第一位的1。

（2）(保存值)E全爲0。這時，浮點數的指數E等於1-127（或者1-1023），有效數字M不再加上第一位的1，而是還原爲0.xxxxxx的小數。這樣做是爲了表示±0，以及接近於0的很小的數字。

e = 0 時 E = 1 – 127 = -126， M = 0 + decimals = decimals ，我們簡單的記爲 0.m

e != 0 時 E = e – 127, M = 1 + decimals ，我們簡單的記爲 1.m

至於e = 0 時，E 爲什麼不取爲 0 –127 而是 1 – 127，這是爲了實現一個平穩的過渡。簡單的說，就是 e = 0 時最大的數，

和 e = 1 時最小的數要非常的接近。

e = 0時最大的M 可以 0.99999988079071044921875 ，而最小的 e = 1 時，最小的 M = 1，這兩個M是連續的（非常接近），必須保證指數是一樣的時候，他們纔會銜接的很好，這是IEEE 754 用的一點小技巧。

簡單的說：

IF (e ==0)

E = –126

M = 0.m

return float(sign, E, M)

ELSE

E = e – 127

M = 1.m

return float(sign, E, M)

（3）(內存)E全爲1。這時，如果有效數字M全爲0，表示±無窮大（正負取決於符號位s）；如果有效數字M不全爲0，表示這個數不是一個數（NaN）。

5、

好了，關於浮點數的表示規則，就說到這裏。

下面，讓我們回到一開始的問題：爲什麼0x00000009還原成浮點數，就成了0.000000？//先用2進製表示

首先，將0x00000009拆分，得到第一位符號位s=0，後面8位的指數E=00000000，最後23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全爲0，所以符合上一節的第二種情況。因此，浮點數V就寫成：

　　V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

顯然，V是一個很小的接近於0的正數，所以用十進制小數表示就是0.000000。

再看例題的第二部分。

請問浮點數9.0，如何用二進制表示？還原成十進制又是多少？//先用轉換成2進製表示

首先，浮點數9.0等於二進制的1001.0，即1.001×2^3。

那麼，第一位的符號位s=0，有效數字M等於001後面再加20個0，湊滿23位，指數E等於3+127=130，即10000010。

所以，寫成二進制形式，應該是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。這個32位的二進制數，還原成十進制，正是1091567616。

從float 到 double 的轉換：

一個數字，不管是float 還是 double 。肯定都有一樣的 sign E M

但是 sign e m 這三個的表示可能有所不同。

可以發現，sign肯定是相同的。

e 和 m 可能不同。

float 的e 我們記爲 ef

double 的e 我們記爲 ed

這樣 ef – 127 = ed – 1023

ed = ef – 127 + 1023

m 從二進制上看更加直觀, 他們表示的都是一個二進制的小數，所以，應該完全一致，才能表示出一樣的M

利用上面的算法，我表示一下上圖中的float 到double

0 01111111100 0100000000000000000000000000000000000000000000000000

考慮到一些語言沒有 float 也沒有int64 ，完全就用int 來表示這個過程。

int buffer[2];

     int sign = value >> 31;
     int M    = value & 0x007FFFFF;
     int e     = ((value >> 23 ) & 0xFF) - 127 + 1023;

     //小尾的機器
     buffer[1] = ((sign & 1) << 31) | ((e & 0x7FF) << 20) | (M >> 3);
     buffer[0] = (M & 0x7) << 29;

//大尾的機器

buffer[0] = ((sign & 1) << 31) | ((e & 0x7FF) << 20) | (M >> 3);
buffer[1] = (M & 0x7) << 29;

轉至 http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html

xmzzy2012

發佈了95 篇原創文章 · 獲贊 2 · 訪問量 9萬+

私信關注

浮點數的存儲

vfork與fork

kobject與kset

linux塊設備驅動簡介和實例

網絡驅動與DM9000

linux內核可變參數分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結