關於C++ double浮點數精度丟失的分析

原創

2020-02-23 18:50

看了一篇關於C/C++浮點數的博文，在Win32下，把int, 指針地址,long等4字節整數賦給一個double後，再用該double數賦給原始類型的數，得到的結果於最初的數值一致，即不存在任何精度丟失。例如下面的結果將總是true:

    long a=123456; //assign any long number here
    double db=a;
    long b=db;
    printf("%s\n",a==b?"true":"false");

但是對於long long或win64下的指針地址等8字節整數將存在精度丟失，於是對這方面做了一個簡單的測試：

#include<iostream>
#include<stdlib.h>

void showEncodeOfDouble(unsigned char* db){

    const int ByteLength=8;    
    for(int i=ByteLength-1;i>=0;i--)    
        printf(" %.2x",db[i]);

    printf("\n");

}


int main(){
    
    unsigned long long maxULL=0xffffffffffffffff; //2^64-1=18446744073709551615,
                                                  //max unsigned long long
    printf("%llu\n",maxULL);

    double d1=maxULL;                              //20bit Significant,Precision Loss    
    printf("%f\n",d1);                        

    maxULL=d1;
    printf("%llu\n",maxULL);
    
    showEncodeOfDouble((unsigned char*)&d1);

    system("pause");
    return 0;
}

輸出的結果如下（visual studio,win32）：

18446744073709551615
18446744073709552000.000000
9223372036854775808
 43 f0 00 00 00 00 00 00

　　至此，有兩點疑問（暫時不理會代碼中showEncodeOfDouble的結果）：

  1）爲什麼丟失精度後得到的double數是18446744073709552000.000000？
  2）爲什麼將double數重新轉化爲unsigned long long後得到的數又和double不一致呢？

　對於這兩個問題，需要對C++浮點數的規格有一定的瞭解。

1 IEEE浮點標準

C/C++採用的是IEEE浮點標準，它以“二進制的科學表示法”表示一個小數：

其中M是一個整數部分僅有一位的二進制小數，例如1.011，表示十進制下的1.375。E表示該小數以2爲底時的階數。基於以上的表示方式，小數需要對三部分進行編碼：表示符號的s，及階碼E、尾數碼M。C++中的double類型三種編碼所佔的位數如圖所示。

53位尾數碼所能達到的精度爲53二進制位，約爲16 個十進制位( 53 log₁₀(2) ≈ 15.955)^[1]，尾數碼的編碼中還有一個隱含的開頭整數位1（或0，當11位階碼全0時）因此實際中可得15-17位十進制的精度。當有效位數最多15位的十進制數轉換成double然後重新轉換爲原來的十進制類型時，數值保持一致；另一方面，將一個double數轉化爲可以容納17位以上有效數字的十進制數再重新轉化爲double，結果數值也保持一致。

這就解釋了爲什麼4字節的整數轉化爲double重新轉化能保持一致（2^32=4294967296僅10個有效位），而8字節的整數卻可能丟失精度（2^64-1=18446744073709551615共20個有效位）。但第一個問題中整數丟失精度後轉化成的double數值是怎麼來的呢，這需要了解C++階碼和尾數對於double數值的意義。

2 階碼編碼和尾數編碼

在階碼編碼中，有一個常數偏置量Bias=1023，假設11位階碼所代表的無符號整數值爲e，

1）若e不爲0（11位全爲1時用於表示特殊數字，此處不討論），則double數值爲

2）若e=0，則小數值爲

那麼，可以看函數showEncodeOfDouble了，它的作用是將一個double數的編碼按字節打印出來（左邊是高字節），按其打印結果按照上面計算，可知double編碼值表示的數值是2^64，這是合理的，當把精度較高的整數轉化爲double時，C++採用向偶數舍入的方式得到最接近的值^[2]。至於打印出的結果，屬於C++浮點數打印中的細節問題。

3 C++浮點數打印

許多C/C++的庫中在輸出double時，通常有意使得輸出結果簡短些（即使設置了足夠多的可見位數），以避免較大位數的輸出。直接使用C中的printf或cout打印double數時，打印顯示的結果也有可能是帶有精度丟失的結果，可使用16進制的方式打印出更精確的double：

printf("%a\n",d1);

得到的輸出結果爲：

0x1.000000p+64

至此問題1實際上只是C++中，將高精度整數轉double時的偶數舍入問題。

對於問題2，從float或double轉換成int,值將會被向零舍入.例如1.999將被轉換成1而-1.999將會被轉換成-1。進一步來說，值有可能會溢出。C語言標準沒有對這種情況指出固定的結果，這種轉換行爲是無定義的。

[1] http://en.wikipedia.org/wiki/Double-precision_floating-point_format#cite_note-whyieee-1

[2]深入理解計算機系統，Randal E. Bryant, 機械工業出版社

[3]http://stackoverflow.com/questions/4738768/printing-double-without-losing-precision

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於C++ double浮點數精度丟失的分析

TDengine docker安裝方法

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

List使用add方法添加數據時的覆蓋問題

Python自省（反射）----inspect module

C/C++中static和extern小結

C++虛函數聲明和定義以及g++編譯遇到的一些問題

某廠幾道C/C++面試題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結