浮点数的存储

读了陈皓老师的魔数一文,对浮点数的存储有了比较清晰的理解

float的存储是32位的,而double的存储方式是64位

存储格式如下图
浮点数的存储

以64位双精度来说

S是符号位,0为正数,1为负数
E是指数部分,11位可以表示的范围是0~2047,为了能表示负数,这11位表示的数范围是-1023~1023

每个浮点数都可以表示为2^n < 浮点数 < 2^(n+1)的形式
这里的n+1023就是指数E,以3.14为例子,2^1 < 3.14 < 2^2,E=1024
52bit可以表示的数是0~2^52-1,即2^52个数,我们可以把2^n~2^(n+1)分成2^52等份,看浮点占了多少比例,以3.14为例子,(3.14-2)/(4-2)=0.57,则0.57*2^52=2567051787601182.72,四舍五入M=2567051787601183

所以3.14在计算机中的存储为
0 10000000000 1001000111101011100001010001111010111000010100011111

浮点数的计算方式:
(-1)^S (1 + (M / 2^23)) (2 ^ E-127)
64位的就类似下面这个式子了
(-1)^S (1 + (M / 2^52)) (2 ^ E-1023)

(-1)^0 (1 + 0.57000000000000006217248937900877) (2 ^ 1) = 3.1400000000000001243449787580175
有一定的误差

《完》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章