int与float深入理解

别在int与float上栽跟头


        int与float是我们每天编程都用的两种类型,但是我们真的足够了解它们吗。昨天在博客园看到一个比较老的笑话: “昨天晚上下班回家,一民警迎面巡逻而来。突然对我大喊:站住!民警:int 类型占几个字节?  我:4 个。  民警:你可以走了。  我:为什么问这样的问题? 民警:深夜还在街上走,寒酸苦逼的样子,不是小偷就是程序员。”(注:看到有朋友评论说占几个字节跟具体的环境有关,学过C++的都知道,在C++这样的语言中确实取决于环境,但是在Java跟C#中不管什么环境都规定是4个字节,所以后边我们只讨论4个字节的情况)

        看完这个笑话,我脑袋立马将float、double等类型的字节长度闪了个遍。我知道float也占4个字节,但存储结构跟int是不一样的,并且表示范围也不一样。紧接着就出现了一个疑问,到底哪些int值是float不能表示的呢?如果你回答不了这个问题,那还是好好地了解一下吧,如果我说的不够清楚,请多查点其他的资料看一下。

       为什么有些int是float表示不了的呢?因为int与float同样占4个字节,float表示的范围又比int大并且还包含很多小数,那int的每个值都能被float表示就是不可能的事情了。在平时的编程中好像也没有感觉什么不对呀,这是为什么呢?先把这个问题留到后边,原理说清楚了再来回答这个问题。在文章的下边帖了一个进制转换程序,方便大家使用。


小数十进制与二进制的转换

        二进制转换成十进制:跟整数转换一个原理,例如二进制11.11转换为十进制 1*2^1+1*2^0+1*2^(-1)+1*2^(-2)=3.75。

        十进制转换成二进制:整数部分不用说了,跟整数的十进制转成二进制没有区别。小数部分采用乘2取整的方式,比如3.75整数部分对应的二进制是11。小数部分0.75,先乘以2等于1.5,取1.5的整数部分1。再用0.5(上次乘2的结果的小数部分)乘以2等于1.0,取1.0的整数部分1,现在已经没有小数部分了,终止。0.75对应的二进制就是.11。

        所以3.75对应的二进制是11.11。注意这里的3.75和1.11只是浮点数十进制与二进制的不同表示形式,存储结构是一样的,因为本来就是同一个数。内存结构又是怎么样的呢,下边介绍。   二. float的存储结构   float也是占32位,第一位是符号位(sign),符号位后边8位是指数(exponent),最后23位是尾数(mantissa)。

        float值的二进制表示形式是:sign* mantissa* 2^exponent。注意这个表达式是对应上述存储结构的二进制。

        符号位,表述浮点数的正或者负,0代表正,1代表负。


        指数位,实际也是有正负的,但是没有单独的符号位,在计算机的世界里,进位都是二进制的,指数表示的也是2的N次幂,8位指数表达的范围是0到255,而对应的实际的指数是-127到128。也就是说实际的指数等于指数位表示的数值减127。这里特殊说明,-127和+128这两个指数数值在IEEE当中是保留的用作多种用途的,这里就不多做介绍了,有兴趣的可以查阅其他资料。

        尾数位,只代表了二进制的小数点后的部分,小数点前的那位被省略了,当指数位全部为0时省略的是0否则省略的是1,为什么呢,看个例子:

        二进制11.11表示成指数形式是1.111*2^1,0.1111表示成指数形式是1.111*2^(-1)。由此可见,正常情况下二进制的指数形式是肯定有一个1的,所以存储的时候直接省略。但是在指数位全部为0时,指数是-127,这个数字是有特殊含义的,在尾数全部为0时代表的数值是0,省略的那位是0,如果省略的是1那么0这个数字就没法用float表示了。


结合例子理解一下

        那我们就看一下3.75的内存结构到底是什么样子的。首先转化成二进制形式11.11。转化成二进制指数形式1.111*21。由此我们可以得知尾数部分是111(将1省略掉了),不足23位的后边补0,指数部分是1+127=128,对应二进制10000000。所以存储结构就是01000000011100000000000000000000。

        反过来转换一下,比如某个float的存储结构是01000000011100000000000000000000,符号位是正的,指数位是128,实际的指数是128-127=1,尾数是111,再加上省略的那位就是1.111。所以对应的二进制指数形式是1.111*2^1,对应的二进制是11.11,对应的十进制是3.75。


        到这里我们就可以看出,实际上尾数决定了浮点数的精度,尾数只有23位,加上省略的那位就是24位。如果一个int类型的值小于224,那么float是完全可以表示的。如果int类型大于224就不一定能表示了。假如一个int数值的二进制表示形式是100000000000000000000000,表示成指数形式是1.00000000000000000000000*2^23,对应的float的类型,尾数位全部为0,指数位是23+127=150,这样完全没有问题。假如一个int数值的二进制表示形式是1000000000000000000000001,表示成指数形式是1.000000000000000000000001*2^24,对应的float的类型尾数位是000000000000000000000001一共24位,这样就完全超出了float最多容纳23位尾数的能力。所以就不能正确表达这个int值了。由此也可以得出不能被float准确表达的最小int值是2^24+1。我们再将1000000000000000000000001的值加1,变成了1000000000000000000000010,这样变换为指数形式可以看出尾数又变为了23位,也就是说25位的二进制整数最后一位是0才能被float准确表示,每2个数就有一个不能被准确表示。如果是26位的二进制整数最后两位都是0才可以被float准确表达,每4个数就有3个不能被准确表示,以此类推。


        现在再来回答为什么在编程的过程中似乎没怎么引起注意,这是因为,我们平时用的数值基本都小于224+1=16777217。


原文链接:别在int与float上栽跟头



java中的float和double的精度问题


1、背景知识 
在java中没有细讲,只是讲了float占32位(bit),double占 64位。 
对于计算机来说,用位数表示是合适的。但有人喜欢用字节(byte)表示。一个字节占8位。 
1 byte = 8 bit. 
所以float占4个字节,double占8个字节。 
不过我还是喜欢用位数表示。这样更直接,也更容易理解计算机是怎么存储这些类型的。 

对于精度和范围,还是参考一下c++吧。 



2、存储知识 
计算器存储浮点数的方法:(用科学计数法存储) 
将要存的数先转换为小数(0.xxxxxx)x10的n次幂的形式进行存储。 
例如: 
3.1415 将被转换为:0.31415 x 10^1 
100000 将被转换为:0.1 x 10^6 

首先申明一点,先范围(有效数字位,包括整数位和小数位),再精度。 



3、下面切入正题 
===================== 
在c++中单精度float类型与双精度double类型的问题 

【"单精度用float表示,在计算机中使用4位字节(32位bit)来表示,具有7位有效数字"】 

float类型存储的时候1个bit是符号位,8个bit是指数位,剩下的23个bit是有效数字位。 
2的23次方是8388608,即7位有效数字,精度(10进制)。 

一个单精度的浮点数在内存当中占用了32个bit位,按照浮点数的表示标准,最高位表示符号,这32位一部分用来表示阶码,一部分用来表示小数部分。 
按照这个表示方法转化成10进制之后,它能表示的最高精度是7位有效数字。 

比如 
float a=3.14159;a在内存中实际上表示为0.314159乘以10的1次方(0是符号位),而分配给a的存储单元就分为两部分,一部分存0.314159,一部分存指数1,而且也都是转化为2进制来存。 

================== 
float ,1位符号位, 8位指数位,23位尾数位 
double,1位符号位,11位指数位,52位尾数位 

float尾数位23位,2^23=8.3E6,7位,所以不同的编译器规定不同,有些是7位,有些8位 
double尾数52位,2^52=4.5E15,15位,所以double的有效位数是15位 


后记: 
数一下有效数字位数(整数位+小数位),7位以内的用float,15位以内的用double 
但是还有一点小小的区别: 
float f =  (float) 62345678.912345;  // => 6.234568E7  共 7 位 
float f2 =  (float) 12345678.912345; // => 1.2345679E7 共 8 位 

(精度问题,float精度为7--8位,8位的情况是第一位是1,当是2时进位后面的精度丢失?)

原文链接:java中的float和double的精度问题



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章