位運算簡介及實用技巧(一):基礎篇

http://www.matrix67.com/blog/archives/263

    去年年底寫的關於位運算的日誌是這個Blog裏少數大受歡迎的文章之一,很多人都希望我能不斷完善那篇文章。後來我看到了不少其它的資料,學習到了更多關於位運算的知識,有了重新整理位運算技巧的想法。從今天起我就開始寫這一系列位運算講解文章,與其說是原來那篇文章的follow-up,不如說是一個remake。當然首先我還是從最基礎的東西說起。

什麼是位運算?
    程序中的所有數在計算機內存中都是以二進制的形式儲存的。位運算說穿了,就是直接對整數在內存中的二進制位進行操作。比如,and運算本來是一個邏輯運算符,但整數與整數之間也可以進行and運算。舉個例子,6的二進制是110,11的二進制是1011,那麼6 and 11的結果就是2,它是二進制對應位進行邏輯運算的結果(0表示False,1表示True,空位都當0處理):
     110
AND 1011
———-
    0010  –>  2
    由於位運算直接對內存數據進行操作,不需要轉成十進制,因此處理速度非常快。當然有人會說,這個快了有什麼用,計算6 and 11沒有什麼實際意義啊。這一系列的文章就將告訴你,位運算到底可以幹什麼,有些什麼經典應用,以及如何用位運算優化你的程序。

Pascal和C中的位運算符號
    下面的a和b都是整數類型,則:
C語言  |  Pascal語言
——-+————-
a & b  |  a and b
a | b  |  a or b
a ^ b  |  a xor b
  ~a   |   not a
a << b |  a shl b
a >> b |  a shr b
    注意C中的邏輯運算和位運算符號是不同的。520|1314=1834,但520||1314=1,因爲邏輯運算時520和1314都相當於True。同樣的,!a和~a也是有區別的。

各種位運算的使用
    === 1. and運算 ===
    and運算通常用於二進制取位操作,例如一個數 and 1的結果就是取二進制的最末位。這可以用來判斷一個整數的奇偶,二進制的最末位爲0表示該數爲偶數,最末位爲1表示該數爲奇數.

    === 2. or運算 ===
    or運算通常用於二進制特定位上的無條件賦值,例如一個數or 1的結果就是把二進制最末位強行變成1。如果需要把二進制最末位變成0,對這個數or 1之後再減一就可以了,其實際意義就是把這個數強行變成最接近的偶數。

    === 3. xor運算 ===
    xor運算通常用於對二進制的特定一位進行取反操作,因爲異或可以這樣定義:0和1異或0都不變,異或1則取反。
    xor運算的逆運算是它本身,也就是說兩次異或同一個數最後結果不變,即(a xor b) xor b = a。xor運算可以用於簡單的加密,比如我想對我MM說1314520,但怕別人知道,於是雙方約定拿我的生日19880516作爲密鑰。1314520 xor 19880516 = 20665500,我就把20665500告訴MM。MM再次計算20665500 xor 19880516的值,得到1314520,於是她就明白了我的企圖。
    下面我們看另外一個東西。定義兩個符號#和@(我怎麼找不到那個圈裏有個叉的字符),這兩個符號互爲逆運算,也就是說(x # y) @ y = x。現在依次執行下面三條命令,結果是什麼?
x <- x # y
y <- x @ y
x <- x @ y

    執行了第一句後x變成了x # y。那麼第二句實質就是y <- x # y @ y,由於#和@互爲逆運算,那麼此時的y變成了原來的x。第三句中x實際上被賦值爲(x # y) @ x,如果#運算具有交換律,那麼賦值後x就變成最初的y了。這三句話的結果是,x和y的位置互換了。
    加法和減法互爲逆運算,並且加法滿足交換律。把#換成+,把@換成-,我們可以寫出一個不需要臨時變量的swap過程(Pascal)。
procedure swap(var a,b:longint);
begin
   a:=a + b;
   b:=a - b;
   a:=a - b;
end;

    好了,剛纔不是說xor的逆運算是它本身嗎?於是我們就有了一個看起來非常詭異的swap過程:
procedure swap(var a,b:longint);
begin
   a:=a xor b;
   b:=a xor b;
   a:=a xor b;
end;

    === 4. not運算 ===
    not運算的定義是把內存中的0和1全部取反。使用not運算時要格外小心,你需要注意整數類型有沒有符號。如果not的對象是無符號整數(不能表示負數),那麼得到的值就是它與該類型上界的差,因爲無符號類型的數是用$0000到$FFFF依次表示的。下面的兩個程序(僅語言不同)均返回65435。
var
   a:word;
begin
   a:=100;
   a:=not a;
   writeln(a);
end.

#include <stdio.h>
int main()
{
    unsigned short a=100;
    a = ~a;
    printf( "%dn", a );    
    return 0;
}

    如果not的對象是有符號的整數,情況就不一樣了,稍後我們會在“整數類型的儲存”小節中提到。

    === 5. shl運算 ===
    a shl b就表示把a轉爲二進制後左移b位(在後面添b個0)。例如100的二進制爲1100100,而110010000轉成十進制是400,那麼100 shl 2 = 400。可以看出,a shl b的值實際上就是a乘以2的b次方,因爲在二進制數後添一個0就相當於該數乘以2。
    通常認爲a shl 1比a * 2更快,因爲前者是更底層一些的操作。因此程序中乘以2的操作請儘量用左移一位來代替。
    定義一些常量可能會用到shl運算。你可以方便地用1 shl 16 – 1來表示65535。很多算法和數據結構要求數據規模必須是2的冪,此時可以用shl來定義Max_N等常量。

    === 6. shr運算 ===
    和shl相似,a shr b表示二進制右移b位(去掉末b位),相當於a除以2的b次方(取整)。我們也經常用shr 1來代替div 2,比如二分查找、堆的插入操作等等。想辦法用shr代替除法運算可以使程序效率大大提高。最大公約數的二進制算法用除以2操作來代替慢得出奇的mod運算,效率可以提高60%。

位運算的簡單應用
    有時我們的程序需要一個規模不大的Hash表來記錄狀態。比如,做數獨時我們需要27個Hash表來統計每一行、每一列和每一個小九宮格里已經有哪些數了。此時,我們可以用27個小於2^9的整數進行記錄。例如,一個只填了2和5的小九宮格就用數字18表示(二進制爲000010010),而某一行的狀態爲511則表示這一行已經填滿。需要改變狀態時我們不需要把這個數轉成二進制修改後再轉回去,而是直接進行位操作。在搜索時,把狀態表示成整數可以更好地進行判重等操作。這道題是在搜索中使用位運算加速的經典例子。以後我們會看到更多的例子。
    下面列舉了一些常見的二進制位的變換操作。

    功能              |           示例            |    位運算
———————-+—————————+——————–
去掉最後一位          | (101101->10110)           | x shr 1
在最後加一個0         | (101101->1011010)         | x shl 1
在最後加一個1         | (101101->1011011)         | x shl 1+1
把最後一位變成1       | (101100->101101)          | x or 1
把最後一位變成0       | (101101->101100)          | x or 1-1
最後一位取反          | (101101->101100)          | x xor 1
把右數第k位變成1      | (101001->101101,k=3)      | x or (1 shl (k-1))
把右數第k位變成0      | (101101->101001,k=3)      | x and not (1 shl (k-1))
右數第k位取反         | (101001->101101,k=3)      | x xor (1 shl (k-1))
取末三位              | (1101101->101)            | x and 7
取末k位               | (1101101->1101,k=5)       | x and (1 shl k-1)
取右數第k位           | (1101101->1,k=4)          | x shr (k-1) and 1
把末k位變成1          | (101001->101111,k=4)      | x or (1 shl k-1)
末k位取反             | (101001->100110,k=4)      | x xor (1 shl k-1)
把右邊連續的1變成0    | (100101111->100100000)    | x and (x+1)
把右起第一個0變成1    | (100101111->100111111)    | x or (x+1)
把右邊連續的0變成1    | (11011000->11011111)      | x or (x-1)
取右邊連續的1         | (100101111->1111)         | (x xor (x+1)) shr 1
去掉右起第一個1的左邊 | (100101000->1000)         | x and (x xor (x-1))

    最後這一個在樹狀數組中會用到。

Pascal和C中的16進製表示
    Pascal中需要在16進制數前加$符號表示,C中需要在前面加0x來表示。這個以後我們會經常用到。

整數類型的儲存
    我們前面所說的位運算都沒有涉及負數,都假設這些運算是在unsigned/word類型(只能表示正數的整型)上進行操作。但計算機如何處理有正負符號的整數類型呢?下面兩個程序都是考察16位整數的儲存方式(只是語言不同)。
var
   a,b:integer;
begin
   a:=$0000;
   b:=$0001;
   write(a,' ',b,' ');
   a:=$FFFE;
   b:=$FFFF;
   write(a,' ',b,' ');
   a:=$7FFF;
   b:=$8000;
   writeln(a,' ',b);
end.

#include <stdio.h>
int main()
{
    short int a, b;
    a = 0x0000;
    b = 0x0001;
    printf( "%d %d ", a, b );
    a = 0xFFFE;
    b = 0xFFFF;
    printf( "%d %d ", a, b );
    a = 0x7FFF;
    b = 0x8000;
    printf( "%d %dn", a, b );
    return 0;
}

    兩個程序的輸出均爲0 1 -2 -1 32767 -32768。其中前兩個數是內存值最小的時候,中間兩個數則是內存值最大的時候,最後輸出的兩個數是正數與負數的分界處。由此你可以清楚地看到計算機是如何儲存一個整數的:計算機用$0000到$7FFF依次表示0到32767的數,剩下的$8000到$FFFF依次表示-32768到-1的數。32位有符號整數的儲存方式也是類似的。稍加註意你會發現,二進制的第一位是用來表示正負號的,0表示正,1表示負。這裏有一個問題:0本來既不是正數,也不是負數,但它佔用了$0000的位置,因此有符號的整數類型範圍中正數個數比負數少一個。對一個有符號的數進行not運算後,最高位的變化將導致正負顛倒,並且數的絕對值會差1。也就是說,not a實際上等於-a-1。這種整數儲存方式叫做“補碼”。

最後還有兩句話
    Matrix67原創
    轉貼請註明出處

http://www.matrix67.com/blog/archives/263

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章