生信(九)生信代碼中的位操作

本文介紹了生信代碼中用到的一些位操作。

我們知道,0和1構成的二進制充斥着計算機語言的世界。一般來說,我們對二進制可以操作的最小單位就是一個bit(位)了,一個bit要麼是0,要麼是1。在編寫代碼的過程中,如果我們能瞭解一點位操作,有時可以簡化代碼、提高效率。

這一點對於生信的編程同樣適用。

應用一:列舉k-mer

比如,在《算法(三)列舉所有k-mer的組合》一文中,筆者曾經分享過一段代碼,意在解決NGS數據分析中時常會碰到的列舉k-mer的問題:

“如何打印出特定長度的全部 k-mer 呢?”

當然可以用遞歸的方法(見前文,此處略過),但是下面的代碼更簡潔:

#include <stdio.h>

int PrintKMer(const int k) {  // for k <= 31
    int i;
    unsigned long long x, y;

    for (x = 0; x < 1ULL<<(2 * k); ++x) {
        for (i = 0, y = x; i < k; ++i, y >>= 2)
            putchar("ATGC"[y & 3]);
        putchar('\n');
    }
    return 0;
}

int main(void) {
    PrintKMer(2);
    return 0;
}

這個方法巧妙地運用位操作解決了問題,讀者可以仔細品讀,該段代碼源自lh3在biostars網站上的分享。效果如下:
在這裏插入圖片描述

應用二:尋找最接近的2的冪

在NGS領域著名的kseq.h這個頭文件中,我們可以看到lh3另一段運用位操作的代碼:

#define kroundup32(x) (--(x), (x)|=(x)>>1, (x)|=(x)>>2, (x)|=(x)>>4, (x)|=(x)>>8, (x)|=(x)>>16, ++(x))

這段代碼想要實現的功能是“返回不小於x並且最接近x的2的冪”。當然這是有應用限制的,只能對小於等於2302^{30}(有符號整數)或者小於等於2312^{31}(無符號整數)的整數起作用。

代碼中加上--(x)的效果是當x是2的冪時,會返回原值(比如,當x=8時,會返回8)。如果去掉--(x)這一小句,那麼當x是2的冪時,會返回下一個2的冪(比如,當x=8時,會返回16)。

我們運行測試代碼:

#include <stdio.h>
#include <stdint.h>
#define kroundup32(x) (--(x), (x)|=(x)>>1, (x)|=(x)>>2, (x)|=(x)>>4, (x)|=(x)>>8, (x)|=(x)>>16, ++(x))

int main(void) {
    int32_t a[] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1073741823, 1073741824, 1073741825};
    int n = 14;
    int i, k, j;
    for (i = 0; i < n; i++) {
        k = j = a[i];
        printf("%d --> %d\n", k, kroundup32(j));
    }
    return 0;
}

效果是:
在這裏插入圖片描述

更多關於位操作的技巧

從上面兩個應用來看,位運算的確可以應用於生信領域的代碼中。那麼爲什麼要用位操作呢?一般有兩個原因:一是很多時候運用位操作可以簡化代碼;二是運用位操作通常可以提高代碼運行效率(比起乘法和除法操作來說)。

如果你想了解更多位操作的技巧,可以參考Bit Twiddling Hacks這個網站,其實上文“尋找最接近的2的冪”的代碼也出現在了該網站的小節中。

除此以外,裏面還有很多經過驗證的實用的位操作。比如:

如何判斷一個數是不是2的冪

可以這樣做:

unsigned int v; // we want to see if v is a power of 2
bool f;         // the result goes here 
f = (v & (v - 1)) == 0;

//Note that 0 is incorrectly considered a power of 2 here. To remedy this, use:
f = v && !(v & (v - 1));

有時間的時候去看看,說不定就可以獲取一些啓發。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章