gbk/utf8/unicode編碼轉換，不依賴任何系統API自己實現與平臺無關的轉換算法

原文鏈接（http://blog.csdn.net/coollofty/article/details/8058859）

GBK、UTF8、Unicode，這三種編碼是一般程序開發，或者各種應用中最常見的三種編碼方式了，還不知道基本概念的趕快請教搜索引擎自己科普一下。

本文的目的不是來講述什麼是GBK編碼，什麼是UTF8編碼，他們的編碼規則是怎樣的這一類的基本概念的文章。本文要講述的是如何沒有系統API輔助的情況下，如何最簡單的快速實現這三種編碼之間的轉換。也許你會說，這有什麼意義呢？Windows上、Linux上，我們都有系統API可以進行轉換，一個API搞定了。退一步說，還有libiconv可以墊底，何必自己搞？話是這麼說沒錯，但這不等於所有的系統上都有這些編碼轉換的API，比如Android的NDK開發的時候，編碼轉換就是一個討厭的問題，雖然Android自身有帶這樣的API，但是他沒有提供給我們使用，網上的解決方案都存在着或多或少的問題，不是性能不成（通過Java轉調，效率太低），就是自己去dl_open icu庫，但是那個函數的名稱又很蛋疼。而我們只是需要轉換這麼3種覺編碼而已，搞出iconv來一下就是好幾MB的庫，真覺得沒有必要。總之解決得都很不爽。咱是C++程序員，索性，本着底層開發的原則，自己搞一套吧。

這三種編碼的轉換，UTF8與Unicode之間是很簡單的（這裏的Unicode指的是UCS-2），直接貼代碼：

[cpp]view
plaincopy

//參數1是UTF8字符串當前位置指針，這裏必須要是指針，因爲必須要通過第1個字符進行判斷才知道一個完整的字符的編碼要向後取多少個字符  

//參數2是返回的UCS-2編碼的Unicode字符  

inline int UTF82UnicodeOne(const char* utf8, wchar_t& wch)  

{  

    //首字符的Ascii碼大於0xC0才需要向後判斷，否則，就肯定是單個ANSI字符了  

    unsigned char firstCh = utf8[0];  

    if (firstCh >= 0xC0)  

    {  

        //根據首字符的高位判斷這是幾個字母的UTF8編碼  

        int afters, code;  

        if ((firstCh & 0xE0) == 0xC0)  

        {  

            afters = 2;  

            code = firstCh & 0x1F;  

        }  

        else if ((firstCh & 0xF0) == 0xE0)  

        {  

            afters = 3;  

            code = firstCh & 0xF;  

        }  

        else if ((firstCh & 0xF8) == 0xF0)  

        {  

            afters = 4;  

            code = firstCh & 0x7;  

        }  

        else if ((firstCh & 0xFC) == 0xF8)  

        {  

            afters = 5;  

            code = firstCh & 0x3;  

        }  

        else if ((firstCh & 0xFE) == 0xFC)  

        {  

            afters = 6;  

            code = firstCh & 0x1;  

        }  

        else  

        {  

            wch = firstCh;  

            return 1;  

        }  

        //知道了字節數量之後，還需要向後檢查一下，如果檢查失敗，就簡單的認爲此UTF8編碼有問題，或者不是UTF8編碼，於是當成一個ANSI來返回處理  

        for(int k = 1; k < afters; ++ k)  

        {  

            if ((utf8[k] & 0xC0) != 0x80)  

            {  

                //判斷失敗，不符合UTF8編碼的規則，直接當成一個ANSI字符返回  

                wch = firstCh;  

                return 1;  

            }  

            code <<= 6;  

            code |= (unsigned char)utf8[k] & 0x3F;  

        }  

        wch = code;  

        return afters;  

    }  

    else  

    {  

        wch = firstCh;  

    }  

    return 1;  

}

有了這個函數，那麼轉換一整個UTF8字符串，就是很簡單的一件事情了，下面直接給出了最短的實現：

[cpp]view
plaincopy

//參數1是UTF8編碼的字符串  

//參數2是輸出的UCS-2的Unicode字符串  

//參數3是參數1字符串的長度  

//使用的時候需要注意參數2所指向的內存塊足夠用。其實安全的辦法是判斷一下pUniBuf是否爲NULL，如果爲NULL則只統計輸出長度不寫pUniBuf，這樣  

//通過兩次函數調用就可以計算出實際所需要的Unicode緩存輸出長度。當然，更簡單的思路是：無論如何轉換，UTF8的字符數量不可能比Unicode少，所  

//以可以簡單的按照sizeof(wchar_t) * utf8Leng來分配pUniBuf的內存……  

int UTF82Unicode(const char* utf8Buf, wchar_t *pUniBuf, int utf8Leng)  

{     

    int i = 0, count = 0;  

    while(i < utf8Leng)  

    {  

        i += UTF82UnicodeOne(utf8Buf + i, pUniBuf[count]);  

        count ++;  

    }  

    return count;  

}

搞定了UTF-8轉Unicode之後，反過來搞定Unicode轉UTF8也是很容易的，下面直接給出單個Unicode轉UTF8編碼的函數：

[cpp]view
plaincopy

inline int Unicode2UTF8(unsigned wchar, char *utf8)  

{  

    int len = 0;  

    if (wchar < 0xC0)  

    {   

        utf8[len ++] = (char)wchar;  

    }  

    else if (wchar < 0x800)  

    {  

        utf8[len ++] = 0xc0 | (wchar >> 6);  

        utf8[len ++] = 0x80 | (wchar & 0x3f);  

    }  

    else if (wchar < 0x10000)  

    {  

        utf8[len ++] = 0xe0 | (wchar >> 12);  

        utf8[len ++] = 0x80 | ((wchar >> 6) & 0x3f);  

        utf8[len ++] = 0x80 | (wchar & 0x3f);  

    }  

    else if (wchar < 0x200000)   

    {  

        utf8[len ++] = 0xf0 | ((int)wchar >> 18);  

        utf8[len ++] = 0x80 | ((wchar >> 12) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 6) & 0x3f);  

        utf8[len ++] = 0x80 | (wchar & 0x3f);  

    }  

    else if (wchar < 0x4000000)  

    {  

        utf8[len ++] = 0xf8 | ((int)wchar >> 24);  

        utf8[len ++] = 0x80 | ((wchar >> 18) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 12) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 6) & 0x3f);  

        utf8[len ++] = 0x80 | (wchar & 0x3f);  

    }  

    else if (wchar < 0x80000000)  

    {  

        utf8[len ++] = 0xfc | ((int)wchar >> 30);  

        utf8[len ++] = 0x80 | ((wchar >> 24) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 18) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 12) & 0x3f);  

        utf8[len ++] = 0x80 | ((wchar >> 6) & 0x3f);  

        utf8[len ++] = 0x80 | (wchar & 0x3f);  

    }  

    return len;  

}

參數1是一個Unicode編碼，參數2爲輸出的UTF8編碼。這裏參數1使用了unsigned類型，不是wchar_t類型，僅僅是按照UTF8編碼規則可能達到的最大範圍來寫而已。一個Unicode編碼會輸出多少個char字符，函數的返回值明確的給出了。所以原則上，參數2至少應該是一個char buf[6]的數組。至於一個Unicode字符串轉UTF8字符串的轉換代碼，這裏就不貼了，實在是簡單，不浪費文字了。

現在開始就是不好做的GBK轉Unicode了。衆所周知GBK編碼使用其實非常廣泛，絕大多數的文本編輯軟件，像Editplus，WIndows自帶的記事本等等，如果你不設置其編碼，那麼默認基本上就是GBK，這個東西使用太廣泛了，廣泛得我們都快忘了他了。在Windows的API裏，MultiByteToWideChar轉換的時候，參數1爲CP936，意思就是輸入的多字節字符串爲GBK編碼，我們可以簡單的認爲這個GBK和CP936字符串是一回事（當然其實不能絕對的這樣講，畢竟不是一個組織定下來的東西，我們只是從技術上簡單的這樣認爲他們是一樣的就可以了）。而這個GBK轉Unicode編碼，難就難在，不像UTF8轉Unicode一個算法就可以搞定了，GBK轉Unicode只能通過查表來實現，Unicode轉GBK也一樣，只能通過查表來實現。

這下問題就複雜了，因爲要查表就意味着GBK與Unicode編碼之間雖然是一一對應關係，但不是簡單的高位乘以多少加上低位乘以多少就能算出來的。更糟糕的是GBK與Unicode之間並不是連續的編碼，中間總有空碼，而且這個空碼的情況，還不是特別的有規律。

不過好在微軟公開了CP936與自家UCS-2的對照文本，基本這個文本，就可以很容易的看到每一個GBK編碼的字符與Unicode碼之間的對應關係了。這就好辦了，我寫了一個小程序，將這個文本文件讀入，解析，然後輸出一段C語言代碼，其實就是一個大數組，在轉換的時候，拿GBK碼去這個數組裏，就可以得到Unicode編碼了。而且這個數組也不算大，因爲最多隻有65536個編碼，也就是64*2=128Kb的Table。反過來Unicode到GBK，也同樣是一個short型的table，也是128Kb。這個程序增長量還是可以接受的。如果覺得不爽的話，也可以寫在文本文件裏，第一次運行的時候將文本載到內存裏…………不過我覺得這樣其實沒有什麼區別。

好了，廢話少說了，下面是GBK轉Unicode和Unicode轉GBK編碼的查表函數，文章的最後面是兩個我導出的C語言代碼的表文件鏈接，在下面的這兩個函數之前用#include包進來就可以了。

[cpp]view
plaincopy

//參數1是輸入的Unicode字符串  

//參數2是輸出的GBK字符串  

//參數3是輸入字符串的長度  

//返回值是輸出GBK字符串的長度  

int Unicode2GBK(const wchar_t* wchar, char *gbkBuf, int wcharLeng)  

{  

    int outLeng = 0;  

    uchar* pWrite = (uchar*)gbkBuf;  

    for(int i = 0; i < wcharLeng; ++ i)  

    {  

        wchar_t c = wchar[i];  

        if (c <= 0x7F)  

        {  

            //小於0x7F，這是一個ANSI碼，所以不用查表了  

            outLeng ++;  

            *pWrite ++ = c;  

        }  

        else if (c == 0x20AC)  

        {  

            //一個特殊字符，沒有編進表裏，所以在這裏單獨處理了  

            *pWrite ++ = 0x80;  

            outLeng ++;  

        }  

        else  

        {  

            //剩下的，就需要查表了，減去128，直接去表裏查。Unicode轉GBK的好處是隻有一張線性表，一次就可以查到  

            unsigned short ss = unicode2gbkTable[c - 128];  

            *pWrite ++ = ss >> 8;  

            *pWrite ++ = ss & 0xFF;  

            outLeng += 2;  

        }  

    }  

    return outLeng;  

}  

//參數1是輸入的GBK字符串  

//參數2是輸出的Unicode字符串  

//參數3是輸入字符串的長度  

//返回值是輸出Unicode字符串的長度  

int GBK2Unicode(const char* gbkBuf, wchar_t *pszBuf, int gbkLeng)  

{  

    int outLeng = 0;  

    const uchar* pSrc = (const uchar*)gbkBuf;  

    wchar_t* pWrite = pszBuf;  

    for(int i = 0; i < gbkLeng; ++ i)  

    {  

        uchar ch = pSrc[i];  

        if (ch <= 0x7F)  

        {  

            //ANSI字符  

            *pWrite ++ = ch;  

        }  

        else if (ch == 0x80)  

        {  

            //特殊字符  

            *pWrite ++ = 0x20AC;  

            ++ i;  

        }  

        else  

        {  

            //剩下的，就需要查表了，高位減128，得到這一段字符的表。整個Unicode轉GBK一共分了幾十個表，gbk2unicodeTables則記錄了這些表的地址  

            //所以先要按高位得到表地址，再用低位去該表裏查找字符  

            ++ i;  

            ch -= 0x81;  

            if (ch < sizeof(gbk2unicodeTables) / sizeof(gbk2unicodeTables[0]))  

            {  

                const unsigned short* pTable = gbk2unicodeTables[ch];  

                ch = pSrc[i];  

                if (ch < 255)  

                    *pWrite ++ = pTable[ch - 0x40];  

                else  

                    *pWrite ++ = 0;  

            }  

            else  

            {  

                *pWrite ++ = 0;  

            }  

        }  

        outLeng ++;  

    }  

    return outLeng;  

}

現在搞定了UTF8和Unicode之間的互相轉換，也搞定了GBK和Unicode之間的互相轉換，那麼GBK和UTF8之間呢？呵呵，學學Windows的API，先將GBK轉成Unicode，然後將Unicode再轉成UTF-8，反過來亦然。

GBK和Unicode互轉的字符碼錶文件

gbk/utf8/unicode編碼轉換，不依賴任何系統API自己實現與平臺無關的轉換算法

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

騰訊面試：什麼鎖比讀寫鎖性能更高？

Android之AudioRecord實現"助聽器"

BSDSocket 常用設置

gbk/utf8/unicode編碼轉換，不依賴任何系統API自己實現與平臺無關的轉換算法

Android之模擬信號示波器

cocos2dx lua繼承C++類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結