unicode 等字符轉換

近日閒來無事,前一陣子又被Unicode搞的焦頭爛額,於是想看看MSDN吧!英文的看起來真費勁,爲了以後省點勁,翻譯總結了一下,備查。英文水平有限,如有出入,請參見MSDN。

第一個就是寬字符到多字節字符轉換函數,函數原型如下:

int WideCharToMultiByte(

UINT CodePage,

DWORD dwFlags,

LPCWSTR lpWideCharStr,

int cchWideChar,

LPSTR lpMultiByteStr,

int cbMultiByte,

LPCSTR lpDefaultChar,

LPBOOL lpUsedDefaultChar

);

  此函數把寬字符串轉換成指定的新的字符串,如ANSI,UTF8等,新字符串不必是多字節字符集。

參數:

CodePage: 指定要轉換成的字符集代碼頁,它可以是任何已經安裝的或系統自帶的字符集,你也可以使用如下所示代碼頁之一。

CP_ACP 當前系統ANSI代碼頁 

CP_MACCP 當前系統Macintosh代碼頁 

CP_OEMCP 當前系統OEM代碼頁,一種原始設備製造商硬件掃描碼 

CP_SYMBOL Symbol代碼頁,用於Windows 2000及以後版本,我不明白是什麼

CP_THREAD_ACP 當前線程ANSI代碼頁,用於Windows 2000及以後版本,我不明白是什麼 

CP_UTF7 UTF-7,設置此值時lpDefaultChar和lpUsedDefaultChar都必須爲NULL

CP_UTF8 UTF-8,設置此值時lpDefaultChar和lpUsedDefaultChar都必須爲NULL

我想最常用的應該是CP_ACP和CP_UTF8了,前者將寬字符轉換爲ANSI,後者轉換爲UTF8。

dwFlags: 指定如何處理沒有轉換的字符, 但不設此參數函數會運行的更快一些,我都是把它設爲0。 可設的值如下表所示:

WC_NO_BEST_FIT_CHARS 把不能直接轉換成相應多字節字符的Unicode字符轉換成lpDefaultChar指定的默認字符。也就是說,如果把Unicode轉換成多字節字符,然後再轉換回來,你並不一定得到相同的Unicode字符,因爲這期間可能使用了默認字符。此選項可以單獨使用,也可以和其他選項一起使用。

WC_COMPOSITECHECK 把合成字符轉換成預製的字符。它可以與後三個選項中的任何一個組合使用,如果沒有與他們中的任何一個組合,則與選項WC_SEPCHARS相同。

WC_ERR_INVALID_CHARS 此選項會致使函數遇到無效字符時失敗返回,並且GetLastError會返回錯誤碼ERROR_NO_UNICODE_TRANSLATION。否則函數會自動丟棄非法字符。此選項只能用於UTF8。

WC_DISCARDNS 轉換時丟棄不佔空間的字符,與WC_COMPOSITECHECK一起使用

WC_SEPCHARS 轉換時產生單獨的字符,此是默認轉換選項,與WC_COMPOSITECHECK一起使用

WC_DEFAULTCHAR 轉換時使用默認字符代替例外的字符,(最常見的如'?'),與WC_COMPOSITECHECK一起使用。

當指定WC_COMPOSITECHECK時,函數會將合成字符轉換成預製字符。合成字符由一個基字符和一個不佔空間的字符(如歐洲國家及漢語拼音的音標)組成,每一個都有不同的字符值。預製字符有一個用於表示基字符和不佔空間字符的合成體的單一的字符值。

當指定WC_COMPOSITECHECK選項時,也可以使用上表列出的最後3個選項來定製預製字符的轉換規則。這些選項決定了函數在遇到寬字符串的合成字符沒有對應的預製字符時的行爲,他們與WC_COMPOSITECHECK一起使用,如果都沒有指定,函數默認WC_SEPCHARS。

對於下列代碼頁,dwFlags必須爲0,否則函數返回錯誤碼ERROR_INVALID_FLAGS。

50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)

對於UTF8,dwFlags必須爲0或WC_ERR_INVALID_CHARS,否則函數都將失敗返回並設置錯誤碼ERROR_INVALID_FLAGS,你可以調用GetLastError獲得。

lpWideCharStr: 待轉換的寬字符串。

cchWideChar: 待轉換寬字符串的長度,-1表示轉換到字符串結尾。

lpMultiByteStr: 接收轉換後輸出新串的緩衝區。

cbMultiByte: 輸出緩衝區大小,如果爲0,lpMultiByteStr將被忽略,函數將返回所需緩衝區大小而不使用lpMultiByteStr。

lpDefaultChar: 指向字符的指針, 在指定編碼裏找不到相應字符時使用此字符作爲默認字符代替。 如果爲NULL則使用系統默認字符。對於要求此參數爲NULL的dwFlags而使用此參數,函數將失敗返回並設置錯誤碼ERROR_INVALID_PARAMETER。

lpUsedDefaultChar:開關變量的指針,用以表明是否使用過默認字符。對於要求此參數爲NULL的dwFlags而使用此參數,函數將失敗返回並設置錯誤碼ERROR_INVALID_PARAMETER。lpDefaultChar和lpUsedDefaultChar都設爲NULL,函數會更快一些。

返回值: 如果函數成功,且cbMultiByte非0,返回寫入lpMultiByteStr的字節數(包括字符串結尾的null);cbMultiByte爲0,則返回轉換所需

字節數。函數失敗,返回0。

注意:函數WideCharToMultiByte使用不當,會給影響程序的安全。調用此函數會很容易導致內存泄漏,因爲lpWideCharStr指向的輸入緩衝區大小是寬字符數,而lpMultiByteStr指向的輸出緩衝區大小是字節數。爲了避免內存泄漏,應確保爲輸出緩衝區指定合適的大小。我的方法是先使cbMultiByte爲0調用WideCharToMultiByte一次以獲得所需緩衝區大小,爲緩衝區分配空間,然後再次調用WideCharToMultiByte填充緩衝區,詳見下面的代碼。另外,從Unicode UTF16向非Unicode字符集轉換可能會導致數據丟失,因爲該字符集可能無法找到表示特定Unicode數據的字符。

wchar_t* pwszUnicode = "Holle, word! 你好,中國!";

int iSize;

char* pszMultiByte;

iSize = WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, NULL, 0, NULL, NULL);

pszMultiByte = (char*)malloc((iSize+1)/**sizeof(char)*/);

WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, pszMultiByte, iSize, NULL, NULL);

第二個是多字節字符到寬字符轉換函數,函數原型如下:

> int MultiByteToWideChar(

UINT CodePage,

DWORD dwFlags,

LPCSTR lpMultiByteStr,

int cbMultiByte,

LPWSTR lpWideCharStr,

int cchWideChar

);

此函數把多字節字符串轉換成寬字符串(Unicode),待轉換的字符串並不一定是多字節的。

此函數的參數,返回值及注意事項參見上面函數WideCharToMultiByte的說明,這裏只對dwFlags做簡單解釋。

dwFlags: 指定是否轉換成預製字符或合成的寬字符,對控制字符是否使用像形文字,以及怎樣處理無效字符。

MB_PRECOMPOSED 總是使用預製字符,即有單個預製字符時,就不會使用分解的基字符和不佔空間字符。此爲函數的默認選項,不能和MB_COMPOSITE合用

MB_COMPOSITE 總是使用分解字符,即總是使用基字符+不佔空間字符的方式

MB_ERR_INVALID_CHARS 設置此選項,函數遇到非法字符就失敗並返回錯誤碼ERROR_NO_UNICODE_TRANSLATION,否則丟棄非法字符

MB_USEGLYPHCHARS 使用像形字符代替控制字符

對於下列代碼頁,dwFlags必須爲0,否則函數返回錯誤碼ERROR_INVALID_FLAGS。

50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)

對於UTF8,dwFlags必須爲0或MB_ERR_INVALID_CHARS,否則函數都將失敗並返回錯誤碼ERROR_INVALID_FLAGS。

以下函數我沒用過,只簡要說明之。

int GetTextCharset( HDC hdc 寬字符到多字節字符轉換函數 - 夜影 -screen.width/2)this.style.width=screen.width/2;" border=0>;

此函數獲取當前選進的設備描述表的字符集,等同於GetTextCharsetInfo(hdc, NULL, 0)。

返回值: 成功返回字符集標識,失敗返回DEFAULT_CHARSET。

Windows定義的字符集標識有:

ANSI_CHARSET

BALTIC_CHARSET

CHINESEBIG5_CHARSET

DEFAULT_CHARSET

EASTEUROPE_CHARSET

GB2312_CHARSET

GREEK_CHARSET

HANGUL_CHARSET

MAC_CHARSET

OEM_CHARSET

RUSSIAN_CHARSET

SHIFTJIS_CHARSET

SYMBOL_CHARSET

TURKISH_CHARSET

VIETNAMESE_CHARSET

JOHAB_CHARSET(韓語版)

ARABIC_CHARSET(中東版)

HEBREW_CHARSET(中東版)

THAI_CHARSET(泰國版)

int GetTextCharsetInfo(

HDC hdc,

LPFONTSIGNATURE lpSig,

DWORD dwFlags

);

此函數獲取當前選進設備描述表的字體的字符集信息。

參數:

lpSig:指向FONTSIGNATURE結構的指針。如果當前選進設備的是TureType字體,函數會填充FONTSIGNATURE結構。否則FONTSIGNATURE結構被填充爲0,而應使用TranslateCharsetInfo來獲取一般字符集信息,如果你不需要字體標誌信息,可將此參數設爲NULL,此時相當於調用GetTextCharset。

FONTSIGNATURE結構包括代碼頁和Unicode子域的信息,Unicode子域是指定字體的字型輪廓。該結構定義如下:

typedef struct tagFONTSIGNATURE {

DWORD fsUsb[4];

DWORD fsCsb[2];

} FONTSIGNATURE, *PFONTSIGNATURE; 

fsUsb 是一個128位的Unicode子集標誌位(Unicode Subset Bitfield),用以標識最多126個Unicode子域。除了兩個最高有效位外,每一位代表一個子域。最高位總是1,表示此位是一個字體標誌,次高位保留,必須位0。Unicode子域根據ISO 10646標準制定。

fsCsb 是一個64位的代碼頁標誌位,用以標識制定的字符集或代碼頁。代碼頁由低32位標識,而高32位用於非Windows代碼頁。

dwFlags:保留,必須爲0。

返回值:成功返回字符集標識,失敗返回DEFAULT_CHARSET。

BOOL TranslateCharsetInfo(

DWORD* pSrc,

LPCHARSETINFO lpCs,

DWORD dwFlags

);

此函數根據指定字符集,代碼頁或字體標識轉換並設置目標結體的值。

參數:

lpSrc:如果dwFlags是TCI_SRCFONTSIG,此參數是FONTSIGNATURE結構的fsCsb成員地址,否則是一個DWORD值。

lpCs: 指向要填充的CHARSETINFO結構。

CHARSETINFO結構定義如下:

typedef struct {

UINT ciCharset; // 字符集標識

UINT ciACP; // ANSI代碼頁標識

FONTSIGNATURE fs;

} CHARSETINFO, *PCHARSETINFO;

dwFlags: 指定如何轉換。可以是下列標識之一:

TCI_SRCCHARSET lpSrc的低字是字符集標識,高字爲0

TCI_SRCCODEPAGE lpSrc的低字是代碼頁標識,高字爲0

TCI_SRCFONTSIG lpSrc是FONTSIGNATURE的代碼頁標誌位部分,即FONTSIGNATURE的fsCsb成員地址

TCI_SRCLOCALE lpSrc是鍵盤佈局的LCID或LANGID,如果是LANGID,其值存在lpSrc的低字

BOOL IsDBCSLeadByte(BYTE TestChar);

此函數使用當前WindowsANSI代碼頁判斷指定字節是不是一個潛在的雙字節字符(DBCS)的引導字節。若使用其他代碼頁,請用IsDBCSLeadByteEx函數。

BOOL IsDBCSLeadByteEx(

UINT CodePage,

BYTE TestChar

);

此函數判斷指定字節是不是一個潛在的雙字節字符(DBCS)的引導字節。

CodePage可用的值有:CP_ACP,CP_MACCP,CP_OEMCP,CP_THREAD_ACP。 

BOOL IsTextUnicode(

CONST VOID* pBuffer,

int cb,

LPINT lpi

);

此函數判斷指定緩衝區裏是否可能會有某種格式的Unicode文本。

參數:

lpi: 輸入時指明測試項,輸出時測試位返回各項測試結果:通過測試返回1,測試失敗返回0。如果爲NULL,則函數會測試所有可能的項。它可以是以下值的一個或多個:

IS_TEXT_UNICODE_ASCII16 緩衝區文本是Unicode,並且僅有0擴展的ASCII字符

IS_TEXT_UNICODE_REVERSE_ASCII16 同上,只是Unicode文本是字節翻轉的(與BOM有關)

IS_TEXT_UNICODE_STATISTICS 緩衝區文本可能是Unicode,由於它採用統計分析法,所以並不能確保準確

IS_TEXT_UNICODE_REVERSE_STATISTICS 同上,只是可能的Unicode文本是字節翻轉的

IS_TEXT_UNICODE_CONTROLS 緩衝區文本含有Unicode表示的一個或多個非打印控制字符,如RETURN, LINEFEED, SPACE, CJK_SPACE, TAB。

IS_TEXT_UNICODE_REVERSE_CONTROLS 同上,只是Unicode字符是字節翻轉的

IS_TEXT_UNICODE_BUFFER_TOO_SMALL 緩衝區裏的文本太少,不足以作出有意義的分析

IS_TEXT_UNICODE_SIGNATURE 緩衝區文本含有Unicode字節順序碼(BOM)0XFEFF作爲他的第一個字符

IS_TEXT_UNICODE_REVERSE_SIGNATURE 緩衝區文本含有Unicode反向字節順序碼0XFFFE作爲他的第一個字符

IS_TEXT_UNICODE_ILLEGAL_CHARS 緩衝區文本含有Unicode非法字符,如內嵌BOM,UNICODE_NUL,CRLF或0XFFFF

IS_TEXT_UNICODE_ODD_LENGTH 緩衝區字符數爲奇數,Unicode字符串長度都是偶數

IS_TEXT_UNICODE_NULL_BYTES 緩衝區含有null字節,表示非ASCII文本

IS_TEXT_UNICODE_UNICODE_MASK IS_TEXT_UNICODE_ASCII16 | IS_TEXT_UNICODE_STATISTICS | IS_TEXT_UNICODE_CONTROLS | IS_TEXT_UNICODE_SIGNATURE

IS_TEXT_UNICODE_REVERSE_MASK IS_TEXT_UNICODE_REVERSE_ASCII16 | IS_TEXT_UNICODE_REVERSE_STATISTICS | IS_TEXT_UNICODE_REVERSE_CONTROLS | IS_TEXT_UNICODE_REVERSE_SIGNATURE.

IS_TEXT_UNICODE_NOT_UNICODE_MASK IS_TEXT_UNICODE_ILLEGAL_CHARS | IS_TEXT_UNICODE_ODD_LENGTH和兩個當前沒有使用的標誌位

IS_TEXT_UNICODE_NOT_ASCII_MASK IS_TEXT_UNICODE_NULL_BYTES 和三個當前沒有使用的標誌位

還有三個Windows不推薦使用的函數:

NlsDllCodePageTranslation,UnicodeToBytes和BytesToUnicode,這裏就不作介紹了。

PS:在VC中編譯定義了_UNICODE的代碼時經常會出現如下連接錯誤:

msvcrtd.lib(crtexew.obj) : error LNK2001: unresolved external symbol _WinMain @16 

Debug/Test.exe : fatal error LNK1120: 1 unresolved externals

解決辦法如下:

在Project->Settings->Link選項下選擇Output, 然後在Entry裏輸入:wWinMainCRTStartup即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章