C#中根據字節處理字符串(含中文字符)

      C#中,要截取指定字節數的字符串時,如果字符串中沒有漢字,則使用substring可以完成,但如果含有漢字,則substring會將兩個字節的漢字當一個字節處理,導致實際得到的結果不是期望的結果。

      爲了解決這個問題,我們可以藉助UCS2編碼來完成。

 

      UCS2編碼中,每個字符都是由兩個字節組成,其組成規則是:

        對於一個英文或數字字符,第一個字節是相應的ASCII,第二個字節是0,如a的UCS2編碼是97  0;

        對於一個漢字,兩個字節都不爲0

 

      由組成規則我們可以得到這麼一個結論:我們可以根據UCS2編碼中的第二個字節來判斷一個字符時漢字字符還是英文(或數字)

 

    

      具體實現如下:

        private int GetBytesOfString(string str)
        {//獲取字符串的字節數
            byte[] bytes = System.Text.Encoding.Unicode.GetBytes(str);
            int n = 0;
            for (int i = 0; i < bytes.GetLength(0); i++)
            {
                //  偶數位置,如0、2、4等,爲UCS2編碼中兩個字節的第一個字節
                if (i % 2 == 0)
                {
                    n++;      //  在UCS2第一個字節時n加1
                }
                else
                {
                    //  當UCS2編碼的第二個字節大於0時,該UCS2字符爲漢字,一個漢字算兩個字節
                    if (bytes[i] > 0)
                    {
                        n++;
                    }
                }
            }
            return n;
        }

 

       private string GetSubstringByLength(string str, ref int len)
        {//截取字符串指定字節數的內容,並返回實際截取的字節數
            byte[] bytes = System.Text.Encoding.Unicode.GetBytes(str);
            int n = 0;  //  表示當前的字節數
            int i = 0;  //  要截取的字節數
            for (; i < bytes.GetLength(0) && n < len; i++)
            {
                if (i % 2 == 0)//  偶數位置,如0、2、4等,爲UCS2編碼中兩個字節的第一個字節
                {
                    n++;      //  在UCS2第一個字節時n加1
                }
                else
                {
                    if (bytes[i] > 0)//  當UCS2編碼的第二個字節大於0時,該UCS2字符爲漢字,一個漢字算兩個字節
                    {
                        n++;
                    }
                }
            }
            //  如果i爲奇數時,處理成偶數
            if (i % 2 == 1)
            {
                if (bytes[i] > 0) //  該UCS2字符是漢字時,去掉這個截一半的漢字
                    i = i - 1;
                else
                    i = i + 1;//  該UCS2字符是字母或數字,則保留該字符
            }
            len = i;
            return System.Text.Encoding.Unicode.GetString(bytes, 0, i);
        }

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章