gbk漢字拼音碼形成手記

在網上找了很久也沒有找到全的漢字拼音碼錶,沒有辦法,自己搞一個吧,不停的google後,找到了幾篇文章,組合後終於搞定,不敢獨享啊。

 

1、下載ms 全拼輸入法,找到winpy.mb文件,這就使字庫文件

2、使用xp自帶的輸入法生成器導出字庫到文本文件,path:C:/Program Files/Windows NT/Accessories/imegen.exe

3、選中“逆轉換”,打開winpy.mb,導出winpy.txt

4、找到[text]關鍵字,刪除該關鍵字及之前行

5、編寫一段代碼解析成csv文件,記住,有多音字,多個拼音以空格分隔

 

c# 代碼:

 

string[] lines  = File.ReadAllLines(@"E:/winpy.txt", Encoding.Unicode);
            FileStream fs = File.OpenWrite(@"E:/winpy.csv");
            StreamWriter sw = new StreamWriter(fs, Encoding.UTF8);
            foreach (string line in lines)
            {
               char c =  line.Substring(1, 1).ToCharArray()[0];
               int i = Convert.ToInt32(c);
               if ((i >= 65 && i <= 90)
                   || (i >= 97 && i <= 122))
               {
                   string cword = line.Substring(0, 1);
                   string epinyin = line.Substring(1, line.Length - 1).TrimEnd();
                   string[] ary = epinyin.Split(new char[] { ' '});
                   foreach (string ep in ary)
                   {
                       sw.WriteLine(cword + "," + ep);
                   }
               }               
            }
            sw.Flush();
            sw.Close();
            fs.Close();

 

試試吧,總共34900個。

發佈了27 篇原創文章 · 獲贊 1 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章