純js實現簡單的漢語轉字母

實用場景:
列表的篩選,如利用拼音全拼或首拼查詢中文漢字
基本實現思路:
漢字有21個聲母:b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh, ch, sh, r, z, c, s
有韻母24個,其中單韻母有6個:a, o, e, i, u, v, 複韻母有18個:ai , ei,  ui , ao,  ou,  iu , ie, ve,  er,  an , en , in,  un , vn , ang, eng,  ing , ong

假設聲母和韻母兩兩組合的話,會有24X21=504種組合,實際情況是有些組合是沒有意義的,比如zv, zie, zve等,去除這部分後,還剩餘401種;這就爲對象枚舉的實現提供了可能,結合unicode編碼表,創建一個拼音與unicode的映射對象。
代碼實現:

創建映射對象:“PinYin”

var PinYin = {
            "a": "\u554a\u963f\u9515",
            "ai": "\u57c3\u6328\u54ce\u5509\u54c0\u7691\u764c\u853c\u77ee\u827e\u788d\u7231\u9698\u8bf6\u6371\u55f3\u55cc\u5ad2\u7477\u66a7\u7839\u953f\u972d",
            "an": "\u978d\u6c28\u5b89\u4ffa\u6309\u6697\u5cb8\u80fa\u6848\u8c19\u57ef\u63de\u72b4\u5eb5\u6849\u94f5\u9e4c\u9878\u9eef",
            ……
            ……
            ……
            "nou": "\u8028",
            "fou": "\u7f36",
            "bia": "\u9adf"
        };

定義轉換接口ConvertPinyin(“中文漢字”):

function ConvertPinyin(l1) {
            var l2 = l1.length;
            var I1 = "";
            var reg = new RegExp('[a-zA-Z0-9\- ]');
            for (var i = 0; i < l2; i++) {
                var val = l1.substr(i, 1);
                //利用映射對象逐字進行轉換
                var name = arraySearch(val, PinYin);
                if (reg.test(val)) {
                    I1 += val;
                } else if (name !== false) {
                    I1 += name;
                }

            }
            //若存在空格用“-”代替
            I1 = I1.replace(/ /g, '-');
            while (I1.indexOf('--') > 0) {
                I1 = I1.replace('--', '-');
            }
            return I1;
        }

定義逐字轉換方法:arraySearch("漢字",“映射對象”):

function arraySearch(l1, l2) {
            for (var name in PinYin) {
                if (PinYin[name].indexOf(l1) != -1) {
                    return ucfirst(name);
                    break;
                }
            }
            return false;
        }

定義首字母大寫方法:ucfirst():

function ucfirst(l1) {
            if (l1.length > 0) {
                var first = l1.substr(0, 1).toUpperCase();
                var spare = l1.substr(1, l1.length);
                return first + spare;
                // return first;
            }
        }
ps:可根據需求選擇是否需要,例如在利用拼音首拼查詢時,可利用大寫識別首拼

存在的不足:
1. 拼音漢字搜索不全,無法識別生僻字,繁體字等,如“呉”(可以通過添加unicode編碼自主補全)
2. 無法識別多音字,只能識別一個音
3. 文件較大問題:漢拼轉換依賴unicode編碼,所以轉換文件js大部分都是unicode,嘗試壓縮後還有45kb的大小
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章