【NLP】【四】jieba源碼分析之詞性標註原

【一】詞性標註

詞性標註分爲2部分，首先是分詞，然後基於分詞結果做詞性標註。

【二】jieba的詞性標註代碼流程詳解

1. 代碼位置

jieba/posseg/_init_.py

2. 流程分析

def cut(sentence, HMM=True):
    """
    Global `cut` function that supports parallel processing.

    Note that this only works using dt, custom POSTokenizer
    instances are not supported.
    """
    global dt
    # 該pool 默認爲None
    if jieba.pool is None:
        # 調用POSTokenizer的cut接口進行詞性標註
        for w in dt.cut(sentence, HMM=HMM):
            yield w
    else:
        parts = strdecode(sentence).splitlines(True)
        if HMM:
            result = jieba.pool.map(_lcut_internal, parts)
        else:
            result = jieba.pool.map(_lcut_internal_no_hmm, parts)
        for r in result:
            for w in r:
                yield w

可以看出，對於未登錄詞，採用HMM模型進行分詞與詞性標註。

    def __cut_internal(self, sentence, HMM=True):
        # 詞典加載
        self.makesure_userdict_loaded()
        sentence = strdecode(sentence)
        # 中文正則表達式匹配
        blocks = re_han_internal.split(sentence)

        # 設置分詞函數
        if HMM:
            cut_blk = self.__cut_DAG
        else:
            cut_blk = self.__cut_DAG_NO_HMM

        for blk in blocks:
            # 如果是中文，則調用分詞接口進行分詞與詞性標註
            if re_han_internal.match(blk):
                for word in cut_blk(blk):
                    yield word
            else:
                tmp = re_skip_internal.split(blk)
                for x in tmp:
                    if re_skip_internal.match(x):
                        yield pair(x, 'x')
                    else:
                        for xx in x:
                            # 如果是數字，則使用m標註詞性，由於number的n和u已經用於其他詞性，因此使用m
                            if re_num.match(xx):
                                yield pair(xx, 'm')
                            # 如果是英文，標註爲eng
                            elif re_eng.match(x):
                                yield pair(xx, 'eng')
                            # 否則，一律標註爲x
                            else:
                                yield pair(xx, 'x')

    # 對於未位登錄詞，採用HMM模型進行詞性標註
    def __cut_detail(self, sentence):
        blocks = re_han_detail.split(sentence)
        for blk in blocks:
            if re_han_detail.match(blk):
                # 使用HMM模型進行詞性標註
                for word in self.__cut(blk):
                    yield word
            else:
                tmp = re_skip_detail.split(blk)
                for x in tmp:
                    if x:
                        if re_num.match(x):
                            yield pair(x, 'm')
                        elif re_eng.match(x):
                            yield pair(x, 'eng')
                        else:
                            yield pair(x, 'x')

    def __cut(self, sentence):
        # 使用viterbi算法進行狀態序列求解，這裏的狀態序列包含2部分
        # 一是：詞的位置，而是詞性。由於一詞多性，因此需要計算出該詞概率最大的詞性
        prob, pos_list = viterbi(
            sentence, char_state_tab_P, start_P, trans_P, emit_P)
        begin, nexti = 0, 0

        for i, char in enumerate(sentence):
            pos = pos_list[i][0]
            if pos == 'B':
                begin = i
            elif pos == 'E':
                yield pair(sentence[begin:i + 1], pos_list[i][1])
                nexti = i + 1
            elif pos == 'S':
                yield pair(char, pos_list[i][1])
                nexti = i + 1
        if nexti < len(sentence):
            yield pair(sentence[nexti:], pos_list[nexti][1])

這裏，依舊使用viterbi算法進行狀態序列求解。這裏就不分析了，算法流程和前面的未登錄詞的分詞一致。只是強調一點，這裏的狀態序列包含兩部分：一是：字的位置，即BMES，而是詞對應的詞性，如：n,a等

【三】總結

jieba總體而言，包含如下三個功能：分詞、詞性標註、關鍵字提取。使用的都是傳統的方法，如基於詞典前綴的匹配、基於HMM模型對未登錄詞進行分割與詞性標註、基於TF-IDF和TextRank進行關鍵字提取。這三大功能，全都離不開jieba基於語料庫統計出來的詞典，包括詞頻、詞性、HMM模型參數（狀態轉移概率矩陣、發射概率矩陣、初始狀態概率向量）。

要想使用jieba得到好的分詞效果，需要替換自己的詞典，訓練自己的HMM參數，而這些，基本都是基於語料庫統計得到的。

【NLP】【四】jieba源碼分析之詞性標註原

【NLP】【二】jieba源碼分析之分詞原

【NLP】【九】keras用法總結原

【c++】反射機制原

【c++】【多線程】類對象創建時線程自啓動原

【NLP】【四】jieba源碼分析之詞性標註原

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【NLP】【四】jieba源碼分析之詞性標註 原

【NLP】【四】jieba源碼分析之詞性標註原