中文分詞技術及應用

原創

2018-12-09 20:04

			中文分詞技術及應用

中文分詞算法有5大類：
1、基於詞典的方法
2、基於統計的方法
3、基於規則的方法
4、基於字標註的方法
5、基於人工智能的技術（基於理解）的方法
中文分詞目前有4個瓶頸：
1、分詞歧義
2、未登陸詞識別
3、分詞粒度問題（表達相同意思的同一字串，在語料中存在不同的切分方式）
4、錯別字與諧音字規範化
中文分詞有5大評價標準：
1、分詞正確率
2、切分速度
3、功能完備性
4、易擴展性與可維護性
中文信息處理包括3個層次：
1、詞法分析（中文分詞是第一步，詞性標註）
2、句法分析：對輸入的文本句子進行分析以得到句子的句法結構的處理過程，句法分析的輸出結果常作爲語義分析的輸入。
2.1、短語結構句法分析：識別處句子中的短語結果以及短語間的層次句法關係
2.2、依存句法分析：識別句子中詞彙與詞彙之間的相互依存關係，屬於淺層句法分析
2.3、深層文法句法分析：利用深層文法，如詞彙化樹鄰接文法、詞彙功能文法、組合範疇文法等，對句子進行深層句法分析。
3、語義分析：理解句子表達的真實語義
3.1、語義角色標註：屬於淺層語義分析技術

1、基於詞典的方法：字符串匹配，機器分詞方法
原理：按照一定策略將待分析的漢字穿與一個“大詞典”中的詞條進行匹配，若在詞典中找到某個字符串，則匹配成功。
1.1、按照掃描方向的不同：正向匹配&逆向匹配
1.2、按照長度的不同：最大匹配&最小匹配
1.3、按照是否與詞性標註過程相結合：單純分詞方法&分詞與標註相結合
1.1.1、基於字符串匹配方法：正向最大匹配算法（MM）
步驟：
1、從左向右取切分漢字句的m個字符串作爲匹配字段，m爲大機器詞典中最長詞條數
2、查找大機器詞典並進行匹配，若匹配成功，則將這個匹配字段作爲一個詞切分出來，否則，則將這個匹配字段的最後一個詞去掉，剩下的字符串繼續匹配字段，直到以上過程切分到所有詞爲止。
優點：簡單，易於實現
缺點：匹配速度慢，存在歧義切分問題，缺乏自學習的智能性。
2、基於統計的分詞（無字典分詞）
主要思想是：上下文中，相鄰的字同時出現的次數越多，就越可能構成一個詞。可以對訓練文本中相鄰出現的頻度進行統計，計算他們之間的互現信息。互現信息體系了漢字之間結合的緊密程度。當緊密程度高於某一個閾值時，便可以認爲此字組可能構成一個詞。該方法又稱無字典分詞。
主要統計模型有：N 元文法模型、隱馬爾科夫模型等
在實際應用中一般將其與基於詞典的分詞方法結合起來使用，即可以發揮分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
2.1、N-gram模型
N-gram模型思想：第n個詞的出現只![在這裏插入圖片描述](htt
與前面n-1個詞相關，整句的概率就是各個詞出現概率的乘積。
2.2、隱馬爾科夫模型
原理：根據觀測者序列找到真正的隱藏狀態值序列
中文分詞的應用：

3、具體應用
中文分詞是大部分下游應用的基礎，小到POS詞性標註、NER命名實體識別，大到自動分類、自動摘要、語音模型、自動摘要、搜索引擎、機器翻譯、語音合成等。
以下具體闡述：中文分詞在搜索引擎中的應用：
搜索引擎針對用戶提交查詢的關鍵詞串進行查詢處理後，根據用戶的關鍵詞串用各種匹配方法進行分詞。
搜索引擎的查詢處理：
1、首先到數據庫裏搜索相關信息
2、若用戶提交的字符串不超過3個漢字，則直接去數據庫索引
3、分詞：若超過4個字符串，則用分隔符把用戶提交的字符串分割成N個子字符串查詢
4、檢索用戶提供的字符串裏有無重複詞彙，若有則去掉，默認爲一個詞彙，檢索用戶提交的字符串是否有字母和數字，若有則把字母與數字當作一個詞

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

中文分詞技術及應用

redis的key亂碼問題和值自增問題

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

CORS error 但是 status code 是200 OK

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

機器學習之k-近鄰

決策樹、Bagging、隨機森林、Boosting、AdaBoost、GBDT、XGBoost

淺談循環神經網絡（RNN）

BILSTM+CRF中文命名實體識別

機器學習之感知機

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結