ICTCLAS分詞系統研究（八）--生成最終分詞結果

原創

2020-02-22 18:06

經過人名、地名等未登陸詞的識別之後，再次生成二叉分詞圖表，求取N－最短路徑。爲何再次執行這樣的循環，是因爲在得到初分結果後又增加了新的節點（比如：人名或地名）到結果鏈表中，需要再次求取最短路徑：

經過優化後的二叉分詞圖表：

	1	2	3	4	5	6	7	8	9	10	11
0	始##始@張	始##始@未##人
1			張@華	張@未##人
2						未##人@說
3					華@平
4						未##人@說
5						平@說
6							說@的
7								的@確實
8									確實@在
9										在@理
10											理@末##末

經過優化後的二叉分詞路徑：

序號	二叉分詞路徑
0	0 2 6 7 8 9 10 11

至此，我們得到了最終的分詞路徑，正確的把人名識別出來，但在這個結果只有一部分詞正確標註了詞性，主要是未登陸詞，即源碼中以“未＃＃X”表示的，其它的分詞並未成功的進行記性標記。所以需要再次調用記性標記這一次過程，把剩餘的詞的詞性成功標註出來。

經過優化後的分詞結果：

序號	分詞結果
0	張華平/nr 說/v 的/uj 確實/ad 在/p 理/n

發佈了65 篇原創文章 · 獲贊 5 · 訪問量 53萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python調用百度語音REST API

（百度的rest接口的部分網址發生了一定的變化，相關代碼已更新）百度通過 REST API 的方式給開發者提供一個通用的 HTTP 接口，基於該接口，開發者可以輕鬆的獲得語音合成與語音識別能力。SDK中只提供了PHP、C和JA

狼血wolfblood

2020-07-06 04:43:41

系統學習NLP（三十二）--BERT、XLNet、RoBERTa、ALBERT

參考：https://zhuanlan.zhihu.com/p/84559048 一.BERT BERT是一種基於Transformer Encoder來構建的一種模型，它整個的架構其實是基於DAE(Denoising Autoencod

2020-07-02 23:56:54

換一個角度——"單純動詞的不單純用法"

一本英語書裏面讀到的一段，關於中文翻譯。試着翻譯以下一段話： CN: 從井(well)裏打出水來，用水管(pipe)把他送到水龍頭(tap)裏，把水龍頭打開，然後用桶(barrel)接住，再將桶裏的水澆(sprea

2020-06-26 22:30:10

一個基於深度學習的 CTR 模型包

簡潔易用可擴展，一個基於深度學習的 CTR 模型包原標題：簡潔易用可擴展，一個基於深度學習的 CTR 模型包 01 前言在計算廣告和推薦系統中，CTR 預估一直是一個核心問題。無論在工業界還是學術界都是一個熱點研究問題，近年來也有若

2020-06-22 22:50:52

利用keras進行情感分析（二）

HAN # -*- coding: utf-8 -*- # @Time : 2019/7/4 9:37 # @Author : hejipei # @File : keras_sentiment_HAN.py """ ""

2020-06-22 22:50:52

利用keras進行情感分析（四）

TextBiRNN # -*- coding: utf-8 -*- # @Time : 2019/7/4 9:39 # @Author : hejipei # @File : keras_sentiment_TextBi

2020-06-22 22:50:52

利用keras進行情感分析（一）

textRNN # -*- coding: utf-8 -*- # @Time : 2019/7/4 9:56 # @Author : hejipei # @File : keras_sentiment_TextRNN.p

2020-06-22 22:50:52

利用keras進行情感分析（三）

RCNNVariant # -*- coding: utf-8 -*- # @Time : 2019/7/4 9:13 # @Author : hejipei # @File : keras_sentiment_RCNN

2020-06-22 22:50:52

keras進行情感分析彙總

經過一段時間的梳理，今天有時間就把做項目使用的demo寫成博客，對研究自然語言的你們提供一些思路。代碼都能運行，若有問題，請留言， # -*- coding: utf-8 -*- # @Time : 2019/7/3 9:05

2020-06-22 22:50:52

gensim 對wiki中文文本語料進行訓練Word2vec

gensim的安裝 pip instll gensim 語料庫的下載 gensim僅提供了Word2Vec的模型實現，訓練詞向量的另一個必須條件是足夠大的文本語料。這裏我們將要使用的是中文維基百科語料，直接下載即可： https:/

2020-06-22 22:50:52

自然語言學習20-Neo4j構建知識圖譜

安裝 bin 目錄：用於存儲 Neo4j 的可執行程序； conf 目錄：用於控制 Neo4j 啓動的配置文件； data 目錄：用於存儲核心數據庫文件； plugins 目錄：用於存儲 Neo4j 的插件。 cmd切換目錄至安裝路徑

2020-06-21 00:42:37

自然語言學習12-聊天機器人

自動問答（Question Answering，QA）自動問答主要研究的內容和關鍵科學問題如下：問句理解：給定用戶問題，自動問答首先需要理解用戶所提問題。用戶問句的語義理解包含詞法分析、句法分析、語義分析等多項關鍵技術，需要從文本的

2020-06-21 00:42:37

12_16下午

遞歸神經網絡-序列，文本全連接不能考慮語序遞歸可考慮序列 the(t1) cat(t2) eat the mouse```(tn)時間步 RNN：梯度消失：參數不能更新 LSTM:RNN的變體 v爲矩陣變換後的輸入

2020-06-21 00:42:37

自然語言學習16-知識圖譜

知識圖譜的通用表示方法本質上，知識圖譜是一種揭示實體之間關係的語義網絡，可以對現實世界的事物及其相互關係進行形式化地描述。現在的知識圖譜己被用來泛指各種大規模的知識庫。三元組是知識圖譜的一種通用表示方式，即 G=(E，R，S)G

2020-06-21 00:42:37

自然語言學習11-基於情感詞典的文本情感分析

中文情感分析方法簡介情感傾向可認爲是主體對某一客體主觀存在的內心喜惡，內在評價的一種傾向。它由兩個方面來衡量：一個情感傾向方向，一個是情感傾向度。目前，情感傾向分析的方法主要分爲兩類：一種是基於情感詞典的方法；一種是基於機器學習的方

2020-06-21 00:42:37

24小時熱門文章

最新文章

最新評論文章