Pyhanlp自然語言處理中的新詞識別

新詞發現

本“新詞發現”模塊基於信息熵和互信息兩種算法，可以在無語料的情況下提取一段長文本中的詞語，並支持過濾掉系統中已存在的“舊詞”，得到新詞列表。

調用方法

靜態方法

一句話靜態調用接口已經封裝到HanLP中：

/**

* 提取詞語

* @param text 大文本

* @param size 需要提取詞語的數量

* @return 一個詞語列表

public static List<WordInfo> extractWords(String text, int size)

/**

* 提取詞語

* @param reader 從reader獲取文本

* @param size 需要提取詞語的數量

* @return 一個詞語列表

public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

/**

* 提取詞語（新詞發現）

* @param text 大文本

* @param size 需要提取詞語的數量

* @param newWordsOnly 是否只提取詞典中沒有的詞語

* @return 一個詞語列表

public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

/**

* 提取詞語（新詞發現）

* @param reader 從reader獲取文本

* @param size 需要提取詞語的數量

* @param newWordsOnly 是否只提取詞典中沒有的詞語

* @return 一個詞語列表

public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

調用示例請參考com.hankcs.demo.DemoNewWordDiscover。值得注意的是，在計算資源允許的情況下，文本越長，結果質量越高。對於一些零散的文章，應當合併爲整個大文件傳入該算法。

高級參數

根據語料的長度或用詞的不同，默認的參數有可能不能得到最佳的結果。我們可以通過構造不同的NewWordDiscover調整提取算法。該構造函數如下：

/**

* 構造一個新詞識別工具

* @param max_word_len 詞語最長長度

* @param min_freq 詞語最低頻率

* @param min_entropy 詞語最低熵

* @param min_aggregation 詞語最低互信息

* @param filter 是否過濾掉HanLP中的詞庫中已存在的詞語

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中：

· max_word_len控制識別結果中最長的詞語長度，默認值是4；該值越大，運算量越大，結果中出現短語的數量也會越多。

· min_freq控制結果中詞語的最低頻率，低於該頻率的將會被過濾掉，減少一些運算量。由於結果是按照頻率排序的，所以該參數其實意義不大。

· min_entropy控制結果中詞語的最低信息熵的值，一般取0.5左右。該值越大，越短的詞語就越容易被提取出來。

· min_aggregation控制結果中詞語的最低互信息值，一般取50到200.該值越大，越長的詞語就越容易被提取出來，有時候會出現一些短語。

· filter設爲true的時候將使用內部詞庫過濾掉“舊詞”。

Pyhanlp自然語言處理中的新詞識別

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

Spring MVCD框架中調用HanLP分詞的方法

部分常用分詞工具使用整理

HanLP-實詞分詞器詳解

三天拿到阿里、頭條跟美團的offer，我做了這些準備

華爲系統早已開始研發，爲何現在才準備推出？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結