NLP自然語言處理：關鍵詞提取

基於 TF-IDF 算法的關鍵詞抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 爲待提取的文本
- topK 爲返回幾個 TF/IDF 權重最大的關鍵詞，默認值爲 20
- withWeight 爲是否一併返回關鍵詞權重值，默認值爲 False
- allowPOS 僅包括指定詞性的詞，默認值爲空，即不篩選

提取例子：

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv('./origin_data/technology_news.csv')
df = df.dropna()
lines = df.content.values.tolist()
content = "".join(lines)
print("  ".join(analyse.extract_tags(content, topK=30, withWeight=False, allowPOS=())))

基於 TextRank 算法的關鍵詞抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默認過濾詞性。
jieba.analyse.TextRank() 新建自定義 TextRank 實例

算法論文：http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

基本思想:

將待抽取關鍵詞的文本進行分詞
以固定窗口大小(默認爲5，通過span屬性調整)，詞之間的共現關係，構建圖
計算圖中節點的PageRank，注意是無向帶權圖

TextRank的核心就是PageRank，PageRank介紹：https://www.jianshu.com/p/f6d66ab97332

提取例子：

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv("./origin_data/military_news.csv", encoding='utf-8')
df = df.dropna()
lines=df.content.values.tolist()
content = "".join(lines)

print("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
print("---------------------我是分割線----------------")
print("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n'))))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP自然語言處理：關鍵詞提取

基於 TF-IDF 算法的關鍵詞抽取

基於 TextRank 算法的關鍵詞抽取

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

常用代碼模板3——搜索與圖論（Bellman-Ford算法、spfa 算法、floyd算法、Kruskal算法、染色法、匈牙利算法）

linux中gcc的基本使用

c++：STL容器及其接口（string、vector、deque、stack、queue、list、set/multiset、map/multimap）

NLP自然語言處理：文本表示總結 - 上篇word embedding（基於降維、基於聚類、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）

c++：運算符重載（運算符重載碰上友元函數、自增自減(++/--)運算符重載、賦值(=)運算符重載、等於和不等於(==、!=)運算符重載、重載&&、||）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結