背景
tfidf相對詞頻可以很好的反應出文本中的關鍵詞。本文將使用sklearn進行關鍵詞提取。
博客使用的資源和源碼已上傳:http:////download.csdn.net/download/wangjie5540/12075235
實戰
- 結巴分詞
- 使用pandas讀取csv文件內容
- 遍歷titile內容進行分詞
- 加載停用詞
- 遍歷進行停詞
- 使用sklearn的TfidfVectorizer對文本進行向量化
- tfidf.toarray()轉換成爲矩陣,然後進行
行排序
,取最後的n個索引(argsort是拿到索引值) - 通過get_feature_names獲取到詞袋的詞語
- 通過索引進行取值