機器學習-nlp-sklearn進行關鍵詞提取(基於tfidf)

背景

tfidf相對詞頻可以很好的反應出文本中的關鍵詞。本文將使用sklearn進行關鍵詞提取。
博客使用的資源和源碼已上傳:http:////download.csdn.net/download/wangjie5540/12075235

實戰

在這裏插入圖片描述

  • 結巴分詞
  • 使用pandas讀取csv文件內容
  • 遍歷titile內容進行分詞

在這裏插入圖片描述

  • 加載停用詞
  • 遍歷進行停詞

在這裏插入圖片描述

  • 使用sklearn的TfidfVectorizer對文本進行向量化
  • tfidf.toarray()轉換成爲矩陣,然後進行行排序,取最後的n個索引(argsort是拿到索引值)
  • 通過get_feature_names獲取到詞袋的詞語
  • 通過索引進行取值
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章