經典的文本數據預處理流程(轉)

這裏寫圖片描述

  • 首先對文本進行分詞,因爲可以直接用NLTK的分詞器,中文的可以用結巴分詞
  • 在英文中,往往還需要對單詞進行詞幹提取和詞形歸一化。在詞形歸一的過程中如果結合POS Tag可以更好的進行詞形歸一。
  • 去除停用詞,得到最終的詞列表

本文轉自:https://blog.csdn.net/yc1203968305/article/details/79062182

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章