nltk一些函數意思

一、similar

用來識別文章中和搜索詞相似的詞語,可以用在搜索引擎中的相關度識別功能中。

text1.similar("monstrous")

查詢出了text1中與monstrous相關的所有詞語:

二、common_contexts

用來識別2個關鍵詞相似的詞語。

text2.common_contexts(["monstrous","very"])

三、generate

用來自動生成文章。

text3.generate()

四、len

可以用於判斷重複詞密度

from __future__ import division
len(text3) / len(set(text3))

圖中顯示 正文字數/不重複詞語字數 = 16,說明有15/16是無效字符。

五、count

可以用於判斷關鍵詞密度。

text3.count('smote') / len(text3)

發佈了24 篇原創文章 · 獲贊 3 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章