一、similar
用來識別文章中和搜索詞相似的詞語,可以用在搜索引擎中的相關度識別功能中。
text1.similar("monstrous")
查詢出了text1中與monstrous相關的所有詞語:
二、common_contexts
用來識別2個關鍵詞相似的詞語。
text2.common_contexts(["monstrous","very"])
三、generate
用來自動生成文章。
text3.generate()
四、len
可以用於判斷重複詞密度
from __future__ import division len(text3) / len(set(text3))
圖中顯示 正文字數/不重複詞語字數 = 16,說明有15/16是無效字符。
五、count
可以用於判斷關鍵詞密度。
text3.count('smote') / len(text3)
出處:http://www.cnblogs.com/huangcong/
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。