原创 Bag-of-words模型

詞袋模型是最早的以詞語爲基本處理單元的文本向量化方法。 例: John likes to watch movies. Mary likes too. John also likes to watch football games. 根據上

原创 python 字符串處理常用方法

1.去掉空格或者特殊字符 strip() 用於移除字符串頭尾指定的字符(默認爲空格或換行符)或字符序列。 注意:該方法只能刪除開頭或是結尾的字符,不能刪除中間部分的字符。 語法:str.strip([chars]) 參數: chars -

原创 TF-IDF算法

TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻次)算法是一種基於統計的計算方法,常用於評估一個文檔集中一個詞對某份文檔的重要程度。一個詞對文檔越重要,那就越可能是文檔的關鍵

原创 安裝scrapy框架

一、首先考慮使用最簡單的方法安裝,不成功使用第二種方法 pip install scrapy 二、安裝whl格式的包 1、安裝whl格式包需要安裝wheel庫 pip install wheel 2、scrapy 依賴 lxml 包,安