原创 『詞向量』用Word2Vec訓練中文詞向量(一)—— 採用搜狗新聞數據集

用搜狗新聞數據集來訓練中文詞向量(Word2Vec),自己做的時候踩了很多的坑,希望分享出來讓大家少走彎路。 在學習完這篇後,您可以點擊 維基百科訓練詞向量,來進一步完善自己的詞向量模型! 參考文章:搜狗語料庫word2vec獲取

原创 『論文閱讀』SIF:一種簡單卻難以打敗的句子嵌入方法

  文獻:A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS   在進行了詞嵌入的研究後,我們往往會聯想到這樣一個問題:既然單詞可以用向量表示,那麼由一個個單詞組

原创 『LDA主題模型』用Python實現主題模型LDA

用 Python 實現主題模型 LDA 。最後打印出 文檔-主題 分佈以及 主題-詞 分佈。 導航事先準備綜合代碼參考 事先準備 安裝 numpy 和 gensim 包 文本數據,每一行是一篇文章,而且經過了分詞、去停用

原创 『關鍵詞挖掘』結合 LDA + Word2Vec + TextRank 實現關鍵詞的挖掘

利用 Python,結合 LDA + Word2Vec + Pagerank 實現關鍵詞的挖掘。先用 LDA 方法初步選擇出主題及其詞分佈,接着將每個主題下的詞表示爲詞向量,用相似性表示詞與詞之間的權重,最後用 TextRank

原创 『NLP自然語言處理』中文文本的分詞、去標點符號、去停用詞、詞性標註

利用Python代碼實現中文文本的自然語言處理,包括分詞、去標點符號、去停用詞、詞性標註&過濾。 在剛開始的每個模塊,介紹它的實現。最後會將整個文本處理過程封裝成 TextProcess 類。 頁面導航結巴分詞詞性標註去停用詞去標

原创 『ML』利用K-Means聚類算法對未標註數據分組——《機器學習實戰》學習筆記(Ch10)

本節用Python實現K-Means算法,對未標註的數據進行聚類。主要參考《機器學習實戰》—— Peter Harrington著。 在做完聚類後,如何對於聚類結果進行評估?請看 用Python實現聚類效果的評估(輪廓係數、互信息

原创 『詞向量』用Word2Vec訓練中文詞向量(二)—— 採用維基百科語料庫

本文是在『詞向量』用Word2Vec訓練中文詞向量(一)—— 採用搜狗新聞數據集 的基礎上,將兩個語料庫合併,進而訓練出較好的詞向量模型。 參考:基於word2vec使用中文wiki語料庫訓練詞向量 小項目(Gensim庫)–維基

原创 『文獻回顧』“文本自動摘要” 相關文獻綜述

文獻回顧——『文本自動摘要』 在大四畢設選題時,我選到了『在線評論信息的自動摘要技術研究』的題目。因此,我決定在此記錄所讀的每一篇文獻的思路及方法,一方面用於理清每篇文章的思路,另一方面便於日後寫論文中的文獻綜述部分。 此後,隨着

原创 『求助帖』記錄一次失敗的句子相似性實驗

  在寫下這篇博客之前,我以爲我的畢業論文進展一帆風順。之前進行了Word2Vec訓練、LDA主題建模、關鍵詞提取、K-Means聚類實踐,我充滿了信心。可是這一次,我倒在了句子相似性計算,整整兩個星期,日思夜想,茶飯不香。   

原创 『反思』K-Means聚類時可能存在的問題——薛定諤的最優解

  在利用K-Means對句子向量進行聚類的時候,發現了兩種容易疏忽的錯誤。   關於代碼的實現請參考 用K-Means對未標註的數據聚類 。 導航Error 1:一直循環無最優解Error 2:RuntimeWarning: M

原创 『ML』用Python實現聚類效果的評估(輪廓係數、互信息)

  好的聚類:類內凝聚度高,類間分離度高。   本文介紹兩種聚類評估方法,輪廓係數(Silhouette Coefficient)以及標準化互信息(NMI),並且用Python實現。 導航效果評估綜述輪廓係數互信息參考文章 效果

原创 『Tricks』用Python讀取Excel文件數據

利用 Python 來讀取 Excel 的數據,將每一行的數據保存到 dict 字典中,然後將字典保存到 list 中,最後將某一列的內容保存到 txt 文件。 導航安裝庫獲取操作行&列循環保存到字典寫入到文檔中參考文章 安裝庫