台部落来日凭君发遣

用搜狗新聞數據集來訓練中文詞向量（Word2Vec），自己做的時候踩了很多的坑，希望分享出來讓大家少走彎路。在學習完這篇後，您可以點擊維基百科訓練詞向量，來進一步完善自己的詞向量模型！參考文章：搜狗語料庫word2vec獲取

2020-06-23 17:35:55

文獻：A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS 在進行了詞嵌入的研究後，我們往往會聯想到這樣一個問題：既然單詞可以用向量表示，那麼由一個個單詞組

2020-06-23 17:35:55

用 Python 實現主題模型 LDA 。最後打印出文檔-主題分佈以及主題-詞分佈。導航事先準備綜合代碼參考事先準備安裝 numpy 和 gensim 包文本數據，每一行是一篇文章，而且經過了分詞、去停用

2020-06-23 17:35:52

利用 Python，結合 LDA + Word2Vec + Pagerank 實現關鍵詞的挖掘。先用 LDA 方法初步選擇出主題及其詞分佈，接着將每個主題下的詞表示爲詞向量，用相似性表示詞與詞之間的權重，最後用 TextRank

2020-06-23 17:35:52

利用Python代碼實現中文文本的自然語言處理，包括分詞、去標點符號、去停用詞、詞性標註&過濾。在剛開始的每個模塊，介紹它的實現。最後會將整個文本處理過程封裝成 TextProcess 類。頁面導航結巴分詞詞性標註去停用詞去標

2020-06-23 17:35:50

141

本節用Python實現K-Means算法，對未標註的數據進行聚類。主要參考《機器學習實戰》—— Peter Harrington著。在做完聚類後，如何對於聚類結果進行評估？請看用Python實現聚類效果的評估（輪廓係數、互信息

2020-06-23 17:35:50

本文是在『詞向量』用Word2Vec訓練中文詞向量（一）—— 採用搜狗新聞數據集的基礎上，將兩個語料庫合併，進而訓練出較好的詞向量模型。參考：基於word2vec使用中文wiki語料庫訓練詞向量小項目（Gensim庫）–維基

2020-06-23 17:35:50

文獻回顧——『文本自動摘要』在大四畢設選題時，我選到了『在線評論信息的自動摘要技術研究』的題目。因此，我決定在此記錄所讀的每一篇文獻的思路及方法，一方面用於理清每篇文章的思路，另一方面便於日後寫論文中的文獻綜述部分。此後，隨着

2020-06-23 17:35:50

在寫下這篇博客之前，我以爲我的畢業論文進展一帆風順。之前進行了Word2Vec訓練、LDA主題建模、關鍵詞提取、K-Means聚類實踐，我充滿了信心。可是這一次，我倒在了句子相似性計算，整整兩個星期，日思夜想，茶飯不香。

2020-04-21 01:40:17

在利用K-Means對句子向量進行聚類的時候，發現了兩種容易疏忽的錯誤。關於代碼的實現請參考用K-Means對未標註的數據聚類。導航Error 1：一直循環無最優解Error 2：RuntimeWarning: M

2020-04-21 01:40:17

好的聚類：類內凝聚度高，類間分離度高。本文介紹兩種聚類評估方法，輪廓係數（Silhouette Coefficient）以及標準化互信息（NMI），並且用Python實現。導航效果評估綜述輪廓係數互信息參考文章效果

2020-04-21 01:40:17

利用 Python 來讀取 Excel 的數據，將每一行的數據保存到 dict 字典中，然後將字典保存到 list 中，最後將某一列的內容保存到 txt 文件。導航安裝庫獲取操作行&列循環保存到字典寫入到文檔中參考文章安裝庫

2020-04-11 12:23:40