1.目標:
1.1、復現 一個文本聚類實驗
1.2、復現 k-means聚類實驗
1.3、復現 fast search——k-means聚類
1.4、復現 fast search----k-means----文本聚類
1.5、實驗 上述改進
2.基本資料:
3.參考資料:
3.1 博客:
1、中文文本聚類(切詞以及k-means聚類)python 2017.11.06
2、博客《文本聚類教程》 TF-IDF博客推薦
3、《【Python與機器學習】:利用Keras進行多類分類》
---》《Multi-Class Classification Tutorial with the Keras Deep Learning Library》
4、《How to understand the drawbacks of K-means》 關於k-means有豐富的圖和說明
5、《How can i cluster document using k-means (Flann with python)?》 都說k-means不適用於文本聚類,可以使用k-moids 不過更慢
6、python sklearn-06:聚類-k-means 有詳細的繪圖的代碼
7、《用Python實現文檔聚類》實際項目
8、《K-means文本聚類系列(已經完成)》可以參照做實驗
3.2論文:
3.3 數據集:《一些文本語料庫》
3.4 網站:
1、https://stackoverflow.com/
2、https://datascience.stackexchange.com/
3、http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html java關於cluster的庫,包含document cluster
4、搜狐 5、《如何研究——以博士論文爲例》 6、《國外博士論文下載網址》 7、
3.5 知乎大v呼廣躍 阿里巴巴工程師 專欄:聚類,離羣點檢測
3.6書籍:
1、《mastering machine learning with scikit learn》第三章 特徵選擇 已下載,百度文庫也有
2、《text analysis with python》文本分類這一章
3.7 github
1、《Guan Wang》有很多數據集
4.疑惑:
4.1 究竟是先熟悉文本聚類的理論還是先復現一個文本聚類的差不多的實驗。
4.2 只熟悉理論,怕紙上談兵沒有實踐效果來得快,只復現又看理論看得不明不白的,迷迷糊糊的,看不懂。
4.3 論文的分佈和目錄流程順序該怎麼組織?
將重點放在文本聚類的各技術上,按文本聚類的步驟(預處理--聚類--評價)去寫還是按基本聚類方法、改進的方法去寫。
5.暫記:
5.1 搜索最新的2017屆的畢業論文。
5.2 搜索最新的論文。
5.3 sklearn python裏的科學計算庫,提供數種聚類算法。
5.4 如何學習tableau?
5.5 資料庫:知乎-文本挖掘專欄、聚類、iteye關於聚類的檢索
6.總結:
---》參考最接近的幾篇碩士論文和博士論文。
---》一篇博士論文裏的其中一個章節的實驗就夠寫碩士論文了。
---》關注每個論文的實驗部分及其寫作的圖片和實驗結果總結。
--》套用現成的文本聚類全過程實驗,將核心聚類算法進行處理好改進,即可完成論文實驗。
--》寫論文的時候注意總分總,中心句、小標題和一二三四序號等,使論文邏輯清晰。
--》多用實驗。數據和圖表去論證,去純文字效果要好。
---------------------------------------------------20171106--------------------------------------------------
1、中文文本聚類(切詞以及k-means聚類)
文中git項目chines_text_cluster git使用參考博客
2、重裝java和eclipse
重刷系統之後,java還可以用,不過要照着網上的教程重新配置一下環境變量
有了java,eclipse就能直接啓動了。
---------------------------------------------------20171115----------------------------------------------------
參考:Python·Win10通過Anaconda安裝python和Jupyter(python2.7爲例)
anaconda安裝及使用教程
----------------------------------------------------20171207------------------------------------------------------
1、搜索一篇博客《文本聚類教程》,已轉載。博主貌似是哈工大畢業、實習做文本聚類、畢業去百度做算法工程師。
博客簡略介紹了一下文本聚類的核心點,並附上了python寫的代碼。(然而還看不懂)。
---------------------------------------------------20171208-----------------------------------------------------
1、看昨天博客的代碼,讀懂,製作數據進行實驗。
----------------------------------------------------20171218--------------------------------------------------------
計劃:上午看一份有關文本聚類的論文,瞭解基本理論。
下午看代碼,做實驗。
----------------------------------------------------20171219---------------------------------------------------------
1、總結:通讀了幾篇文本聚類的論文。
文本預處理 文本-----→文本去噪-----→中文分詞-->去停用詞->特徵選取->建立向量空間模型->特徵向量集
|
|
↓
文本聚類 文本向量集-----→K-CFSFDP算法聚類-----→確定類別數範圍並迭代求解最佳類別數-----→類別數
|
|
↓
評估 查準率+召回率+F-measure
2、存在的問題
2.1python2.x和python3.x不兼容
更換python版本,使用anaconda更換python 《如何在anaconda中實現多版本python spyder共存》
可以在控制檯使用activate python27激活python2,激活之後調用python即可使用python2.
在本機中,python3安裝在C:\Users\qixianting\AppData\Local\Programs\Python\Python36。
python2安裝在D:\2_software\anaconda\envs\python27。
安裝jieba、gensim等模塊。
jieba python2.x下安裝: pip install jieba python3.x下安裝:# pip install jieba
2.2亂碼問題
2.2.1從根本解決 通讀編碼相關的知識,解決代碼存在的問題
2.2.2 轉移問題 查找相關去除停用詞的代碼,繞過編碼問題。
----------------------------------------------------20171223---------------------------------------------------------
1、看知乎上關於聚類的東西,找到了一些相關的資料
1.1 周明博士
建議一:如何在NLP領域快速學會第一個技能(編譯現有項目、編程實現這個項目、對比修改)
建議二:如何選擇第一個好題目(研究現有的主要流派和方法以入門、閱讀最新論文和牛人的論文並找出可改進的地方、復現實驗、改進實驗)
建議三:如何寫出第一篇論文(寫的很細緻很具體:題目、摘要、引言、相關工作、自己的工作(算法+實驗)、結論、參考文獻)
1.2
----------------------------------------------------20180103---------------------------------------------------------
1、修改了stopwords.txt,將其編碼改爲utf-8,(文檔另存時即可修改編碼方式)成功運行了clustering.py,並使用三類文本進行聚類。
2、使用10類文檔進行聚類時,依舊存在以下幾點問題:
2.1 聚類結果太大無法顯示,就算顯示了數據也很難使用,還要一步步處理,可否將結果寫入文檔中保存。
2.2 不理解代碼中畫的圖的意義,以及輪廓係數的意義。
3、理解python代碼
3.1 f=open('doc.txt','r') open()函數創建了一個file對象,即f。
3.2 fileContent=f.read() file.read()函數返回讀取到的字符串內容的字節
3.3 lines=f.readlines() file.readlines()函數,讀取整個文件並自動返回一個按“行”拆分的列表
3.4 列表 list
list的方法:list.append(obj) 在列表末尾添加新的對象
python中關於list的方法: len(list) 列表元素的個數
for i in list01:
print i 列表的迭代