起源是師兄叫着參加Sogou的用戶畫像比賽。過程中師兄比較忙,所以就自己試着摸索了一下。這也是第一次參加數據挖掘的比賽。所以記錄一下,勉勵自己更加努力纔行。
LDA主題模型+決策樹
1、LDA主題模型
- 文本預處理(編碼問題煩死了)
- 結巴分詞(去停用詞)
- 大文本處理(內存8G直接跑到內存溢出,讓我哭一會兒)
- gensim中關於主題模型函數講解
2、決策樹
- 決策樹生成
- 對於連續數的處理
- 返回結果的問題
- 如何實現一棵方便的決策樹API
起源是師兄叫着參加Sogou的用戶畫像比賽。過程中師兄比較忙,所以就自己試着摸索了一下。這也是第一次參加數據挖掘的比賽。所以記錄一下,勉勵自己更加努力纔行。