這兩天遇到的scikit-learn的問題

scikit-learn的onehotEncoder,是隻能根據整數來進行one-hot編碼的,然後我的數據很多都是,string,這樣子有一個辦法,就是先LableEncoder再onehotEncoder,然而這樣子必須一行一行算,是不能一個矩陣來的,這個辦法數據量小還可以,多了的話就哭了......

然後這個辦法解決用pandas的get_dummies。這個可以直接做one-hot。然而,對mysql和panda,一個比較坑的地方(也不能算坑只能說我比較慫),mysql到python裏都是元組的形式,而panda是基於numpy的,操作基本都是list,所以注意這個地方比較容易出錯.....

希望我能好好看看,panda還有scikit-learn.....還有mysql,這幾個問題都在於要多用.....


scikit-learn,這是一個神奇的工具,具體的都在官方文檔裏,用google可以google到一些例子,數據預處理,建模,驗證(算準確率AUC)都是有函數的,先把邏輯迴歸這個搞一搞,predict_proba是預測準確率,predict是閾值設成了0.5然後大於0.5就是1,小於就是0,是一個分類,然後可以score評估,還可以用準確率(這個是另一個函數等我代碼寫完......加了註釋傳上來......),然後還可以算AUC,ROC......

http://blog.csdn.net/pzy20062141/article/details/48711355

http://blog.csdn.net/chjjunking/article/details/5933105\

這兩個是說AUC和ROC的,好好看看,現在只能理解AUC越大越好也是太弱了......

然後http://www.cnblogs.com/kylinlin/p/5309703.html是一個感覺很好的scikit-learn的邏輯迴歸例子。


scikit-learn,可以輸入one-hot格式的編碼,還有別的咩?這個要找找.......


學無止境啊......

發佈了56 篇原創文章 · 獲贊 9 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章