原创 數據可視化—百度Echarts基礎

前言 16年的時候還是個在校學生,基於對數據可視化的興趣,參加了天池的氣象可視化大賽,磕磕碰碰沒獲獎,與其他合作伙伴最後也不歡而散,最後還是咬咬牙通宵一兩個星期終於實現了也交了,這個比賽最後留給我的實質性的可能是簡歷上面的一行字

原创 使用SQL對變量進行分箱統計計算WOE與IV值

常用的評分卡模型中需要先對變量進行離散化處理,在大規模數據集中,可以使用數據庫本身自帶的分位數或者排序函數對變量進行分箱處理後,然後直接計算WOE、IV值。 公式不再贅述,會在別的文章詳細介紹。 一、SQL分箱操作 1、建立箱

原创 挖掘流程回顧&建模實戰經驗分享

CRISP-DM(CRoss-Industry Standard Process for Data Mining)即爲”跨行業數據挖掘過程標準” 一、業務理解 其任務包括:確定商業目標、評析環境、確定數據挖掘目標、制定項目計劃。

原创 R語言中文文本處理建立DocumentTermMatrix後亂碼問題

最近參加一箇中文文本實體識別的比賽,於是重拾R語言文本處理的過程,一年前使用過的代碼,突然發現現在重新運行一遍會有這個問題, 上網搜索了一遍還是沒解決,後來想想歸根到底還是編碼問題,可能19年對中文編碼比較嚴格一點? 過程如下: