原创 信用風險評估之 預測力指標(篩選特徵)

在建模時,被用來預測的變量(即feature)相互間不能有很強的相關性,最好完全不存在相關性。 評判變量間的預測力指標有皮爾森相關係數,斯皮爾曼相關係數,皮爾森卡方統計量,概率比,信息值等。 1.皮爾森相關係數pearson

原创 信用風險評估評分卡 之 極端值

極端值的產生: 1.數據生成的過程來源於某些未知的函數形式的分佈,很難確定哪些觀測值是極端值; 2.在獲取原始業務數據過程中,產生差錯。 極端值的識別: 1.爲每個變量(feature)設定一個正常的取值範圍,超過一定範圍

原创 瞭解推薦系統是什麼

1.什麼是推薦系統? 也許你不知道什麼是推薦系統,但你肯定使用過。 淘寶首頁,有好貨,猜你喜歡等,根據歷史瀏覽記錄,個性化推薦相似寶貝。 美團外賣,猜你喜歡。 網易雲音樂,根據聽者聽歌記錄,定製私人FM,每日推薦20首歌,

原创 發博客字體,字號,顏色設置

使用markdown編輯器很棒,常用的小功能有: 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公式 UML序列圖和流程圖 而在編輯文字時,需要注意或強調的內容,往往想用不同的顏色或不同的字體標註。可以添加如下腳本實現:

原创 Mysql下載與安裝 (出錯install/remove of the service denied)

1.在mysql官網下載社區版的mysql : http://dev.mysql.com/downloads/mysql/ 2.解壓版本,下載後只需要解壓到指定目錄,如D:\program files\mysql。 3.安裝服務

原创 推薦算法之 slope one 算法

1.示例引入 多個吃貨在某美團的某家飯館點餐,如下兩道菜: 可樂雞翅: 紅燒肉: 顧客吃過後,會有相關的星級評分。假設評分如下: 評分 可樂雞翅 紅燒肉 小明 4 5 小紅

原创 數據準備--降低基數,連續變量分段

數據準備非常重要: 1.從不同的渠道收集數據; 2.清理數據中意外錯誤或被認爲是極端值的取值; 3.生成衍生的變量(feature)。 在數據處理過程,需要進行的操作: 當名義變量的取值大於12個,考慮降低基數: 1>將

原创 向量,標量對向量求導數

1.已知 對誰求導數,就以誰(分母)作爲主序,得出結果。比如這裏x是列向量,求Ax關於x求導數,那麼對x的每個分量分別求偏導數(寫成一行),然後整理排成一列(同x一樣是列向量)。 同理有 關於x的轉置x.T求導數

原创 no module named MySQLdb

win7, python27安裝MySQLdb。 在上一篇提到安裝安裝MySQL-Python-1.2.5.win32-py2.7 時出現了 not found in the registry 的問題。按照創建新的register

原创 winpython,安裝與使用(anaconda)

winpython套件包含numpy,scipy,sklearn,matplotlib.等,省去了一個個安裝的麻煩,尤其是sklearn在window下安裝的各種問題。 winpython 的多多優點,參考 http://www.

原创 python version 2.7 required,which was not found in the registry

安裝MySQL-python-1.2.5.win32-py2.7 時,出現問題:python version 2.7 required,which was not found in the registry(但是python2.7

原创 win7 anaconda2 安裝xgboost

本人用python做數據分析,經常用到pandas,調用sklearn,於是偷個了小懶,直接安裝了anaconda,它集成了很多python的工具包,安裝也簡單。 最近了解了一下GBM(gradient boosting machine

原创 python27,anaconda2 安裝網絡繪圖工具igraph及cairo

在使用anconda2的環境下安裝igraph後在安裝cairo後,無法使用plot繪圖。 提示:TypeError: plotting not available 下面從兩種方法安裝:1僅python27環境安裝igraph及cai

原创 數據預處理之獨熱編碼(One-Hot Encoding)

比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常數字量化後: “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’

原创 anaconda2安裝igraph

igraph的python 版本使用 http://igraph.org/python/doc/tutorial/install.html#installing-igraph 因爲目前要求packages for Python 2.6