原创 Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升樹

GBDT類庫概述GBDT有很多簡稱,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting), GBRT(Gradient Boosting Regression Tree)

原创 python函數參數傳遞(params, *params, **params)

一般最開始接觸也就是最簡單的函數參數形如 def fuc(x) ,但是也有複雜的函數參數傳遞方式,總結一下python的傳參方式,先介紹一下參數的基本類型,最後講到最複雜的(**params)類型。 1. 位置參數 一個最簡單的函數形式,

原创 個人徵信報告解讀

徵信數據背景 構建徵信體系對擴展消費信貸業務的起到積極作用,徵信數據爲借貸機構提供借款人的基本信用畫像,從而作出可靠的信貸決策。徵信數據的相關鏈路包括,上游的數據生產者(各銀行、消金公司等金融機構上報)、中游的徵信機構(整合數據輸出徵信報

原创 【統計學習方法筆記】第一章統計學習概論

目錄 1.1統計學習 1.2 統計學習的分類 1.3 統計學三要素 1.4 模型評估與模型選擇 1.5 正則化與交叉驗證 1.6 泛化能力 1.7 生成模型與判別模型 1.8 監督學習應用 1.1統計學習 統計學習包括:監督學習,非監督學

原创 時間切片特徵衍生

在sql中比較容易處理類似“近n個月金額之和/最大值/最小值/平均值” 這樣的變量,使用sum(case when date  then amount else 0 end) 即可,如果是出差在外只能處理離線數據不能使用數據庫時,這個時候

原创 【CS224n課程筆記】Lecture 01 Introduction and Word Vectors

目錄 1. word vectors 詞向量 2. Representing words by their context 3. objective function 目標函數 4. 梯度下降:鏈式法則(基礎的求導知識)     Lect

原创 jieba 中文分詞介紹及使用

  目錄   基本介紹 功能及使用 1. 分詞 2. 添加自定義詞典 2.1 載入詞典 2.2 調整詞典 3. 關鍵詞提取 3.1 基於 TF-IDF 算法的關鍵詞抽取 3.2 基於 TextRank 算法的關鍵詞抽取 4. 詞性標註 5

原创 fasttext算法原理及使用

1.  FastText原理 fastText是一種簡單高效的文本表徵方法,性能與深度學習比肩。fastText的核心思想就是:將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然後使用文檔向量做softmax多分類。這中間涉及到兩個

原创 從詞袋到 tf-idf

複習一下文本處理的一些基本概念。 詞袋:Bag-of-words,基於單詞數量統計的 最簡單的文本特徵表示方法。對於文本數據,詞袋可以理解爲單詞數量的統計列表。 文本“it is a puppy and it is extremely

原创 jupyter配置——添加目錄

jupyter超實用功能: 在做統計分析或者建模過程中,需要來回查看前後代碼和中間步驟結果,目錄欄功能能夠快速定位到位置,能夠大大提升工作效率。這裏記錄下安裝過程,需要時方便查找。   1.第一步, 安裝 Jupyter Notebook

原创 利用sklearn進行集成學習之相關理論

轉自http://www.cnblogs.com/jasonfreak/p/5657196.html 集成學習的幾個主要算法講的精簡易懂,特別是集成學習過程中的調參涉及到的理論部分,特別是對偏差和方差有了更直觀的理解,以及幾個不同的損失

原创 機器學習算法——集成學習

概念集成學習是機器中一個非常重要且熱門的分支,用 多個弱分類器構成一個強分類器,其哲學 思想是 “三個臭皮匠賽過諸葛亮 ”。 爲什麼要集成?模型選擇:假設各弱分 類器間具有一定差異性(如不同的算法,或相參數配置),這會導致生成假設各弱分

原创 Sklearn-LogisticRegression邏輯迴歸

邏輯迴歸:可以做概率預測,也可用於分類,僅能用於線性問題。通過計算真實值與預測值的概率,然後變換成損失函數,求損失函數最小值來計算模型參數,從而得出模型。   sklearn.linear_model.LogisticRegressio

原创 Sklearn-RandomForest隨機森林

在scikit-learn中,RandomForest的分類類是RandomForestClassifier,迴歸類是RandomForestRegressor,需要調參的參數包括兩部分,第一部分是Bagging框架的參數,第二部分是C

原创 機器學習算法——決策樹

基本概念決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。 三種結點: 根結點:沒有入邊,但有零條或者多條出邊 內部結點:恰有一條入邊和兩條或多條出邊 葉結點:恰有一條入邊,但沒