原创 (ID3、C4.5、CART、隨機森林、GBDT)

注:本篇文章也是多個博客的綜合整理。 1、決策樹基本問題1.1 定義 我們應該設計什麼的算法,使得計算機對貸款申請人員的申請信息自動進行分類,以決定能否貸款?  一個女孩的母親要給這個女孩介紹男朋友,於是有了下面的對話: 女兒:多大年紀了

原创 np.random.seed() 理解

在使用numpy時,難免會用到隨機數生成器。numpy.random.seed(),隨機數種子,每次可以生成相同的隨機數。 兩個問題: 1.利用隨機數種子,每次生成的隨機數相同,如何理解? 2.隨機數種子的參數怎麼選擇?經常看到np.ra

原创 pandas 寫數據到mysql,pymysql.err.InternalError: (1366, "Incorrect string value: .' for column at row **

panda寫數據到mysql,出現以下錯誤: pymysql.err.InternalError: (1366, "Incorrect string value: '\\xE6\\x8B\\xBF\\xE5\\xB7\\xA5...' f

原创 機器學習三要素:模型、策略和算法

機器學習在幹嘛?就是利用已有數據,找到一些合適的數學模型去描述它,然後做一些預測分析,從而優化企業的流程或者提高決策效率。機器學習的核心是:模型、策略和算法 機器學習的目的——模型(Model) 模型就是用來描述客觀世界的數學模型,模型是

原创 交叉驗證(Cross Validation)

交叉驗證是在機器學習建立模型和驗證模型參數時常用的辦法。交叉驗證,顧名思義,就是重複的使用數據,把得到的樣本數據進行切分,組合爲不同的訓練集和測試集,用訓練集來訓練模型,用測試集來評估模型預測的好壞。在此基礎上可以得到多組不同的訓練集和測

原创 訓練集、驗證集、測試集、交驗驗證的理解

原文鏈接:https://blog.csdn.net/kieven2008/article/details/81582591 在人工智能機器學習中,很容易將“驗證集”與“測試集”,“交叉驗證”混

原创 Python中的賦值、淺拷貝與深拷貝

首先需要了解下幾個概念   變量:是一個系統表的元素,擁有指向對象的連接空間 對象:被分配的一塊內存,存儲其所代表的值 引用:是自動形成的從變量到對象的指針 類型:屬於對象,而非變量 不可變對象:一旦創建就不可修改的對象,包括字符串、元組

原创 python中list和array的區別

numpy.array可以專門表示二維或多維數據        b=np.array(a)        >>b             array=([[1,2,3],                         [4,5,6],

原创 精確率、召回率、F1值、ROC、AUC各自的優缺點

性能度量:爲了瞭解模型的泛化能力,需要一個指標來衡量,這就是它的意義。   主要討論與分類有關的一些指標: 1.     混淆矩陣: 可以這麼理解:s1,先看預測結果(P/N); s2,再根據實際表現對比預測結果,給出判斷結果(T/F)

原创 批量重命名文件

這裏有兩種方法,最簡單的就是直接使用Windows自帶的批量重命名方法;但是這種方法有缺陷,只能以固定的命名規律來命名。另一種方法就是通過dos命令來批量修改文件名。 Windows自帶的批量重命名 選定所有你想修改的文件,然後右鍵菜單選

原创 重建二叉樹

題目描述 輸入某二叉樹的前序遍歷和中序遍歷的結果,請重建出該二叉樹。假設輸入的前序遍歷和中序遍歷的結果中都不含重複的數字。例如輸入前序遍歷序列{1,2,4,7,3,5,6,8}和中序遍歷序列{4,7,2,1,5,3,8,6},則重建二叉樹

原创 梯度下降法及實現

梯度下降的場景假設 梯度 梯度下降算法的數學解釋 梯度下降算法的實例 梯度下降算法的實現 Further reading 本文將從一個下山的場景開始,先提出梯度下降算法的基本思想,進而從數學上解釋梯度下降算法的原理,最後實現一個簡單的

原创 Random_Logistic_regression中get_support()方法

使用隨機邏輯迴歸模型進行特徵篩選,使用get_support方法獲取結果時出現以下錯誤: IndexError: boolean index did not match indexed array along dimension 0; d

原创 range()、np.arange()總結

range()和xrange()函數 在 python 2.x 版本中,同時存在range() 和xrange() 函數,其中,range() 返回值是一個列表,xrange() 返回值是一個迭代器; 在 python 3.x 版本中,取

原创 《Python數據分析與挖掘實戰》案例--財政收入影響因素分析及預測模型

Python3中運行出現錯誤,故修改其中一小部分代碼使其正常運行: 1、錯誤:KeyError:range(1994,2014)、 原代碼: f = GM11(data[i][range(1994, 2014)].as_matrix())