原创 機器學習筆記(三)——搞懂決策樹必備的信息增益

一、何爲決策樹 決策樹是監督學習算法之一,並且是一種基本的分類與迴歸方法;決策樹也分爲迴歸樹和分類樹,本文討論的是分類樹。如果瞭解或者學過數據結構,肯定對"樹"這個概念是不陌生的,在此基礎上學習掌握決策樹也會更加容易,下面通過一個

原创 用Python分析一下那些“吸粉”無數的高票房電影

1、前言 孩子:媽媽我想看電影 媽媽:看,看大片,480部夠嗎? 孩子:夠了,謝謝媽媽,媽媽真好 奈何爛片層出不窮,電影荒就成了常事,不如迴歸經典,看一看電影歷史上票房排行位於前端的一些電影,票房高的電影不一定精彩,但爛片票房低則

原创 機器學習筆記(一)——KNN針對泰坦尼克號生存記錄建模的兩種方法

KNN算法原理 本篇博客基於《機器學習實戰》實現 算法原理簡要概括,重在代碼實現 k-近鄰算法(kNN)的工作原理是:存在一個樣本數據集合,稱訓練樣本集,並且樣本集中每個數據都存在標籤,即樣本集中每一數據與所屬分類的對應關係。

原创 機器學習筆記(四)——決策樹的構建及可視化

前文簡介 上一篇文章中主要介紹了以下幾方面: 決策樹的簡介 決策樹的流程 熵的定義及如何計算熵 信息增益的定義及如何計算信息增益 依據信息增益劃分數據集 本文以一個新的數據集(隱形眼鏡數據集)爲基礎實現構建決策樹、決策樹的保存

原创 不能不用也不可亂用的標準化和歸一化處理

今天這篇還是講特徵工程那一堆事,準確點說是數據預處理範疇內的,在做PCA降維時,我發現利用方差過濾出的主成分和利用PCA降維得到的主成分對應位置的方差有些不同: VarianceThreshold:[90370.216841808

原创 20年前的幾行代碼竟如此牛逼?驚了

最近在知乎上看到了一個話題:世界上有哪些代碼量很少,但很牛逼很經典的算法或項目案例?其中有一個回答是雷神之錘3中的快速逆平方根算法,我本以爲是電影中雷神3中出現的代碼,就特別好奇點進去看了一下,結果真是對應了代碼註釋中的一句話“w

原创 這幾道經典例題幫你輕鬆搞透貪心算法

貪心算法概念敘述 運用貪心算法求解問題時,會將問題分爲若干個子問題,可以將其想象成俄羅斯套娃,利用貪心的原則從內向外依次求出當前子問題的最優解,也就是該算法不會直接從整體考慮問題,而是想要達到局部最優。只有內部的子問題求得最優解,

原创 想機器學習實戰卻不會特徵降維?這可不行

最近期末需要交的論文有些多,所以更新進度有些慢,爲了彌補空白期,以後也會給大家轉載一些好文,感謝各位哥哥姐姐一直以來的支持。 如果只對降維的代碼部分感興趣可以直接劃至文末 一直都在研究關於機器學習相關算法的理論,最近準備打

原创 請查收這份“位運算”的裝Bi指南

運算可謂是與編程息息相關,我們編寫的每一個程序可能都帶有加減乘除,當然這是最基礎的運算了。在大一下的時候學了第一門編程語言C,隨着也學到了取餘(%)和三目運算符(? :),當時就覺得(? :)真的NiuBi,但在編程時卻很少用到,

原创 機器學習筆記(十四)——線性迴歸及其兩種常用的優化方法

何爲迴歸 迴歸的目的是預測數值型的目標值,最直接的辦法是依據輸入寫出一個目標值的計算公式,比如要計算一個男生可以找到女朋友的概率: P=0.4∗財產+0.3∗長相+0.3∗身高P = 0.4\ast財產+0.3\ast長相+0.3

原创 機器學習筆記(十三)——重中之重的性能度量方式你要懂

性能度量 本文參考《機器學習》和《機器學習實戰》 在之前講述的所有分類介紹中,我們都是假設所有類別的分類代價是一樣的,由於主要探討的是二分類問題,所以可看作1和0的分類代價相同。 而對於分類代價相同的問題,我們通常利用正確率或

原创 機器學習筆記(十二)——集成學習方法之AdaBoost

集成學習方法 本文參考於《機器學習實戰》和《機器學習》 在此之前一共介紹了五種分類算法,分別爲KNN、決策樹、樸素貝葉斯、邏輯迴歸、支持向量機,可以看到每一種算法都有各自的優缺點,以及適合的數據集。集成學習方法可以將不同分類算

原创 機器學習筆記(十一)——學支持向量機怎能不懂"核"

非線性支持向量機 對於線性分類問題,線性分類支持向量機是一種非常有效的方法。但是有的分類問題是非線性的,這時就可以使用非線性支持向量機對分類問題求解,其主要的特點是利用核技巧(kernel trick),下面通過一個通俗的小栗子介

原创 機器學習筆記(八)——隨機梯度上升(下降)算法調優

前言概述 上一篇文章對邏輯迴歸的原理和基本思想做了一些簡要介紹,並通過引入Sigmoid函數和梯度公式成功推導出了梯度上升和梯度下降公式,上文分類實例是依據全批量提升上升法,而本文會介紹全批量梯度上升的一種優化算法——隨機梯度上升

原创 一文幫你搞懂何爲信息增益——決策樹必備

一、何爲決策樹 決策樹是監督學習算法之一,並且是一種基本的分類與迴歸方法;決策樹也分爲迴歸樹和分類樹,本文討論的是分類樹。如果瞭解或者學過數據結構,肯定對"樹"這個概念是不陌生的,在此基礎上學習掌握決策樹也會更加容易,下面通過一個