原创 泛統計理論初探——KNN

數據挖掘-knn KNN算法 KNN算法是機器學習裏較爲簡單和初級的算法,也稱爲最近鄰算法。可以算的上是學習數據挖掘的入門算法,在大賽中,該算法一般用來作爲插值來用,一般不會直接使用該算法來進行預測。 衆所周知,對於KNN算法可以

原创 泛統計理論初探——淺談迴歸問題

數據挖掘-迴歸問題探討 淺談連續迴歸和離散迴歸 衆所周知,迴歸問題可以根據因變量的離散或連續分爲連續迴歸(線性迴歸、非線性迴歸)與分類迴歸。其中,爲了解決分類迴歸問題,在經典的迴歸假設基礎上,引入了對數機率的概念,將數值轉化爲概率

原创 泛統計理論初探——機器學習預測評價指標

數據挖掘-介紹預測評價指標 機器學習預測指標簡介 在我們學習數據挖掘的過程中,在剛開始學習的時候認爲只要預測正確的準確率越高的模型一定是越好的,但是當我們往後學習的時候,接觸到了一些新的問題的時候,我們會發現最開始衡量預測正確的準

原创 泛統計理論初探——集成學習之提升方法探討

數據挖掘-探討提升方法 淺談提升方法 在傳統的分類問題的情況中,不管是決策樹或是樸素貝葉斯等方法,都是對訓練數據進行訓練,然後得到模型來去進行預測。這次我們談的提升方法(boosting)本質上是集成學習的一種,另一種是baggi

原创 泛統計理論初探——決策樹

數據挖掘-決策樹 決策樹算法 決策樹是一種較爲常見的算法,該方法在各個社科領域有較爲頻繁的使用。該方法的本質可以理解爲,由多個特質變量的臨界值構建得到的決策樹,該決策樹可以幫助決策者解決一些實際的問題。 在早期的決策樹方法中,是使

原创 LeetCode刷題——最大盛水量

最大盛水量題目的思路探討與源碼 最大盛水量的題目如下圖,核心是在一個無序列表中尋找相距最遠的,並且相對最大的兩個數字,以此來形成一個最大的“盛水器”,即Container With Most Water。 本人在看到該題目後,認

原创 泛統計理論初探——樸素貝葉斯

數據挖掘-樸素貝葉斯 樸素貝葉斯算法 樸素貝葉斯算法是機器學習裏較爲初級的算法,它的樸素的含義是因爲翻譯的問題,英文是Naive Bayes,即簡單貝葉斯。 該方法在初期被提出時常被用於識別垃圾郵件,是較爲經典的基於概率的一種分類

原创 泛統計理論初探——Kmeans方法簡介

數據挖掘-探討Kmeans算法 Kmeans算法簡介 衆所周知,機器學習分爲有監督學習和無監督學習兩種。對於有監督學習的情況,一般根據被解釋變量是否連續,分爲分類問題和迴歸問題,在之前的文章中已經有過討論。在本文中,我們將討論無監

原创 泛統計理論初探——因變量連續的模型準確率評價指標

數據挖掘-因變量連續的預測評價指標 因變量連續的準確率指標探究 在之前文章的內容中,我們探討了衡量機器學習準確率的指標,比如auc指標、精確率、召回率等。從因變量的角度來說,那些指標其實是衡量因變量爲離散變量的情況下使用的,從預測

原创 泛統計理論初探——統計編碼方法簡介

統計學習-統計編碼方法簡介 機器學習常見的編碼方法簡介 在實際的問題中,經常會遇到自變量是分類變量的問題,比如血型、學歷、職稱級別、衣服型號等。在處理這些變量的時候,通常會對變量進行編碼處理,使得原來的變量取值變成數學上的數字,比

原创 泛統計理論初探——非線性支持向量機探討

數據挖掘-非線性支持向量機探討 非線性支持向量機探討 在之前的兩篇支持向量機文章的介紹中,闡述了支持向量機的原理與線性的支持向量機的本質以及最大間隔的直觀含義,在本文中,我們將繼續觀察支持向量機,當遇到線性不可分的數據時,介紹如何

原创 泛統計理論初探——分位數與箱型圖

統計學習-分位數與箱型圖 認識分位數和箱型圖 在之前的文章中,我們介紹了基本的描述性統計變量,即低階和高階的描述性指標,比如均值、中位數、標準差、偏度、峯度等指標。在本文中,我們將介紹箱型圖和分位數的含義以及應用,理解箱型圖的構成

原创 LeetCode刷題——羅馬數

羅馬數題目的思路探討與源碼 羅馬數的題目如下圖,核心是將輸入的羅馬數字符串進行轉化,得到一個十進制的數字。 本人在看到該題目後,認爲羅馬數的轉化本質上只需要注意相鄰兩個字符串的大小即可,所以本人建立了一個與輸入字符串等長的方向

原创 LeetCode刷題——旋轉圖片

旋轉圖片題目的思路探討與源碼 旋轉圖片的題目如下圖,核心是把一個矩陣進行順時針90度的旋轉,並且只能在當前矩陣上改動,不能新建矩陣,所以只需要把該矩陣旋轉問題看作是矩陣內的數字移動的步驟即可。 本人在看到該題目後,旋轉圖片其

原创 泛統計理論初探——再談支持向量機

數據挖掘-再談支持向量機 再談支持向量機 上一篇文章我們談到了支持向量機的名稱是如何由來的以及支持向量機基本的原理。同時我們也討論了函數間隔和幾何間隔的差異,並給出了函數形式。下面在這篇文章中,我們將接着上文繼續討論如何做到間隔最