原创 STL vector/set集合運算

經常用的集合運算有四種: 求交集  set_intersection(a.begin(),a.end(),b.begin(),b.end(),inserter(c,c.begin()) 求並集  set_union(a.begin(),a

原创 批量梯度下降算法及簡單Python實現

算法理論 爲了實現監督學習,假設對於因變量y有自變量x1x2,則有y=θ1x1+θ2x2+θ0 θ0是偏移量,令θ0=1,得到: 我們再定義誤差函數j(θ)(係數爲1/2是用來消去後面的2)來表示h(x)與y的接近程度: 目的是使誤差函數

原创 內部排序算法

外部排序:待排序的記錄數量很大,以至內存不能一次全部容納,在排序過程中還需對外存進行訪問。 內部排序:待排序記錄存放在計算機隨機存儲器中進行的排序過程。內部排序大致分爲五類:插入排序,交換排序,選擇排序,歸併排序和計數排序。 插入排序 1

原创 簡述動量梯度下降

原文鏈接:https://blog.csdn.net/yinruiyang94/article/details/77944338  梯度下降是機器學習中用來使模型逼近真實分佈的最小偏差的優化方法。  在普通的隨機梯度下降和批梯度下降當中,

原创 線索二叉樹

已知各種形態的二叉樹,假設有n個節點,那麼其二叉鏈表有2n個鏈域,其中n-1個是非空,n+1個是空鏈域,那麼爲了充分利用這些空指針,讓這些空指針指向其他節點,這些指針稱爲線索,該二叉鏈表又稱爲線索鏈表,該二叉樹稱爲線索二叉樹(另外設置一個

原创 哈夫曼樹

1.路徑長度:一串節點序列k1,k2......kn,從k1到kn經過的分支數即爲這兩點之間的路徑長度,路徑長度等於路徑上節點個數減1。 2.帶權路徑長度:有時樹的節點具有權值,這時節點的帶權路徑長度規定爲從樹根節點到該節點之間的路徑長度

原创 幾個常用算法的適應場景及其優缺點

本文主要回顧下幾個常用算法的適應場景及其優缺點! 機器學習算法太多了,分類、迴歸、聚類、推薦、圖像識別領域等等,要想找到一個合適算法真的不容易,所以在實際應用中,我們一般都是採用啓發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的算

原创 基於概率論的分類方法:樸素貝葉斯

需要分類器做出分類決策,可以使分類器給出各個類別的概率估計值,然後選擇概率最高的作爲其的類別。在這裏使用到了概率論中的貝葉斯公式:P(A|B)=P(A)*P(B|A)/P(B),其中P(A|B)是後驗概率,P(A)是先驗概率,P(B|A)

原创 字符串哈希

Hash算法的意義在於提供了一種快速存取數據的方法。 通過把任意長度的輸入(又稱預映射)通過哈希算法轉化成某種固定長度的輸出,該輸出即爲哈希值(又稱散列值):一般就將該哈希值作爲數組的下標,將該輸入存入其所指向的數組空間中。那麼再次查找該

原创 KMP算法

KMP算法是解決字符串匹配問題的經典算法,相比較於二重循環暴力破解法,KMP匹配算法的效率大大提高。 暴力破解法的第一重循環是主串的i指針遍歷主串的所有位置作爲基點的情況,第二重循環是模式串的j指針與i指針依次比較各自指向的元素是否相等,

原创 sklearn-最小二乘線性迴歸

sklearn是機器學習中的一個常用的python第三方模塊,裏面對機器學習的許多方法進行了封裝,在進行機器學習的任務時,許多常用的算法可在這個模塊中直接調用。並且sklearn中還提供了許多可用於分類、迴歸的優質數據集。使用好sklea

原创 拉格朗日乘子法與KKT條件解決優化問題

SVM支持向量機是目前非常好用的一種分類算法,但是其中的原理推導涉及了一些數學知識:例如其中在處理我們構建得到的數學模型時,最優化問題中就使用到了拉格朗日乘子法與KKT條件。 通常需要解決的優化問題有三類: 1.無約束的優化問題    m

原创 《機器學習實戰》使用ID3算法構造決策樹

決策樹是一個基本回歸和分類的算法 決策樹的優點: 1.易於理解和解釋,並且可以可視化。 2.幾乎不需要數據預處理。決策樹還不支持缺失值。 3.可以同時處理數值變量和分類變量。其他方法大都適用於分析一種變量的集合。 4.可以處理多值輸出變量

原创 《機器學習實戰》K近鄰算法

最近剛學完《機器學習實戰》的K近鄰算法,自己在Anaconda的JupyterNotebook環境下進行了代碼實現和數據集的運行與測試。 具體內容博士的博客寫得非常詳細,很值得深入學習了,該博客鏈接:http://blog.csdn.n

原创 《機器學習實戰》邏輯迴歸算法簡單Python實現

Logistic迴歸 假設有一些數據點,對這些數據點用一條直線進行擬合,這個擬合的過程稱爲迴歸。 使用邏輯迴歸進行二分類的思想是:根據現有的數據對分類邊界線建立迴歸公式依此進行分類! 原理公式——求最佳的特徵參數θ 分類可知真實值只有兩個