原创 泛統計理論初探——文本挖掘中的主題模型

數據挖掘-初探主題模型 文本挖掘之主題模型 本次的文章中將介紹文本挖掘中最常見的模型,即主題模型。主題模型又稱之爲LDA,即Latent Dirichlet Allocation,英文直譯是潛在狄利克雷分佈。該模型是通過構造文章/

原创 泛統計理論初探——GMM算法初探

統計學習-GMM算法簡介 高斯混合模型簡介 在本文中,主要是延續之前的EM算法的基礎上,簡單的介紹一些GMM算法,GMM算法的全稱是高斯混合模型,即英文名Gaussian Mixed Model ,該算法的核心思想是用加權的方式,

原创 LeetCode刷題——Valid square有效正方形

有效正方形題目的思路探討與源碼 有效正方形的題目如下圖,該題屬於數學類的題目,主要考察對於正方形的理解,通過邊長和對角線的長度進行理解,可以判斷能否構造正方形。雖然屬於中級但是難度相對較低。只要枚舉並判斷即可。 本人在看到該題目

原创 LeetCode刷題——探尋兩個有序數組中位數

探尋兩個有序數組中位數題目的思路探討與源碼 探尋兩個有序數組中位數的題目如下圖,該題屬於數組類的題目,主要考察對於中位數的理解,通過考慮不同兩個數組的相對位置情況,最終求出中位數。本人的思路比較懶,直接使用了列表的合併,該題雖然屬

原创 泛統計理論初探——EM算法簡介

統計學習-EM算法簡介 EM算法簡介 本文將會介紹EM算法,EM算法又稱爲最大期望算法,EM算法的中文名稱是Expectation-Maximization algorithm ,該算法是由不停迭代的期望步驟、最大化步驟反覆交替形

原创 LeetCode刷題——Complex multiplication複數乘法

複數乘法題目的思路探討與源碼 複數乘法的題目如下圖,該題屬於字符串類的題目,主要考察split函數以及字符串函數轉整型以及四則運算,雖然屬於中級但是難度相對較低。只要區分實數部分和虛數部分即可。 本人在看到該題目後,認爲只需要先

原创 LeetCode刷題——矩陣置零

矩陣置零題目的思路探討與源碼 矩陣置零的題目如下圖,核心把矩陣中當前0元素所在的行和列都重置爲0,並且只能在當前矩陣上改動,不能新建矩陣,所以要使用下標進行標記,並最終重新賦值。 本人在看到該題目後,認爲只需要記錄下所有0元素

原创 泛統計理論初探——均值漂移聚類簡介

數據挖掘-均值漂移聚類算法 均值漂移聚類算法簡介 本文主要是介紹均值漂移聚類算法,又稱爲Mean-Shift-Cluster,該算法屬於無監督學習的聚類方法。主要從算法的使用場景、步驟、核心思路等角度去介紹算法。之前其實也介紹過一

原创 泛統計理論初探——孤立森林簡介

數據挖掘-孤立森林方法 孤立森林算法簡介 孤立森林是一種用於異常檢測的算法,本文將對該算法進行簡介,包括算法的理念、步驟、以及使用場景。常見的異常檢測方法主要是統計學課本上學到一些方法,比如六西格瑪方法、線性迴歸檢測方法、箱線圖檢

原创 泛統計理論初探——Kmeans算法優化技巧簡介

數據挖掘-Kmeans算法優化技巧 Kmeans優化方法簡介 在之前的文章中已經介紹了Kmeans方法的原理和步驟,Kmeans方法是一種常見的聚類方法,但是由於它的一些缺點導致聚類的效果一般,比如初值K的選取會影響聚類的效果。與

原创 泛統計理論初探——線性判別分析LDA簡介

統計學習-線性判別分析方法簡介 線性判別分析方法簡介 LDA是常見的降維算法,全稱是Linear Discriminant Analysis,即線性判別分析。這種方法和主成分分析法都是一種降維的方法,區別在於主成分分析方法是無監督

原创 泛統計理論初探——超參數優化簡介

數據挖掘-超參數優化簡介 超參數調優方法簡介 本文對機器學習中的常用的超參數方法進行介紹,希望初學者在機器學習的過程中能夠認識到超參數的調優是非常重要的一個步驟。 首先我們明確,什麼是超參數。超參數其實就是不屬於模型本身的一種參數

原创 泛統計理論初探——模型評估的驗證策略

數據挖掘-模型驗證策略簡介 模型評估的驗證策略簡介 在數據挖掘和機器學習的過程中,我們需要對使用的模型的預測效果進行評估,有時候由於測試集或者驗證集選擇的不夠好或是數據本身的樣本就非常少,導致了模型的評估不夠準確。下面我們將介紹使

原创 泛統計理論初探——集成學習之Bagging方法探討

數據挖掘-探討Bagging方法 淺談裝袋方法 在傳統分類問題中,我們通常使用基本的分類器去得到模型,比如樸素貝葉斯模型、決策樹方法、logistic模型等。但這些基本的分類器的預測正確率都是較爲一般的,在處理實際問題中,這些模型

原创 泛統計理論初探——餘弦距離簡介

統計學習-餘弦距離簡介 介紹餘弦距離 在衡量變量之間距離的時候,我們發現可以用歐式距離、絕對值距離,本文我們將來介紹另一種距離,即餘弦距離。餘弦距離在實際問題中經常用到,由於它的計算方法是把各個維度的點積相乘並相加,然後除以模長得