原创 泛統計理論初探——常見正則化技巧簡介

數據挖掘-正則化方法簡介 常見正則化方法介紹    正則化方法是數據挖掘或者神經網絡應用裏常見的一種方法,該類方法其實是一種對於過擬合進行優化的思路,即當模型在訓練集和測試集的預測準確率差距非常大的時候,比如模型在訓練集預測準確率

原创 泛統計理論初探——探討梯度下降學習率優化技巧

數據挖掘-梯度下降學習率優化簡介 學習率優化方法簡介    本文準備介紹的主要內容是在梯度下降方法中,對於學習速率這個超參數的優化思路。在之前的三篇文章裏,分別介紹了對梯度本身的優化的常見策略和技巧,但是沒有對學習速率的優化進行介

原创 泛統計理論初探——激活函數初探

神經網絡學習-初探激活函數 理解激活函數 在之前的文章中,我們談到了神經網絡的結構和基本思路,並且提及了激活函數。在本次文章中,我們來具體比較幾種常見的神經網絡,尋找它們之間的共同特點和不同之處。激活函數是神經網絡中非常重要的角色

原创 LeetCode刷題——Matrix zeroing矩陣置零

矩陣置零題目的思路探討與源碼 矩陣置零的題目如下圖,核心把矩陣中當前0元素所在的行和列都重置爲0,並且只能在當前矩陣上改動,不能新建矩陣,所以要使用下標進行標記,並最終重新賦值。 本人在看到該題目後,認爲只需要記錄下所有0元素

原创 泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧 機器學習模型泛化能力增強技巧簡介    在之前的文章中,我們已經介紹了三種提高模型泛化能力的方法,即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中,我們將會從數據角度、模型

原创 泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介 過擬合與欠擬合簡介 在我們數據挖掘的學習中,經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候,可能會造成數據的過擬合;使用簡單的一元線性迴歸的進行預測的時候,可能會造成數據的欠擬合

原创 泛統計理論初探——初探特徵工程

統計學習-特徵工程介紹 探究特徵工程 衆所周知,特徵工程是非常重要的數據挖掘步驟之一。在我們獲取數據後,會首先進行數據清洗並得到一個能夠分析的數據集。然後開始觀察數據,並對數據做特徵工程處理,因爲有些模型對數據的特徵屬性要求較高。

原创 泛統計理論初探——DBSCAN方法簡介

數據挖掘-聚類算法之DBSCAN DBSCAN算法簡介 在之前的文章裏,我們探討了最常見的一種聚類算法,即Kmeans算法,在本文中,我們將簡要介紹DBSCAN算法,同時將比較DBSCAN方法相對於Kmeans的優缺點。 DBSC

原创 泛統計理論初探——梯度下降新方法簡介

數據挖掘-梯度下降新方法簡介 梯度下降新方法簡介    在之前的兩篇文章裏,我們介紹了梯度下降方法的歷史和演變,從批量梯度下降、隨機梯度下降方法到後續的新方法如動量加速法、AdaGrad、RMSprop、Adadelta方法等,本

原创 泛統計理論初探——均值漂移算法初探

數據挖掘-均值漂移聚類算法 均值漂移聚類算法簡介 本文主要是介紹均值漂移聚類算法,又稱爲Mean-Shift-Cluster,該算法屬於無監督學習的聚類方法。主要從算法的使用場景、步驟、核心思路等角度去介紹算法。之前其實也介紹過一

原创 泛運籌理論初探——圖論基礎簡介

圖論-圖論基礎簡介 圖論基本知識簡介 圖論是離散數學、運籌學裏的一個分支,廣泛應用於物流、商品推薦等方向,裏面的一些算法是互聯網工作者和一些算法工程師經常使用的,比如最短路算法、代價最小的路徑方法、深度優先、廣度優先等。我們從圖論

原创 泛統計理論初探——再談梯度下降方法優化

數據挖掘-再談梯度下降優化方法 再談梯度下降優化方法    在上一篇文章,我們簡單的介紹了梯度下降方法和一些簡單的優化方法,比如隨機梯度下降方法可以對原有的梯度下降方法進行優化和加速,在這個基礎上又有小批量梯度下降方法和動量加速梯

原创 泛統計理論初探——梯度下降方法簡要比較

數據挖掘-簡要比較梯度下降方法 梯度下降方法初探    本文的內容主要是介紹幾種簡單的梯度下降方法,比如隨機梯度下降方法、小批量梯度下降方法,並對它們的優缺點進行比較,梯度下降方法是一種求解凸函數的常見學習方法。我們都知道在機器學

原创 LeetCode刷題——求衆數II+尋找重複數+數組中重複數據

尋找重複數字類型的題目的思路探討與源碼 本次將三道題放到一起講,它們的題目分別如下圖,該3道題都屬於數組類的題目,主要考察對於重複數字的理解,如何在列表中尋找找到重複數字並返回是核心。通過考慮轉換列表爲KV形式的字典,形成Key爲

原创 泛統計理論初探——常見損失函數初探

數據挖掘-常見損失函數初探 常見損失函數簡介 在之前的文章中,我們介紹過各種計算準確率的指標,在本文中我們將會介紹常見的損失函數並做出比較,討論使用的場景和各個損失函數的優缺點。 首先我們來認識損失函數,常見的有監督數據挖掘問題無