FPgrowth

原創

绿岛小微米

2020-02-24 05:22

************************FPgrowth概述和apirior的比較*********************************

頻繁項集挖掘算法用於挖掘經常一起出現的item集合（稱爲頻繁項集），通過挖掘出這些頻繁項集，當在一個事務中出現頻繁項集的其中一個item，則可以把該頻繁項集的其他item作爲推薦。比如經典的購物籃分析中啤酒、尿布故事，啤酒和尿布經常在用戶的購物籃中一起出現，通過挖掘出啤酒、尿布這個啤酒項集，則當一個用戶買了啤酒的時候可以爲他推薦尿布，這樣用戶購買的可能性會比較大，從而達到組合營銷的目的。

常見的頻繁項集挖掘算法有兩類，一類是Apriori算法，另一類是FPGrowth。Apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集，需要多次掃描原始數據，當原始數據較大時，磁盤I/O次數太多，效率比較低下。FPGrowth算法則只需掃描原始數據兩遍，通過FP-tree數據結構對原始數據進行壓縮，效率較高。

FPGrowth算法主要分爲兩個步驟：FP-tree構建、遞歸挖掘FP-tree。FP-tree構建通過兩次數據掃描，將原始數據中的事務壓縮到一個FP-tree樹，該FP-tree類似於前綴樹，相同前綴的路徑可以共用，從而達到壓縮數據的目的。接着通過FP-tree找出每個item的條件模式基、條件FP-tree，遞歸的挖掘條件FP-tree得到所有的頻繁項集。算法的主要計算瓶頸在FP-tree的遞歸挖掘上，下面詳細介紹FPGrowth算法的主要步驟。

***************FPgrowth算法步驟******************

參見：https://wenku.baidu.com/view/c32bbada27d3240c8547ef1b.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

矩陣求導法

矩陣求導法 1、前言設y=f(x)y=f(x)y=f(x)且x=[x1 x2 ...xn]Tx=[x_1 \ x_2 \ ... x_n]^{T}x=[x1 x2 ...xn]T，由多元函數微積分可知 dy=∑i=1ndy

「已注销」

2020-07-08 08:57:51

【轉載】中國計算力學大會’2…

原文地址：【轉載】中國計算力學大會’2014（CCCM2014）第一輪通知作者：CFDCAE 一、會議簡介爲推動計算力學領域的學術交流，促進計算力學的發展和工程應用，中國力學學會計算力學專業委員會決定於2014年8月10日-13日在

CAD_CAE_CFD_EDA

2020-07-01 22:48:52

藍以中老師《高等代數》第03章：行列式，筆記

本章總覽如下：本章具體知識點如下：

2020-07-01 02:22:33

藍以中老師《高等代數》第06章：帶度量的線性空間（歐式空間、酉空間）筆記

本章的學習，基於第4章和第5章的知識，前兩章的知識點如果熟悉、理解了，那麼，本章學習就毫無壓力。本章知識結構概覽如下：本章細分知識點如下：

2020-07-01 02:22:33

線性規劃中的對偶（Duality in linear programs）

Introduction 對偶（duality）是優化中的一個重要概念，當原問題的最小值很難求解時，我們常常將其變爲對偶形式，通過求解對偶問題的最大值，從而得到原問題的最優解。我們從最簡單的線性規劃問題入手來介紹對偶的概念。線性

2020-06-30 19:17:09

次梯度（Subgradients）

總目錄一、凸優化基礎（Convex Optimization basics）凸優化基礎（Convex Optimization basics）二、一階梯度方法（First-order methods）梯度下降（G

2020-06-30 19:17:09

插值法-解決數據預處理中的缺失

****拉格朗日插值法**** 在平面上有共n個點，現作一條函數使其圖像經過這n個點。作法：作n個多項式。對於第j個多項式，及其角標集，構造是n-1次多項式，且滿足

绿岛小微米

2020-06-28 15:59:24

決策樹-Cart生成和剪枝算法

***************CART算法概述********************** Cart算法類似於ID3算法，其將特徵分類爲按GINI係數，找到該特徵下的一個最優節點進行分類，該特徵被分爲2個類別，比如一個類別中有{學生，

绿岛小微米

2020-06-28 15:59:24

GBDT(生)

GBDT主要由三個概念組成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一個重要演進分枝，目前大部分源碼都按該版本實現）。搞定這三個概念後就能明白

绿岛小微米

2020-06-28 15:59:24

二次規劃問題轉換爲半正定問題(QPtoSDP)

2020-06-22 07:09:11

Matlab解析LQR與MPC的關係

mathworks社區中的這個資料還是值得一說的。 openExample('mpc/mpccustomqp') 我們從幾個角度來解析兩者關係，簡單的說就是MPC是帶了約束的LQR. 下面我們從代碼的角度解析這個問題： 1，定

2020-06-22 07:09:09

PRML Chapter 9.2 Mixtures of Gaussians 混合高斯分佈簡介

單元高斯分佈(The univariate Gaussian)，我們高中時就知道了，其表達式如下： N(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2} 而多元高斯分佈(Multivariate Gaussian

2020-06-16 06:56:31

SA-GAN： self-attention 的 pytorch 實現（針對圖像）

問題基於條件的卷積GAN 在那些約束較少的類別中生成的圖片較好，比如大海，天空等；但是在那些細密紋理，全局結構較強的類別中生成的圖片不是很好，如人臉（可能五官不對應），狗（可能狗腿數量有差，或者毛色不協調）。可能的原因大部分

月下花弄影

2020-06-15 17:20:05

微積分中幾個重要的不等式：Jensen不等式、平均值不等式、Holder不等式、Schwarz不等式、Minkovski不等式及其證明

目錄一：幾個重要不等式的形式 1，Jensen不等式 2，平均值不等式 3，一個重要的不等式 4，Holder不等式 5，Schwarz不等式和 Minkovski不等式二：不等式的證明 1，Jensen不等式用數學歸納法證明

2020-06-07 20:30:35

高斯核函數【轉載】

2020-05-31 21:51:12

24小時熱門文章

最新文章

最新評論文章