數據挖掘技術體系

面對這海量的數據,我們卻倍感知識的匱乏!
——約翰∙奈斯比(John Naisbitt) 1982


工具軟件

SPSS

全世界最早開發的統計分析軟件,操作界面極爲友好,輸出結果美觀漂亮。2009年被IBM公司收購。

SQL Server

SQLServer是Microsoft公司推出的關係型數據庫管理系統。具有使用方便可伸縮性好與相關軟件集成程度高等優點,可跨平臺使用。

Tableau

Tableau Server則是完全面向企業的商業智能應用平臺,基於企業服務器和web網頁,用戶使用瀏覽器進行分析和操作,還可以將數據發佈到Tableau Server與同事進行協作,實現了可視化的數據交互。Tableau Desktop的學習成本很低,使用者可以快速上手,這無疑對於日漸追求高效率和成本控制的企業來說具有巨大的吸引力。

SAS

SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。

Stata

Stata 是一套提供其使用者數據分析、數據管理以及繪製專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重複反覆及多項式普羅比模式。用Stata繪製的統計圖形相當精美。

Matlab

MATLAB是美國MathWorks公司出品的商業數學軟件,用於算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境, 主要包括MATLAB和Simulink兩大部分。MATLAB和Mathematica、Maple並稱爲三大數學軟件。它在數學類科技應用軟件中在數值計算方面首屈一指。 MATLAB可以進行矩陣運算、繪製函數和數據、實現算法、創建用戶界面、連接其他編程語言的程序等,主要應用於工程計算、控制設計、信號處理與通訊、圖像處理、信號檢測、金融建模設計與分析等領域。

Excel

MicrosoftExcel是微軟公司的辦公軟件Microsoftoffice的組件之一,是由Microsoft爲Windows和AppleMacintosh操作系統的電腦而編寫和運行的一款試算表軟件。 Excel是微軟辦公套裝軟件的一個重要的組成部分,它可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用於管理、統計財經、金融等衆多領域。

R

R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計製圖的優秀工具。

Eviews

Eviews也是美國QMS公司研製的在Windows下專門從事數據分析、迴歸分析和預測的工具。 使用Eviews可以迅速地從數據中尋找出統計關係,並用得到的關係去預測數據的未來值。 Eviews的應用範圍包括:科學實驗數據分析與評估、金融分析、宏觀經濟預測、仿真、銷售預測和成本分析等。

Clementine

數據挖掘軟件,提供了大量的人工智能、統計分析的模型(神經網絡,關聯分析,聚類分 析、因子分析等),並用基於圖形化的界面爲數據挖掘提供方便。

數據探索

數據質量分析

缺失值分析

數據缺失大概有兩種形式:1.完全缺失,比如某個屬性信息信息完全不可獲取,即某一列的值全部缺失; 2.隨機缺失,某些記錄有,某些記錄沒有

異常值分析

異常值可能由於測量、輸入錯誤或者系統運行錯誤而造成,也可能是由數據內在特性引起的,或者異常行爲導致。 異常值分析是檢驗數據是否含有不合理的數據。由於異常產生的機制是不確定的,因此異常檢測算法檢測出來的“異常”是否 真正地對應爲實際的異常行爲,不是有異常檢測算法來說明、解釋的,只能有領域專家來解釋。

一致性分析

數據一致性通常指關聯數據之間邏輯關係是否正確和完整。

數據特徵分析

分佈分析

運用製圖和分類、圖形以及計均概括性數據來描述數據的集中趨勢、離散趨勢、偏度以及峯度。

對比分析

把兩個相互聯繫的指標進行對比,從數量上展示和說明研究對象規模的大小、水平的高低、速度的快慢以及各種關係是否協調。 特別適用於指標間的橫縱向對比、時間序列的比較分析。關鍵在於選擇合適的對比標準。

統計量分析

用統計指標對定量數據進行統計描述。常從集中趨勢和離中趨勢兩個方面來分析。 反應平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數。 反應變異程度的指標則是對個體離開平均水平的度量,使用是最廣泛的是標準差(方差)、四分位間距。

週期性分析

以時間順序挖掘週期性的模式(即週期性分析)時一種重要的數據挖掘方式。週期性分析是探索某個變量是否隨着時間變化而呈現出某種週期性變化趨勢。 時間尺度相對較長的週期性趨勢有年、季週期性趨勢,時間尺度相對較短的有月、周、天、小時週期性趨勢。

貢獻度分析

貢獻度分析又叫帕累託分析。簡單例子,一個公司80%的利潤來自20%的產品,而其他80%的產品卻創造了20%的利潤。這種分析對於機器學習中的樣本選取具有重要意義。

相關性分析

散點圖

散點圖矩陣

散點圖矩陣是散點圖的高維擴展,他從一定程度上克服了在平面上展示高維數據的困難, 在展示多維數據關係時具有不可替代的作用。

簡單相關分析

Pearson相關係數

用來衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關係。 如衡量國民收入和居民儲蓄存款、身高和體重、高中成績和高考成績等變量間的線性相關關係。 當兩個變量都是正態連續變量,而且兩者之間呈線性關係時,表現這兩個變量之間相關程度用積差相關係數,主要有Pearson簡單相關係數。

Spearman秩相關係數

衡量分級定序變量之間的相關程度的統計量, 對不服從正態分佈的資料、原始資料等級資料、一側開口資料、總體分佈類型未知的資料不符合使用積矩相關係數來描述關聯性。 此時可採用秩相關(rank correlation),也稱等級相關,來描述兩個變量之間的關聯程度與方向。

判定係數

判定係數也叫確定係數或可決係數, 是在線性迴歸中,迴歸平方和與總離差平方和之比值,其數值等於相關係數的平方。 判定係數達到多少爲宜,沒有一個統一的明確界限值;若建模的目的是預測因變量值,一般需考慮有較高的判定係數。

偏相關分析

在某一現象與多種現象相關的場合,當判定其他變量不變時,其中兩個變量之間的相關關係稱爲偏相關。

數據預處理

數據清洗

缺失值處理

處理缺失值不外乎以下幾種方法: 1.直接刪除字段缺失的記錄; 2.對缺失值進行替換; 3.相似對象填充; 4.用模型去預測缺失值

異常值處理

分析異常值出現的可能原因,在單獨安異常值是是否應該捨棄, 如果是正常數據,可以直接在具有異常值的數據及上進行建模。

數據集成

實體識別

同名同義
異名同義
單位不統一

冗餘性識別

數據變換

函數變換

用來將不具有正態分佈的數據變換成具有正態分配的數據; 在時間序列分析中,有時簡單的對數變換或者差分運算可將非平穩序列轉換爲平穩序列。 例如個人年收入的取值範圍爲10000元到10億元,使用對數變化對其壓縮是常用的一種變換處理。

規範化

歸一化處理是數據挖掘的一項基礎工作。不同評價指標往往具有不同的量綱和量綱單位,數值之間的差別可能很大,不進行 處理可能會影響到數據分析的結果。常用:最小-最大規範化、零均值規範化、小數定標規範化。

連續屬性離散化

等寬法

每個桶的寬度區間是一樣的。

等頻法

每個桶的高度都是一樣的。

聚類分析法(K-Means)

對數據對象進行劃分成羣或者簇,規則是每個簇內數據對象儘量相似,簇之間的對象儘量相異。 然後用簇來代替原始的簇內數據對象。

屬性構造

利用已有的屬性集否早出新的屬性,並加入已有的屬性集中。

小波變換

新型數據分析工具,是信號分析手段。小波變換具有多分辨率的特點。在時域和頻域都具有表徵信號局部 特徵的能力,通過伸縮和平移等運算過程對信號進行多尺度聚集分析,提供了一種非平穩信號的時頻分析手段, 可以由粗及細地逐步觀察信號,從中提取有用信息。

數據規約

屬性規約

合併屬性

逐步向前選擇

由空的初始規約集,逐步添加好的屬性到規約中。

逐步向後刪除

逐步刪除整個屬性集中最差的。

決策樹歸納

每個非葉子節點表示一個屬性的選擇,每個葉子節點表示一個類預測。 最終的結果是將屬性按照需求劃分爲好的或者壞的。

主成分分析

將彼此相關的一組指標轉化爲彼此獨立的一組新的指標變量,並用其中較少的 幾個新指標變量就能綜合反映原多個指標變量中所包含的主要信息。

數值規約

直方圖

用一個連續的值域代替一個值作爲一個桶。

聚類

抽樣

參數迴歸

通過模型建立屬性間的關係,並通過迴歸方程等進行擬合,求取相關參數, 這樣在存取的時候只需要存取相關的模型參數,而不用存取實際數據,從而減少數據量。

分析挖掘

假設檢驗

分佈類型檢驗

正態分佈檢驗
二項分佈檢驗
遊程檢驗

t檢驗

在已知總體分佈的條件下(一般要求總體服從正態分佈)對一些主要的參數(如均值、百分數、方差、相關係數等) 進行的檢驗

非參數檢驗

不考慮總體分佈是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設 (如總體分佈的位罝是否相同,總體分佈是否正態)進行檢驗。適用情況:順序類型的數據資料,這類數據的分佈形態一般是未知的。

卡方檢驗

卡方檢驗。卡方檢驗是用途非常廣的一種假設檢驗方法,其原理是統計樣本的實際觀測值與理論推斷值之間的偏離程度, 實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合; 卡方值越小,偏差越小,越趨於符合,若兩個值完全相等時,卡方值就爲0,表明理論值完全符合。

方差分析

單因素方差分析

一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關係。

多因素方差分析

一頊實驗有多個影響因素,分析多個影響因素與響應變量的關係,同時考慮多個影響因素之間的關係

協方差分析

傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素, 使之影響了分祈結果的準確度。協方差分析主要是在排除了協變量的影響後再對修正後的主效應進行方差分析, 是將線性迴歸與方差分析結合起來的一種分析方法。

迴歸分析

一元線性迴歸

只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分佈。

多元線性迴歸

分析多個自變量與因變量Y的關係,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分佈 。

Logistic迴歸

線性迴歸模型要求因變量是連續的正態分佈變裏,且自變量和因變量呈線性關係, 而Logistic迴歸模型對因變量的分佈沒有要求,一般用於因變量是離散時的情況。 Logistic迴歸模型有條件與非條件之分,條件Logistic迴歸模型和非條件Logistic迴歸模型的區別在於參數的估計是否用到了條件概率。

主成分分析

將彼此相關的一組指標變適轉化爲彼此獨立的一組新的指標變量, 並用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息

因子分析

一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、 並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。 主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法。

典型相關分析

典型相關分析的實質就是在兩組隨機變量中選取若干個有代表性的綜合指標(變量的線性組合), 用這些指標的相關關係來表示原來的兩組變量的相關關係。這在兩組變量的相關性分析中, 可以起到合理的簡化變量的作用;當典型相關係數足夠大時,可以像迴歸分析那樣, 由一組變量的數值預測另一組變量的線性組合的數值。

對應分析

一種類似於主成分分析的變量降維分析方法, 主要用於定性二維或多維列聯表數據的分析,與主成分分析不同之處除了分別用於定性與定量數據的分析外, 主成分基於的是方差分解與共享,對應分析基於卡方統計量的分解與貢獻。

多維尺度分析

多維尺度法是一種將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、 分析和歸類,同時又保留對象間原始關係的數據分析方法。

信度分析

檢査測量的可信度,例如調查問卷的真實性。 1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度; 2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。

生存分析

COX模型。Cox模型是生存分析中一個很重要的內容,就是探索影響生存時間(生存率)的危險因素, 這些因素通過影響各個時刻的死亡風險(危險率)來影響生存率。由英國統計學家D.R.Cox於1972年提出, 主要用於腫瘤或其他慢性疾病的預後分析,發展到目前爲止,已不僅侷限於此,而是被廣泛地應用各個領域。 其優點包括:是使用於多因素的分析方法、不考慮生存時間的分佈形狀、能夠有效地利用截尾數據。

分類預測

決策樹

決策樹是一個預測模型,代表的是對象屬性與對象值之間的一種映射關係。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值, 而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有複數輸出, 可以建立獨立的決策樹以處理不同輸出。 數據挖掘中決策樹是一種經常要用到的技術,可以用於分析數據,同樣也可以用來作預測(比如銀行官員用它來預測貸款風險)。 從數據產生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。

分類迴歸樹:CART

C5.0算法

CHAID算法(卡方自動交換診斷器)

QUEST算法(快速無偏有效統計樹)

神經網絡

神經網絡具有高度的自學習、自組織和自適應能力,能通過學習和訓練獲取網絡的權值和結構。 多層前向神經網絡具有理論上可逼近任意非線性連續映射的能力,因而非常適合於非線性系統的建模及控制, 是目前使用較多的一種神經網絡模型。

LM神經網絡。LM算法是高斯—牛頓法和最速下降法的結合,具有高斯—牛頓法的局部收斂性和梯度下降法的全局特性。它通過自適應調整阻尼因子來達到收斂特性, 具有更高的迭代收斂速度,在很多非線性優化問題中得到了穩定可靠解。在LM算法的計算過程中,初值是一個很重要的因素。若選擇的初值 接近真值時,收斂速度很快且能夠得到全局最優解,但如果初值遠離真解時,優化結果往往過早的陷入局部最優解從而得到的結果完全背離真解。要解決該問題, 一是通過得到大量的原始信息來對真值有一個較準確的估計,但這在實際問題中往往不太可能達到;另外就是選擇一種合理的全局最優化算法與其相結合, 消除LM算法對初值的依賴且具有很快的收斂速度。

BP神經網絡。BP學習算法在理論上具有逼近任意非線性連續映射的能力,在非線性系統的建模及控制領域裏有着廣泛的應用。然而BP算法存在一些不足, 主要是收斂速度很慢;往往收斂於局部極小點; 數值穩定性差,學習率、動量項係數和初始權值等參數難以調整。

支持向量機:SVM

支持向量機,因其英文名爲support vector machine,故一般簡稱SVM。通俗來講,它是一種二類分類模型, 其基本模型定義爲特徵空間上的間隔最大的線性分類器,其學習策略便是間隔最大化,最終可轉化爲一個凸二次規劃問題的求解。

支持向量分類機:SVC。屬於無監督聚類方法。

支持向量分類機:SVR。屬於迴歸算法,用來做預測,比如溫度、天氣、股票等。

Logistic迴歸

Logistic迴歸。一般來說,迴歸不用在分類問題上,因爲迴歸是連續型模型,而且受噪聲影響比較大。如果非要應用進入,可以使用logistic迴歸。 logistic迴歸本質上是線性迴歸,只是在特徵到結果的映射中加入了一層函數映射,即先把特徵線性求和,然後使用函數g(z)將最爲假設函數來預測。

判別分析

距離判別法

以距離爲判別準則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用於兩類判別。

Fisher判別法

Fisher判別的基本思路就是投影,針對P維空間中的某點尋找一個能使它降爲一維數值的線性函數。 然後應用這個線性函數把P維空間中的已知類別總體以及求知類別歸屬的樣本都變換爲一維數據,再根據其間的親疏程度把未知歸屬的樣本點判定其歸屬。 這個線性函數應該能夠在把P維空間中的所有點轉化爲一維數值之後,既能最大限度地縮小同類中各個樣本點之間的差異,又能最大限度地擴大不同類別中各個樣本點之間的差異 ,這樣纔可能獲得較高的判別效率。

貝葉斯判別法

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分佈狀態,所以一般較多使用。

貝葉斯網絡

貝葉斯在傳統概率學的基礎上加入了先驗信息的修正。這種模型符合人們日常生活的思考方式,也符合人們認識自然的規律,經過不斷的發展,最終佔據統計學領域的半壁江山,與經典統計學分庭抗禮。貝葉斯網絡(Bayesian network),又稱信念網絡(Belief Network),或有向無環圖模型(directed acyclic graphical model),是一種概率圖模型,於1985年由Judea Pearl首先提出。它是一種模擬人類推理過程中因果關係的不確定性處理模型,其網絡拓樸結構是一個有向無環圖(DAG)。 簡言之,把某個研究系統中涉及的隨機變量,根據是否條件獨立繪製在一個有向圖中,就形成了貝葉斯網絡。其主要用來描述隨機變量之間的條件依賴,用圈表示隨機變量(random variables),用箭頭表示條件依賴(conditional dependencies)。

TAN貝葉斯網絡

馬爾科夫毯網絡

聚類分析

K-Means聚類

聚類算法中最簡單的一種。K-means算法是將樣本聚類成k個簇(cluster), 屬於無監督學習。以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的, 也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y,只有特徵x, 比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y,並將同類別y的樣本x放在一起。

Kohonen網絡聚類

Kohonen網絡是自組織競爭型神經網絡的一種,該網絡爲無監督學習網絡,能夠識別環境特徵並自動聚類。Kohonen神經網絡是芬蘭赫爾辛基大學教授Teuvo Kohonen提出的,該網絡通過自組織特徵映射調整網絡權值,使神經網絡收斂於一種表示形態,在這一形態中一個神經元只對某種輸入模式特別匹配或特別敏感。Kohonen網絡的學習是無監督的自組織學習過程, 神經元通過無監督競爭學習使不同的神經元對不同的輸入模式敏感,從而特定的神經元在模式識別中可以充當某一輸入模式的檢測器。網絡訓練後神經元被劃分爲不同區域,各區域對輸入模型具有不同的響應特徵。

兩步聚類

兩步聚類分析方法是近年來才發展起來的聚類方法的一種,它主要用於處理解決海量數據, 複雜類別結構時的聚類分析問題,尤其是連續變量和離散變量的混合數據。它分爲兩大步驟,包括預聚類和正式聚類。 在實踐中主要解決羣體劃分、用戶或消費者行爲細分等問題。

層次聚類

層次聚類算法與之前所講的順序聚類有很大不同,它不再產生單一聚類,而是產生一個聚類層次。類似一棵層次樹。 層次聚類算法的核心是不同層次間的閾值,矩陣更新過程中,總是將兩個距離最近的聚類合併,那麼我們只要加入一個閾值判斷, 當這個距離大於閾值時,就說明不需要再合併了,此時算法結束。這樣的閾值引入可以很好的控制算法結束時間,將層次截斷在某一層上。

關聯規則

在一家超市裏,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直爲商家所津津樂道。 關聯規則最初提出的動機是針對購物籃分析(MarketBasketAnalysis)問題提出的。該過程通過發現顧客放入“購物籃”中的不同商品之間的關聯,分析顧客的購物習慣。1993年,Agrawal等人在首先提出關聯規則概念,同時給出了相應的挖掘算法AIS,但是性能較差。 1994年,他們建立了項目集格空間理論,並依據上述兩個定理,提出了著名的Apriori算法,至今Apriori仍然作爲關聯規則挖掘的經典算法被廣泛討論。

APriori算法

GRI算法

Carma算法

時間序列分析

簡單迴歸分析

趨勢外推法

指間平滑法

自然迴歸法

ARIMA模型

季節調整法

灰色理論

灰色關聯。

用來分析各個因素對於結果的影響程度。也可以運用此方法解決隨時間變化的綜合評價類問題, 其核心是按照一定規則確立隨時間變化的母序列,把各個評估對象隨時間的變化作爲子序列, 求各個子序列與母序列的相關程度,依照相關性大小得出結論。

鄧氏關聯度

灰色系統理論是由著名學者鄧聚龍教授首創的一種系統科學理論(Grey Theory),其中的灰色關聯分析是根據各因素變化曲線幾何形狀的相似程度,來判斷因素之間關聯程度的方法。

綜合關聯度

相對關聯度

絕對關聯度

灰色預測:GM(1,1)模型

數據可視化

圖表製作

散點圖

散點矩陣圖
高密度散點圖
三維散點圖
氣泡圖

柱形圖

折線圖

餅圖

條形圖

直方圖

核密度圖

箱線圖

小提琴圖

星相圖

臉譜圖

面積圖

圓環圖

雷達圖

詞雲圖

莖葉圖

報告撰寫

資料來源:北水國際

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章