數據挖掘與R語言

1.數據挖掘的方法有哪些?
分類方法有K近鄰、Logistic迴歸、樸素貝葉斯和貝葉斯網絡、決策樹(ID3/C4.5/CART/RF)、Boosting、人工神經網絡、支持向量機、組合分類器等。
聚類方法有K均值、K中心點、層次聚類BIRCH、密度聚類DBSCAN、模糊聚類、SOM等。
關聯規則方法有Apriori算法、FP-growth算法等。
其他還有數據可視化方法、維數約簡(PCA)等。

2. R在數據挖掘中的優勢有哪些?
(1)R是統計分析、繪圖功能的自由開源軟件,擁有完整體系的數據分析和挖掘工具,也爲數據挖掘提供的強大圖形功能。
(2)R有豐富的數據挖掘工具包(Packages)方便使用。
(3)R語言向量化運算功能強大,R語言使用apply函數系列取代傳統的for循環做運算節約內存和時間。
(4)R是一種面向對象的編程語言,和其它編程語言及平臺、數據庫之間有很好的接口。
當然還有很多在數據挖掘中的優勢。


數據挖掘的方法有哪些?

內容來源:http://hi.baidu.com/switchyiyi11/item/8b381858bcdf19474eff20be

利用數據挖掘進行數據分析常用的方法主要有分類、迴歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數據進行挖掘。

1、分類

分類是找出數據庫中一組數據對象的共同特點並按照分類模式將其劃分爲不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。

2、迴歸分析

迴歸分析方法反映的是事務數據庫中屬性值在時間上的特徵,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關係,其主要研究問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關係等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。

3、聚類

聚類分析是把一組數據按照相似性和差異性分爲幾個類別,其目的是使得屬於同一類別的數據間的相似性儘可能大,不同類別中的數據間的相似性儘可能小。它可以應用到客戶羣體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

4、關聯規則

關聯規則是描述數據庫中數據項之間所存在的關係的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關係。在客戶關係管理中,通過對企業的客戶數據庫裏的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關係,找出影響市場營銷效果的關鍵因素,爲產品定位、定價與定製客戶羣,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。

5、特徵

特徵分析是從數據庫中的一組數據中提取出關於這些數據的特徵式,這些特徵式表達了該數據集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。

6、變化和偏差分析

偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。

7、Web頁挖掘

隨着Internet的迅速發展及Web 的全球普及, 使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web 的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。
發佈了32 篇原創文章 · 獲贊 6 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章