數據挖掘與python實踐 |(一)引言

目錄

數據挖掘的產生、定義、流程

數據挖掘原因

數據挖掘定義

數據挖掘的流程

數據挖掘的方法

數據挖掘的應用

數據挖掘的產生、定義、流程

數據挖掘原因

  • 數據爆炸問題

自動數據收集工具和成熟的數據庫技術使得大量的數據被收集,存儲在數據庫、數據倉庫或其他信息庫中以待分析;我們擁有豐富的數據,但卻缺乏有用的信息。

  • 解決辦法:數據倉庫技術和數據挖掘技術
  1.  數據倉庫(Data Warehouse)和在線分析處理(OLAP);
  2.  數據挖掘:在大量的數據中挖掘感興趣的知識(規則,規律,模式,約束)

數據挖掘定義

定義:數據挖掘就是從數據中發現知識,具體而言,就是從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識。

數據挖掘流程

(1)瞭解應用領域——瞭解相關的知識和應用的目標;

(2)創建目標數據集;

(3)選擇數據,數據清理和預處理(這個可能要佔全過程60%的工作量) ,數據壓縮和變換;

(4)選擇數據挖掘的技術、功能和合適的算法,進行數據挖掘;

(5)尋找感興趣的模式

(6)模式評估

(7)知識表示

(8)運用發現的知識

  • 挖掘的數據類型

數據定義:數據是對事物描述的符號。在計算機科學中,數據是數字、文字、圖像、聲音等可以輸入到計算機被識別的符號;企業運營離不開數據;用戶生成數據。

數據挖掘處理的數據類型:結構化數據和非結構化數據

1. 結構化數據:通常二維表格的形式存儲在關係數據庫中;

2. 非結構化數據:文本數據、視頻數據、音頻數據、圖像數據。

數據挖掘的方法

常用的分析方法包括分類、聚類、關聯分析、數值預測、序列分析、社會網絡分析等。

分類:通過對具有類別的對象的數據集進行學習,概括其主要特徵,構建分類模型,根據該模型預測對象的類別的一種數據挖掘和機器學習技術。

聚類:依據物以類聚的原理,將沒有類別的對象根據對象的特徵自動聚集成不同簇的過程,使得屬於同一個簇的對象之間非常相似,屬於不同簇的對象之間不相似。典型應用:客戶羣分類。

注意:分類和聚類都屬於對數據進行歸類,不同點在於:分類針對有標籤的數據分析,聚類針對沒有標籤的數據。

關聯分析:發現數據之間的關聯規則,經常用在購物籃分析中。

數值預測:用於預測連續變量的取值,常用的預測方法是迴歸分析。

異常挖掘:也稱爲孤立點分析,挖掘一些與數據一般特點不一致的孤立點。例如,信用卡客戶欺詐檢測。

序列分析:對序列數據庫進行分析,從中挖掘出有意義模式的技術。

社會網絡分析:對社會網絡的結構和屬性進行分析,以發現其中的局部或全局特點,發現其中有影響力的個人或組織,發現網絡的動態變化規律等。

​​​​​​​數據挖掘的應用

  • 數據分析和決策支持

(1)市場分析和管理:目標市場, 客戶關係管理 (CRM), 市場佔有量分析, 交叉銷售, 市場分割

(2)風險分析和管理:風險預測, 客戶保持, 保險業的改良, 質量控制, 競爭分析

(3)欺騙檢測和異常模式的監測 (孤立點)

  • 其它應用

(1)文本挖掘 (新聞組,電子郵件, 文檔) 和WEB挖掘

(2)流數據挖掘

(3)DNA 和生物數據分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章