數據挖掘與python實踐 |（一）引言

原創

Nibaby燕

2020-06-24 03:46

數據挖掘的產生、定義、流程

數據挖掘原因

數據爆炸問題

自動數據收集工具和成熟的數據庫技術使得大量的數據被收集，存儲在數據庫、數據倉庫或其他信息庫中以待分析；我們擁有豐富的數據，但卻缺乏有用的信息。

解決辦法：數據倉庫技術和數據挖掘技術

數據倉庫(Data Warehouse)和在線分析處理(OLAP)；
數據挖掘：在大量的數據中挖掘感興趣的知識（規則，規律，模式，約束）

數據挖掘定義

定義：數據挖掘就是從數據中發現知識，具體而言，就是從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識。

數據挖掘流程

（1）瞭解應用領域——瞭解相關的知識和應用的目標；

（2）創建目標數據集；

（3）選擇數據，數據清理和預處理(這個可能要佔全過程60％的工作量) ，數據壓縮和變換；

（4）選擇數據挖掘的技術、功能和合適的算法，進行數據挖掘；

（5）尋找感興趣的模式

（6）模式評估

（7）知識表示

（8）運用發現的知識

挖掘的數據類型

數據定義：數據是對事物描述的符號。在計算機科學中，數據是數字、文字、圖像、聲音等可以輸入到計算機被識別的符號；企業運營離不開數據；用戶生成數據。

數據挖掘處理的數據類型：結構化數據和非結構化數據

1. 結構化數據：通常二維表格的形式存儲在關係數據庫中；

2. 非結構化數據：文本數據、視頻數據、音頻數據、圖像數據。

數據挖掘的方法

常用的分析方法包括分類、聚類、關聯分析、數值預測、序列分析、社會網絡分析等。

分類：通過對具有類別的對象的數據集進行學習，概括其主要特徵，構建分類模型，根據該模型預測對象的類別的一種數據挖掘和機器學習技術。

聚類：依據物以類聚的原理，將沒有類別的對象根據對象的特徵自動聚集成不同簇的過程，使得屬於同一個簇的對象之間非常相似，屬於不同簇的對象之間不相似。典型應用：客戶羣分類。

注意：分類和聚類都屬於對數據進行歸類，不同點在於：分類針對有標籤的數據分析，聚類針對沒有標籤的數據。

關聯分析：發現數據之間的關聯規則，經常用在購物籃分析中。

數值預測：用於預測連續變量的取值，常用的預測方法是迴歸分析。

異常挖掘：也稱爲孤立點分析，挖掘一些與數據一般特點不一致的孤立點。例如，信用卡客戶欺詐檢測。

序列分析：對序列數據庫進行分析，從中挖掘出有意義模式的技術。

社會網絡分析：對社會網絡的結構和屬性進行分析，以發現其中的局部或全局特點，發現其中有影響力的個人或組織，發現網絡的動態變化規律等。

數據挖掘的應用

數據分析和決策支持

（1）市場分析和管理：目標市場, 客戶關係管理 (CRM), 市場佔有量分析, 交叉銷售, 市場分割

（2）風險分析和管理：風險預測, 客戶保持, 保險業的改良, 質量控制, 競爭分析

（3）欺騙檢測和異常模式的監測 (孤立點)

其它應用

（1）文本挖掘 (新聞組,電子郵件, 文檔) 和WEB挖掘

（2）流數據挖掘

（3）DNA 和生物數據分析

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘與python實踐 |（一）引言

數據挖掘的產生、定義、流程

數據挖掘原因

數據挖掘定義

數據挖掘流程

數據挖掘的方法

數據挖掘的應用

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

nodejs學習06——小案例

《MySQL必知必會》學習筆記(2)—增刪改、視圖、存儲過程、遊標

從根兒上理解MySQL | 鎖

《MySQL必知必會》學習筆記(1)—數據檢索

(1-2)神經網絡與深度學習 | 淺層和深層神經網絡

Leetcode動態規劃（二）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數據挖掘與python實踐 |（一）引言

數據挖掘的產生、定義、流程

數據挖掘原因

數據挖掘定義

數據挖掘流程

數據挖掘的方法

​​​​​​​數據挖掘的應用

數據挖掘的應用