數據挖掘(英語:Data mining),又譯爲資料探勘、數據採礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有着特殊關係性(屬於Association rule learning)的信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘是一種決策支持過程,它主要基於人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
知識發現過程由以下三個階段組成:(1)數據準備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
(以上來源:百度百科 http://baike.baidu.com/view/7893.htm)
數據挖掘領域10大挑戰性問題:
1.Developing a Unifying Theory of Data Mining ( 數據挖掘的統一理論框架的構建)
2.Scaling Up for High Dimensional Data/High Speed Streams (高維數據和高速數據流的挖掘)
3.Mining Sequence Data and Time Series Data (序列和時序數據的挖掘)
4.Mining Complex Knowledge from Complex Data (複雜數據中複雜知識的挖掘)
5.Data Mining in a Network Setting (網絡環境中的數據挖掘)
6.Distributed Data Mining and Mining Multi-agent Data (分佈式數據和多代理數據的挖掘)
7.Data Mining for Biological and Environmental Problems (生物和環境數據的挖掘)
8.Data-Mining-Process Related Problems ( 數據挖掘過程中的相關問題處理)
9.Security, Privacy and Data Integrity (數據挖掘中數據安全、數據所涉及到的隱私和數據完整性的維護)
10.Dealing with Non-static, Unbalanced and Cost-sensitive Data (非靜態、非平衡及成本敏感數據的