數據挖掘
數據包含價值(value)和知識,而我們要做的事就是要提取知識數據
需要三部分:
1.存儲(系統課程)
2.管理(數據庫課程)
3.分析數據 ANALYZED (此數據挖掘課程的目標)
數據挖掘 ≈ 大數據 ≈ 預測分析 ≈ 數據科學 ≈ 機器學習
Data Mining ≈ Big Data ≈ Predictive Analytics ≈ Data Science ≈ Machine Learning
數據挖掘的定義
提取可行的來自(通常)非常大的信息數據集,是極其大熱的,很厲害的和有意思的學科。
extraction of actionable information from (usually) very large datasets, is the subject of extreme hype, fear, and interest
- 不僅僅是機器學習,但是其中一些是。並行化算法通常很重要。
描述方法(Descriptive methods)
找到人類可以解釋的模式來描述數據
比如:聚類 Clustering
預測方法 Predictive methods
使用一些變量來預測未知或其他變量的未來值
比如:推薦系統 Recommender systems
最好能夠結合機器學習,統計,人工智能,數據庫,但更爲關鍵的是
- 可伸縮性(大數據)
- 算法
- 計算架構
- 自動化處理
- 大數據
我們將學習挖掘不同類型的數據:
- 數據是高維的 high dimensional
- 數據是圖表
- 數據是無限/永無止境的
- 數據被標記
我們將學習使用不同的模型計算:
- MapReduce
- Streams and online algorithms 流和在線算法
- Single machine in-memory 單機內存
我們將解決的現實問題:
- 推薦系統
- 市場分析
- 垃圾郵件檢測
- 重複文件檢測
我們將學習各種“工具”:
- 線性代數(SVD,推薦系統,社區)
- 最優化(隨機梯度下降)
- 動態編程(頻繁項目集)
- 散列 Hashing (LSH,布隆過濾器)