人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 1.介紹

數據挖掘

數據包含價值(value)和知識,而我們要做的事就是要提取知識數據

需要三部分:

1.存儲(系統課程)

2.管理(數據庫課程)

3.分析數據 ANALYZED (此數據挖掘課程的目標)

數據挖掘 ≈ 大數據 ≈ 預測分析 ≈ 數據科學 ≈ 機器學習

Data Mining ≈ Big Data ≈ Predictive Analytics ≈ Data Science ≈ Machine Learning

數據挖掘的定義

提取可行的來自(通常)非常大的信息數據集,是極其大熱的,很厲害的和有意思的學科。

extraction of actionable information from (usually) very large datasets, is the subject of extreme hype, fear, and interest

  • 不僅僅是機器學習,但是其中一些是。並行化算法通常很重要。

描述方法(Descriptive methods)

找到人類可以解釋的模式來描述數據

比如:聚類 Clustering

預測方法 Predictive methods

使用一些變量來預測未知或其他變量的未來值

比如:推薦系統 Recommender systems

最好能夠結合機器學習,統計,人工智能,數據庫,但更爲關鍵的是

  • 可伸縮性(大數據)
  • 算法
  • 計算架構
  • 自動化處理
  • 大數據
    在這裏插入圖片描述

我們將學習挖掘不同類型的數據:

  • 數據是高維的 high dimensional
  • 數據是圖表
  • 數據是無限/永無止境的
  • 數據被標記

我們將學習使用不同的模型計算:

  • MapReduce
  • Streams and online algorithms 流和在線算法
  • Single machine in-memory 單機內存

我們將解決的現實問題:

  • 推薦系統
  • 市場分析
  • 垃圾郵件檢測
  • 重複文件檢測

我們將學習各種“工具”:

  • 線性代數(SVD,推薦系統,社區)
  • 最優化(隨機梯度下降)
  • 動態編程(頻繁項目集)
  • 散列 Hashing (LSH,布隆過濾器)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章