人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 2.大規模計算介紹,MapReduce介紹,Spark介紹

數據挖掘的大規模計算

商品硬件問題

挑戰：

您如何分配計算？
我們怎樣才能使分佈式的編寫變得容易程式？
機器故障：
- 一臺服務器可以使用3年（1,000天）
- 如果您有1,000臺服務器，則預計每天1臺存在問題
- 使用1M機器，每天有1000臺機器發生故障！

問題和解決方案

問題：通過網絡複製數據需要時間

理念：

將計算帶入數據
多次存儲文件以提高可靠性

Spark / Hadoop解決了這些問題

存儲基礎架構–文件系統
- Google：GFS。 Hadoop：HDFS
編程模型
- MapReduce
- Spark

存儲基礎架構

問題：

如果節點發生故障，如何持久存儲數據？

答：

分佈式文件系統
- 提供全局文件名稱空間 Provides global file namespace

典型用法：

巨大的文件（GB到TB的100s）
數據很少到位更新
閱讀和追加很常見

分佈式文件系統

塊服務器

文件分爲連續的塊
通常每個塊是16-64MB
複製的每個塊（通常爲2x或3x）
嘗試將副本保存在不同的機架中

主節點

亦稱Hadoop HDFS中的名稱節點
存儲有關文件存儲位置的元數據
可能被複制

用於文件訪問的客戶端庫

與主對話以查找塊服務器
直接連接到塊服務器以訪問數據
可靠的分佈式文件系統
數據以“塊”形式分佈在計算機之間
每個塊都在不同的計算機上覆制
從磁盤或計算機故障中無縫恢復

MapReduce是一種編程風格

設計用於：

簡單的並行編程
硬件和軟件的無形管理

失敗

輕鬆管理超大規模數據

它有幾種實現，包括Hadoop，Spark（在此類中使用），Flink和最初的Google實現只稱爲“ MapReduce”

3 steps of MapReduce

Map
Group by key
Reduce:

MapReduce範式

並行

模式

Spark

是最流行的數據流系統 Data-Flow Systems
彈性分佈式數據集
Resilient Distributed Dataset (RDD)

數據分析軟件棧架構

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 2.大規模計算介紹,MapReduce介紹,Spark介紹

數據挖掘的大規模計算

商品硬件問題

挑戰：

問題和解決方案

問題：通過網絡複製數據需要時間

理念：

Spark / Hadoop解決了這些問題

存儲基礎架構

問題：

如果節點發生故障，如何持久存儲數據？

答：

典型用法：

分佈式文件系統

塊服務器

主節點

用於文件訪問的客戶端庫

MapReduce是一種編程風格

設計用於：

失敗

3 steps of MapReduce

MapReduce範式

並行

Spark

數據分析軟件棧架構

人工智能教程 - 學科基礎課程2.6 - 機器學習導論 14.降維,數據壓縮,可視化數據,PCA簡介

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 7.在線算法,貪心算法,完美匹配

人工智能筆記之專業選修課4.1.5 - 博弈論 1.退避機制，博弈基本概念，重要元素，形式

人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

人工智能筆記之專業選修課4.1.5 - 博弈論 2.經典囚徒困境等經典博弈場景

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結