MVP學院大數據專場之我見(上)

5月24 號在北京阿里中心舉行了一次MVP學院的大數據專場活動,邀請了阿里雲和優酷的技術專家進行了三場主題演講,其中有些內容令我印象深刻,曬出來供大家參考。

用AI來管理大數據

像阿里巴巴這個體量的公司,數據人才也是稀缺資源。假如用人肉的方式來管理和分析數據,一個分析師撐死能能管理上百個作業,服務幾十人的業務團隊。而假如用AI來輔助管理和分析數據,一個分析師能夠輕鬆管理上萬個作業,服務上千人的業務團隊。
不僅阿里巴巴集團自用的大數據平臺在擁抱AI,在阿里雲對外輸出的的Dataphin智能數據構建與管理平臺中,數據的連接和統一ID的萃取、數據分析代碼的生成、模型的和算法的優化都可以自動的完成。

構建技術生態

在會上,曾經在微軟工作過的阿里雲研究員結合自己的經歷提出了一個技術解決方案四個階段的理論:

  • 第一階段、基於業界有影響力的方案解決自身的問題,阿里巴巴最初的大數據計算是基於Oracle的,在Oracle無法滿足需求後分別切換到了GreenPlum和Hadoop,這些都是業界有影響力的方案。隨着業務的發展,這些方案都遇到了天花板,於是阿里巴巴開始進行自研系統的開發,在微軟、Google都有類似的情況。
  • 第二階段、自研核心系統,阿里巴巴開始自研大數據平臺ODPS,從2010年開始在阿里巴巴集團內部使用。
  • 第三階段、自研核心系統的對外輸出,ODPS從2013年開始對外提供商業服務,2016年ODPS2.0發佈,並將對外的名字改爲MaxCompute。
  • 第四階段、建立廣泛生態、以MaxCompute爲基礎,流計算平臺BLink、機器學習平臺PAI、大數據開發平臺DataWorks、數據智能產品QuickBI、數據可視化DataV等平臺和產品不斷擴展阿里雲大數據解決方案的適用領域。今天的阿里雲大數據解決方案就是一個小核心加一個大外圍組成的。

數據本身並不產生價值,計算才能產生價值

阿里的研究員在談到數據湖的時候表達了兩條個人觀點:
數據本身並不產生價值,計算才能產生價值。
自從大數據這個概念火起來之後,各種大數據平臺建的多成功的少,問題可能就出在這個地方,將數據存儲起來並不能產生價值,只有針對這些數據的挖掘和計算才能產生價值,數據存儲在哪裏並不是核心問題,因此纔有:
計算的下推比數據的上報能夠更加高效的獲取價值。
這麼看物理的數據湖可能有些問題,但邏輯的數據湖是有價值的,阿里雲的數據湖解決方案就是通過統一的管理分散在各種存儲介質上的數據以及統一分配和調度計算工作來實現邏輯數據湖的。
限於個人時間和精力,這次就分享這麼多,下次給大家分享大數據平臺最佳實踐相關的內容。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章