阿里雲大數據組件的基本介紹

注意：本文結合了本人對Hadoop生態和Spark的理解，閱讀本文需要對傳統的大數據組件有基本的認識和了解。本文不具備權威性，若要準確地瞭解阿里雲大數據組件的特性請直接查看阿里雲幫助文檔。

1 MaxCompute

1.1 簡介

MaxCompute大數據計算服務，原名爲ODPS（Open Data Processing Service），爲阿里雲的數據倉庫解決方案，提供大數據量（百TB、PB、EB）的結構化數據的存儲和計算服務。

總結：像 Hadoop 裏面的 HDFS + MapReduce。

1.2 分佈式

MaxCompute爲實現超大數據量的存儲以及計算性能，它底層採用分佈式存儲以及分佈式計算引擎。

總結：基本所有的大數據組件都是分佈式的，這一點沒啥好說。

1.3 計算模型

MaxCompute支持SQL、MapReduce、UDF（Java/Python）、Graph、基於DAG的處理、交互式、內存計算、機器學習等計算類型及MPI迭代類算法。

總結：SQL、MapReduce、UDF（Java/Python）這三點是像 Hive + Hadoop 的 MapReduce，沒什麼好說的，而 Graph 圖計算、基於DAG的處理、內存計算、機器學習等計算類型及MPI迭代類算法，這幾點 Spark 中也有類似的功能，總體來說支持的計算模型非常全面，融合了 Hadoop 和 Spark 的計算模型。

1.4 系統架構

總結：這個圖沒什麼好說的，只畫出了MaxCompute的一些接口、計算模型和功能，有點亂，沒有涉及MaxCompute的底層設計。

1.5 數據通道

首先我們要知道數據通道是幹嘛的？爲什麼需要數據通道？

MaxCompute主要的功能是存儲以及計算，原始的數據不會直接在MaxCompute中產生，需要從其他的數據庫或者導入數據文件到MaxCompute中才可以進行下一步的操作，而負責採集和傳輸數據的組件在阿里雲被稱爲數據通道，原始數據到MaxCompute的流向是這樣的：原始數據 -> 數據通道 -> MaxCompute。

MaxCompute支持的數據通道有兩個，分別是Tunnel（批量）和DataHub（實時），下面分開介紹。

Tunnel

Tunnel提供批量數據傳輸服務，提供高併發的離線數據上傳下載服務。支持每天TB/PB級別的數據導入導出，特別適合於全量數據或歷史數據的批量導入。Tunnel爲您提供Java編程接口，並且可以在MaxCompute的客戶端工具中，提供對應的命令實現本地文件與服務數據的互通。

總結：Tunnel適合離線的數據量大的場景。

DataHub

DataHub是針對實時數據上傳場景而設計的，它具有延遲低的特點，適用於增量數據的導入。DataHub還支持多種數據傳輸插件，例如Logstash、Flume、Fluentd、Sqoop等，同時支持日誌服務Log Service中的投遞日誌到MaxCompute，進而使用DataWorks進行日誌分析和挖掘。

總結：DataHub適合實時、增量數據導入的場景，功能類似於Kafka。

MaxCompute基本介紹總結：

MaxCompute提供分佈式的存儲以及計算服務，它融合了HDFS、MapReduce、Hive以及Spark的特性，支持的計算模型非常全面。

由於架構與Hadoop類似，響應速度較慢，不能用於流式數據的實時處理，主要應用於離線數據處理以及存儲以及機器學習模型的訓練等場景。

MaxCompute需要從其他的數據庫或者文件系統中導入數據，這就需要用到數據通道，MaxCompute支持的數據通道有兩個，Tunnel和DataHub，其中Tunnel用於離線的，數據量大的場景，DataHub適用於實時的，增量的場景。

還有一個與MaxCompute關係非常緊密的組件叫DataWorks，這個組件爲MaxCompute提供可視化的一站式的數據同步、業務流程設計、數據開發、管理和運維功能。其實DataWorks相當於阿里雲大數據的PaaS平臺，由於DataWorks不屬於MaxCompute中的組件所以會分開進行介紹。

2 Tunnel

2.1 場景

上面介紹MaxCompute的時候已經提到了，Tunnel是MaxCompute中的數據通道，主要用於離線場景的數據傳輸。

下面來介紹一下Tunnel的命令以及支持什麼類型的數據。

2.2 命令

Tunnel有Upload（上傳）、Download（下載）、Resume（續傳）、Show（顯示歷史任務信息）、Purge（清理session目錄）、help（獲取幫助信息）。

Upload：上傳本地數據至MaxCompute表中。支持文件或目錄（指一級目錄）的上傳，每一次上傳只支持數據上傳到一張表或表的一個分區。分區表一定要指定上傳的分區，多級分區一定要指定到末級分區。

Download：下載MaxCompute表或指定Instance執行結果至本地。只支持下載到單個文件，每一次下載只支持下載一張表或一個分區到一個文件。分區表一定要指定下載的分區，多級分區一定要指定到末級分區。

Resume：因爲網絡或Tunnel服務的原因造成上傳出錯，可以通過Resume命令對文件或目錄進行續傳。可以繼續上一次的數據上傳操作，但Resume命令暫時不支持下載操作。

Show：顯示歷史任務信息。

Purge：清理session目錄，默認清理3天內的日誌。

help：獲取幫助信息，每個命令和選擇支持短命令格式。

3 DataHub

3.1 簡介

DataHub是流式數據(Streaming Data)的處理平臺，提供對流式數據的發佈 (Publish)，訂閱 (Subscribe)和分發功能。

3.2 功能圖

以下是整體功能圖。

這個功能圖最顯眼的是最底下的飛天分佈式平臺，它是阿里雲大數據平臺的基礎，飛天分佈式平臺是類似於Hadoop生態的一個平臺，底層由女媧（Nuwa）高可用協調服務（Coordination Service）、夸父（Kuafu）遠程過程調用、鍾馗（Zhongkui）安全管理、盤古（Pangu）分佈式文件系統、伏羲（Fuxi）資源管理和任務調度、神農（Shennong）集羣監控、大禹（Dayu）集羣部署，這裏不展開介紹。

3.3 插件支持

DataHub還支持多種數據傳輸插件，例如Logstash、Flume、Fluentd、Sqoop等，同時支持日誌服務Log Service中的投遞日誌到MaxCompute。

3.4 應用場景

應用場景這裏官方文檔描述得非常籠統，以下是個人的一些理解。

DataHub服務基於阿里雲自研的飛天平臺，具有高可用，低延遲，高可擴展，高吞吐的特點。DataHub與阿里雲流計算引擎StreamCompute無縫連接，用戶可以輕鬆使用SQL進行流數據分析。

DataHub服務也提供分發流式數據到各種雲產品的功能，目前支持分發到MaxCompute(原ODPS)，OSS等。

結合上圖，我們可以看到DataHub可以訂閱網站日誌等數據發佈到ODPS、ADS、Stream Compute或第三方服務上，本質上就是一個類似於Kafka的消息隊列，主要用途是可以同時接入多種數據源，然後配合其他組件進行實時數據清洗和分析或者搭建實時數據倉庫。

實時通道

實時數據清洗和分析

實時數據倉庫

總結：DataHub服務基於阿里雲自研的飛天平臺，功能類似於Kafka，主要的功能是增量採集數據，主要應用場景是實時數據傳輸、實時分析系統、實時數倉等。

4 DataWorks

到目前爲止提及的都是MaxCompute的組件，下面介紹以下DataWorks，阿里雲非常非常重要的PaaS平臺。

4.1 簡介

DataWorks（數據工場，原大數據開發套件）是阿里雲重要的PaaS平臺產品，爲您提供數據集成、數據開發、數據地圖、數據質量和數據服務等全方位的產品服務，一站式開發管理的界面

DataWorks支持多種計算和存儲引擎服務，包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算（基於Flink）、機器學習PAI、圖計算服務Graph Compute和交互式分析服務等，並且支持用戶自定義接入計算和存儲服務。

可以使用DataWorks，對數據進行傳輸、轉換和集成等操作，從不同的數據存儲引入數據，並進行轉化和開發，最後將處理好的數據同步至其它數據系統。

4.2 功能

全面託管的調度

DataWorks提供強大的調度功能，詳情請參見調度配置。
- 支持根據時間、依賴關係，進行任務觸發的機制。詳情請參見配置時間屬性和依賴關係。
- 支持每日千萬級別的任務，根據DAG關係準確、準時地運行。
- 支持分鐘、小時、天、周和月多種調度週期配置。
完全託管的服務，無需關心調度的服務器資源問題。
提供隔離功能，確保不同租戶之間的任務不會相互影響。

DataWorks支持離線同步、新建Shell節點、ODPS SQL、ODPS MR等多種節點類型，通過節點之間的相互依賴，對複雜的數據進行分析處理。
- 數據轉化：依託MaxCompute強大的能力，保證了大數據的分析處理性能。
- 數據同步：依託DataWorks中數據集成的強力支撐，支持超過20種數據源，爲您提供穩定高效的數據傳輸功能。詳情請參見數據集成和支持的數據源與讀寫插件。
可視化開發
DataWorks提供可視化的代碼開發、工作流設計器頁面，無需搭配任何開發工具，簡單拖拽和開發，即可完成複雜的數據分析任務。詳情請參見界面功能點介紹。

只要有瀏覽器有網絡，您即可隨時隨地進行開發工作。
監控告警
運維中心提供可視化的任務監控管理工具，支持以DAG圖的形式展示任務運行時的全局情況，詳情請參見運維中心。

您可以方便地配置各類報警方式，任務發生錯誤可及時通知相關人員，保證業務正常運行。詳情請參見智能監控。

總結：DataWorks一個PaaS平臺，個人認爲PaaS平臺的核心功能是：可視化操作、租戶管理、數據集成、調度配置和監控警告。DataWorks不負責數據的存儲和計算，僅負責對多種數據源的接入配置、任務流程的配置、調度配置及程序監控。

5 RDS

5.1 簡介

阿里雲關係型數據庫RDS（Relational Database Service）是一種穩定可靠、可彈性伸縮的在線數據庫服務。基於阿里雲分佈式文件系統和SSD盤高性能存儲，RDS支持MySQL、SQL Server、PostgreSQL、PPAS（Postgre Plus Advanced Server，高度兼容Oracle數據庫）和MariaDB TX引擎，並且提供了容災、備份、恢復、監控、遷移等方面的全套解決方案，徹底解決數據庫運維的煩惱。

總結：爲多種傳統關係型數據庫提供可彈性伸縮的在線數據庫服務

6 DRDS

6.1 改名升級

分佈式關係型數據庫服務DRDS目前已品牌升級至雲原生分佈式數據庫PolarDB-X，PolarDB-X融合分佈式SQL引擎DRDS與分佈式自研存儲X-DB，專注解決海量數據存儲、超高併發吞吐、大表瓶頸以及複雜計算效率等數據庫瓶頸問題。

6.2 架構

PolarDB-X本質上就是把傳統的數據庫拆分，架構相對簡單，我們直接從架構開始分析。

PolarDB-X在業務架構體系中所處的位置如下圖所示。

這個圖有兩個很重要的關鍵字OLTP和OLAP，我們可以看到PolarDB-X是被劃爲OLTP數據庫，下面我們偏下題，先來說一下什麼是OLTP數據庫，什麼是OLAP數據庫。

OLTP(On-Line Transaction Processing)即聯機事務處理，就是我們經常說的關係數據庫，意即記錄即時的增、刪、改、查，就是我們經常應用的東西，這是數據庫的基礎。

OLAP(On-Line Analytical Processing)即聯機分析處理，是數據倉庫的核心部心，所謂數據倉庫是對於大量已經由OLTP形成的數據的一種分析型的數據庫，用於處理商業智能、決策支持等重要的決策信息。數據倉庫是在數據庫應用到一定程序之後而對歷史數據的加工與分析，是處理兩種不同用途的工具而已。

聯機分析處理主要通過多維的方式對數據進行分析、查詢和報表。它不同於傳統的聯機事物處理（OLTP）應用。OLTP應用主要是用來完成用戶的事務處理，如民航訂票系統、銀行儲蓄系統等，通常要進行大量的更新操作，同時對響應時間要求比較高。而OLAP應用主要是對用戶當前及歷史數據進行分析，輔助領導決策。其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等，主要是進行大量的查詢操作，對時間的要求不太嚴格。

目前常見的OLAP主要有基於多維數據庫的MOLAP(Multidimensional OLAP)、基於關係數據庫的ROLAP(Relational OLAP)和基於混合數據庫HOLAP(Hybrid OLAP)。在數據倉庫應用中，OLAP應用一般是數據倉庫應用的前端工具，同時OLAP工具還可以與數據挖掘工具、統計分析工具配合使用，增強決策分析功能。

名稱	描述	細節數據存儲位置	聚合後的數據存儲位置
ROLAP(Relational OLAP)	基於關係數據庫的OLAP實現	關係型數據庫	關係型數據庫
MOLAP(Multidimensional OLAP)	基於多維數據組織的OLAP實現	數據立方體	數據立方體
HOLAP(Hybrid OLAP)	基於混合數據組織的OLAP實現	關係型數據庫	數據立方體

6.3 內核架構

PolarDB-X提供1.0中間件形態，以及2.0一體化形態。

PolarDB-X 1.0中間件形態由計算層DRDS實例與存儲層私有定製RDS實例組成，通過掛載多個MySQL進行分庫分表水平拆分。

PolarDB-X 2.0一體化形態由多個節點構成，實例內部署多個節點進行水平擴展，每個節點閉環整合計算資源與存儲資源，運維管理更加便利。

如同大多數傳統單機關係型數據庫，PolarDB-X分爲網絡層、協議層、SQL解析層、優化層和執行層，其中優化層包含邏輯優化和物理優化，執行層包含單機兩階段執行、單機並行執行和多機並行執行，應用了多種傳統單機數據庫優化和執行技術。

6.4 應用場景

PolarDB-X非常適合面向擁有超高併發，大規模數據存儲的互聯網在線事務類業務。

總結：PolarDB-X（原名DRDS）是OLTP數據庫，擅長處理事務類業務。

7 ADB

7.1 簡介

如果沒記錯的話ADB以前的名字叫做ADS..

雲原生數據倉庫AnalyticDB MySQL版（簡稱ADB，原分析型數據庫MySQL版），是阿里巴巴自主研發的海量數據實時高併發在線分析雲計算服務，可以在毫秒級針對千億級數據進行即時的多維分析透視和業務探索。

在業務系統中，我們通常使用的是OLTP（On-Line Transaction Processing）數據存儲，例如MySQL和PostgreSQL等。上述關係數據庫系統擅長事務處理，能夠很好的支持頻繁數據插入和修改。一旦需要計算的數據量過大，例如數千萬甚至數十億條，或者需要進行非常複雜的計算，此時OLTP數據庫系統便力不從心了。這個時候，我們便需要OLAP系統來進行處理。

雲原生數據倉庫MySQL版（簡稱ADB MySQL版，原AnalyticDB for MySQL）是雲端託管的PB級高併發實時數據倉庫，是專注於服務OLAP領域的數據倉庫。在數據存儲模型上，採用關係模型進行數據存儲，可以使用SQL進行自由靈活的計算分析，無需預先建模。利用雲端的無縫伸縮能力，ADB MySQL版在處理百億條甚至更多量級的數據時真正實現毫秒級計算。

ADB MySQL版支持通過SQL來構建關係型數據倉庫。具有管理簡單、節點數量伸縮方便、靈活升降實例規格等特點，而且支持豐富的可視化工具以及ETL軟件，極大的降低了企業建設數據化的門檻。

ADB MySQL版爲精細化運營而生，實時洞現數據價值，持續推進企業數據化變革轉型。

總結：ADB是OLAP數據庫，擅長大數據量的實時查詢，不擅長事務。

7.2 應用場景

7.2.1 經典實時數倉場景

用戶可以通過數據傳輸DTS將關係型數據庫的業務表實時鏡像一份到分析型數據庫MySQL版，然後通過Quick BI拖拽式輕鬆生成報表，或者通過DataV快速定製您的企業實時數據大屏。

7.2.2 實時計算清洗迴流場景

用戶通常會將流計算清洗結果數據迴流至MySQL等單機數據庫，作爲報表庫來查詢使用。當單機數據量或者單表數據量非常大時，傳統的關係型數據庫會出現報表查詢卡頓的問題。分析型數據庫MySQL版能夠很好地解決卡頓問題，支持實時計算單表數據數高達千億條，快速查詢分析PB級實時報表，無需分庫分表。

7.2.3 ETL清洗迴流場景

大數據離線計算平臺MaxCompute、SparkSQL、Hadoop、E-MapReduce等平臺產品在清洗完數據後，由於報表查詢條件依然很複雜，運營報表需要鑽取，而單機數據庫受性能影響，無法完成數據查詢工作。此時需要一個像分析型數據庫MySQL版這樣非常強大的報表查詢引擎完成數據查詢工作。

常見的數據迴流工具有數據集成和業內開源產品Datax。

總結：常用於實時報表以及大屏展示的場景。

8 DMS

8.1 簡介

數據管理DMS支持統一管理MySQL、SQL Server、PostgreSQL、PolarDB、DRDS、OceanBase、Oracle等關係型數據庫，AnalyticDB、Data Lake Analytics、ClickHouse等OLAP數據庫，MongoDB、Redis等NoSQL數據庫。它是一種集數據管理、結構管理、用戶授權、安全審計、數據趨勢、數據追蹤於一體的數據管理服務。您可以使用數據管理服務實現易用的數據庫管理入口，讓數據更安全、管理更高效、數據價值更清晰。

8.2 功能

提供研發從線下環境結構設計到SQLreview到生產發佈的完整數據庫研發流程。
提供字段級別細粒度操作權限管控，所有用戶操作在線化、可溯源。
支持根據業務靈活配置結構設計、數據變更、數據導出等操作的審批流程。
統一研發與數據庫交互的入口，任何用戶都不再直接接觸數據庫賬號密碼也不需要頻繁切換數據庫連接進行管理。
通過平臺統一接入數據庫，員工無需接觸數據庫賬號訪問數據庫。
- 員工在平臺內通過流程審批開通庫、表、列的查詢、導出、變更權限,全部操作記錄可審計、可溯源。
- 單人單次查詢數據返回行數上限，每天查詢行數、次數上限等均支持靈活定義。
平臺自動檢測變更風險，DBA可根據經驗制定規範分級管控。
- 無風險操作輕流程或無流程審覈後，研發自助觸發平臺調度執行。
- 有風險操作審覈到DBA評估後，再觸發平臺調度執行。
- 語法正確性自動保障、變更類型識別、定時自動調度、反饋執行結果無需人肉半夜盯屏。

總結：DMS提供多種數據庫，包括關係型數據庫、OLAP數據庫及NoSQL數據庫的權限、賬號等集中管理。

9 OSS

9.1 簡介

對象存儲服務（Object Storage Service，OSS）是一種海量、安全、低成本、高可靠的雲存儲服務，適合存放任意類型的文件。容量和處理能力彈性擴展，多種存儲類型供選擇，全面優化存儲成本。

阿里雲對象存儲OSS（Object Storage Service）是阿里雲提供的海量、安全、低成本、高可靠的雲存儲服務。其數據設計持久性不低於99.9999999999%（12個9），服務可用性（或業務連續性）不低於99.995%。

OSS具有與平臺無關的RESTful API接口，您可以在任何應用、任何時間、任何地點存儲和訪問任意類型的數據。

您可以使用阿里雲提供的API、SDK接口或者OSS遷移工具輕鬆地將海量數據移入或移出阿里雲OSS。數據存儲到阿里雲OSS以後，您可以選擇標準存儲（Standard）作爲移動應用、大型網站、圖片分享或熱點音視頻的主要存儲方式，也可以選擇成本更低、存儲期限更長的低頻訪問存儲（Infrequent Access）、歸檔存儲（Archive）作爲不經常訪問數據的存儲方式。

9.2 應用場景

9.1 圖片和音視頻等應用的海量存儲

OSS可用於圖片、音視頻、日誌等海量文件的存儲。各種終端設備、Web網站程序、移動應用可以直接向OSS寫入或讀取數據。OSS支持流式寫入和文件寫入兩種方式。

9.2 網頁或者移動應用的靜態和動態資源分離

利用海量互聯網帶寬，OSS可以實現海量數據的互聯網併發下載。OSS提供原生的傳輸加速功能，支持上傳加速、下載加速，提升跨國、跨洋數據上傳、下載的體驗。同時，OSS也可以配合CDN產品，提供靜態內容存儲、分發到邊緣節點的解決方案。利用CDN邊緣節點緩存的數據，提升同一個文件，被同一地區客戶大量重複併發下載的體驗。

9.3 雲端數據處理

上傳文件到OSS後，可以配合媒體處理服務和圖片處理服務進行雲端的數據處理。

總結：OSS擅長存儲和處理視頻和圖片內容

10 Table Store

10.1 簡介

注意，表格存儲（Tablestore）以前被叫做OTS，不知道爲什麼阿里雲的組件改名這麼頻繁..

表格存儲（Tablestore）是阿里雲自研的面向海量結構化數據存儲的Serverless NoSQL多模型數據庫，被廣泛用於社交、物聯網、人工智能、元數據和大數據等業務場景。提供兼容HBase的WideColumn模型、消息模型Timeline以及時空模型Timestream，可提供PB級存儲、千萬TPS以及毫秒級延遲的服務能力。

總結：沒啥好說的，和HBase差不多

10.2 應用場景

10.2.1 元數據

用戶存儲海量的文檔、媒體文件等數據的同時，對文件元數據的存儲和分析不可或缺。此外，電商的訂單、銀行流水、運營商話費賬單也需要存儲及分析大量的元數據。表格存儲單表支持PB級存儲、千萬QPS，以及多種索引方式（全局二級索引、全文索引、倒排索引以及時空索引），滿足不同場景在線的不同的查詢需求，可以幫助您輕鬆實現高效的元數據管理。

10.2.2 消息數據

表格存儲自研的Timeline模型主要用於消息數據，能夠抽象出支撐海量Topic的輕量級消息隊列，可以存儲大量社交信息，包括IM聊天，以及評論、跟帖和點贊等Feed流信息，接口簡單易用。目前表格存儲Timeline模型已被應用在衆多IM系統中，例如支撐釘釘海量消息同步等。此外，表格存儲採用按量付費，能夠以較低的成本滿足訪問波動明顯、高併發、低延時的需求。

10.2.3 軌跡溯源

表格存儲提供了面向軌跡類場景的Timestream模型，可提供PB級存儲、千萬TPS以及毫秒級延遲的服務能力、以及多種索引方式（全局二級索引、全文索引、倒排索引以及時空索引）。使用表格存儲Timestream模型，您可以輕鬆管理、分析跑步、騎行、健走、外賣等軌跡數據。

10.2.4 科學大數據

多維網格數據是一種科學大數據，在地球科學領域（氣象、海洋、地質、地形等）應用非常廣泛，且數據規模也越來越大。相關的科學工作者有快速瀏覽數據的需求以及在線查詢的需求，查詢種類豐富、延遲要求高。表格存儲是一款阿里雲自研的分佈式NoSQL服務，可以提供超大規模的存儲容量，支撐超大規模的併發訪問和低延遲的性能，可以輕鬆解決科學大數據的海量存儲規模和查詢性能問題。

10.2.5 互聯網大數據

熱點新聞及娛樂八卦可以在短短數分鐘內，有數萬計轉發，數百萬的閱讀，如何能夠實時的把握民情並作出對應的處理對很多企業來說都是至關重要的。此外，商品在各類電商平臺的訂單量，用戶的購買評論也都對後續的消費者產生很大的影響。商家的產品設計者需要彙總統計和分析各類平臺的數據做爲依據，決定後續的產品發展，公司的公關和市場部門也需要根據輿情作出相應的及時處理。表格存儲單表提供PB級存儲、千萬QPS，以及多種索引方式，可以幫助您輕鬆實現百億級互聯網輿情存儲及分析。

10.2.6 物聯網

表格存儲單表提供PB級數據存儲規模，無需分庫分表，同時支持千萬QPS，可以輕鬆滿足IoT設備、監控系統等時序數據的存儲需求，大數據分析SQL直讀以及高效的增量流式讀接口讓數據輕鬆完成離線分析與實時流計算。