關於阿里雲大數據計算服務MaxCompute的詳細內容:阿里雲大數據計算服務MaxCompute使用教程
(MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、完全託管的PB級數據倉庫解決方案,使您可以經濟並高效的分析處理海量數據。)
如果您是 MaxCompute 初學者:
如果您是初學者,建議您從如下模塊開始讀起:
- 簡介: MaxCompute 產品的總體介紹以及包含的主要功能。通過閱讀該章節,您會對 MaxCompute 有一個總體的認識。
- 快速開始:通過示例,指導您如何進行申請賬號、安裝客戶端、創建表、授權、導入導出數據、運行 SQL 任務、運行 UDF/Mapreduce 程序等操作。
- 基本介紹:MaxCompute 的基本概念及常用命令介紹。您可以進一步熟悉如何操作 MaxCompute。
- 工具:在分析數據之前,您需要掌握 MaxCompute 常用工具的下載,配置以及使用方法。我們提供以下客戶端工具:
- Clinet:您可以通過此工具對 MaxCompute 進行操作。
建議您熟悉以上的模塊後,再有針對性地對其他模塊進行深入學習。
如果您是數據分析師,建議您熟讀 SQL 模塊:
- SQL:您可以查詢並分析存儲在 MaxCompute 上的大規模數據。包含的主要功能如下:
- 支持 DDL 語句,您可以通過 Create、Drop 和 Alter 對錶和分區進行管理。
- 您可以通過 Select 選擇表中的某幾條記錄;通過 Where 語句查看滿足條件的記錄,實現過濾功能。
- 您可以通過等值連接 Join 實現兩張表的關聯。
- 您可以通過對某些列 Group By,實現聚合操作。
- 您可以通過 Insert overwrite/into 把結果記錄插入到另一張表中。
- 你可以通過內置函數和自定義函數(UDF)來實現一系列的計算。
如果您擁有一定的開發經驗,瞭解分佈式概念,並且某些數據分析可能無法用 SQL 來實現,此時推薦您學習 MaxCompute 更高級的功能模塊。如下所示:
- MaxCompute:MaxCompute 提供的 Java MapReduce 編程模型。您可以使用 MapReduce 提供的接口(Java API)編寫 MapReduce 程序,處理 MaxCompute 中的數據。
- Graph:一套面向迭代的圖計算處理框架。使用圖進行建模,圖由點(Vertex)和邊(Edge)組成,點和邊包含權值(Value)。通過迭代對圖進行編輯、演化,最終得出結果。
- Eclipse Plugin:方便您使用 MapReduce,UDF 以及 Graph 的 Java SDK 進行開發工作。
- Tunnel :您可以使用 Tunnel 服務向 MaxCompute 批量上傳離線數據或者從 MaxCompute 下載離線數據。
- SDK:
- Java SDK:向開發者提供 Java 接口。
- Python SDK:向開發者提供 Python 接口。
注意:
目前MapReduce 以及Graph 功能仍處於公測中,若您想使用這部分功能,可以通過工單系統提交申請。申請時請指明您的項目空間名稱,我們會在 7 個工作日內處理。
如果您是一個項目空間的 Owner 或者管理員,您需要熟知以下模塊:
- 安全指南:您可以通過閱讀該章節,瞭解如何進行給用戶授權、跨項目空間的資源共享、設置項目空間的數據保護功能、policy 授權等操作。
- MaxCompute 收費指南:介紹 MaxCompute 的收費模式。
- 以及部分只有項目空間 Owner 才能使用的命令,例如:常用指令 中 其他操作 的SetProject 操作。
內容導讀:
課時1:客戶端配置以及基本命令介紹
課時2:SQL基本操作介紹
課時3:tunnel命令操作介紹
課時4:MaxCompute與主流關係數據庫DDl基本語法差異
課時5:MaxCompute Studio安裝配置說明
更多精品課程:
阿里雲大學官網(阿里雲大學 - 官方網站,雲生態下的創新人才工場)