台部落開源大數據EMR

作者：周克勇，花名一錘，阿里巴巴計算平臺事業部EMR團隊技術專家，大數據領域技術愛好者，對Spark有濃厚興趣和一定的瞭解，目前主要專注於EMR產品中開源計算引擎的優化工作。背景和動機SparkSQL多年來的性能優化集中在Optimizer

2020-06-16 14:16:53

一年一度的全球Spark開發者頂級技術交流峯會——SPARK+AI SUMMIT 2020 將在6月22日如約而至。受全球疫情影響，往年盛大的現場實訓和演講全部放在了線上舉辦，規模反而更大：延長至5天，有200多個議題，4倍的trainin

2020-06-16 14:16:53

作者：李呈祥，花名司麟，阿里雲智能EMR團隊高級技術專家，Apache Hive Committer， Apache Flink Committer，目前主要專注於EMR產品中開源計算引擎的優化工作。Spark社區在Spark Packa

2020-06-12 17:28:50

編譯：江宇，阿里雲EMR技術專家。從事Hadoop內核開發,目前專注於機器學習、深度學習大數據平臺的建設。簡介：在機器學習領域，Apache Spark 由於其支持 SQL 類型的操作以及高效的數據處理，被廣泛的用於數據預處理流程，同時 T

2020-06-09 14:54:30

2020年 6月4日，首屆 Apache Spark AI智能診斷大賽在天池官網上線。Spark “數字人體” AI挑戰賽——脊柱疾病智能診斷大賽，聚焦醫療領域應用，召集全球開發者利用人工智能技術探索高效準確的脊柱退化性疾病自動診斷。現已面

2020-06-06 15:32:01

Spark“數字人體”AI挑戰賽——脊柱疾病智能診斷大賽介紹首屆 Apache Spark AI智能診斷大賽由阿里雲、Intel、Databricks 共同舉辦。Spark“數字人體”AI挑戰賽——脊柱疾病智能診斷大賽，召集全球開發者利用人

2020-05-22 09:04:47

本文轉載自公衆號：大數據學習與分享Spark SQL爲了更好的性能，在讀寫Hive metastore parquet格式的表時，會默認使用自己的Parquet SerDe，而不是採用Hive的SerDe進行序列化和反序列化。該行爲可以通過

2020-05-20 14:04:55

主題：Spark on Zeppelin時間：5月21日 19：00參與方式：掃描下方海報二維碼加入釘釘羣或者屆時點擊直播間直接觀看（回看鏈接）https://developer.aliyun.com/live/2871講師介紹：章劍鋒（簡

2020-05-19 16:38:57

本文轉載自公衆號：數據湖技術作者：馬駿傑什麼是物化視圖物化視圖主要用於預先計算並保存表連接或聚合等耗時較多的操作的結果，這樣，在執行查詢時，就可以避免進行這些耗時的操作，從而快速的得到結果。物化視圖使用查詢重寫（query rewrite

2020-05-19 00:41:34

招聘職位：阿里雲智能事業羣-解決方案架構師-大數據及AI方向期望職級：P7工作地點：北京、杭州學歷要求：本科工作年限要求：五年簡歷發至[email protected]【團隊介紹】計算平臺是阿里巴巴集團數據平臺的基礎技術

2020-05-14 14:28:22

主題：Analytics Zoo上的分佈式TensorFlow訓練AI玩FIFA足球遊戲時間：2020.5.14 19：00參與方式：掃描下方海報二維碼加入釘釘羣或者屆時點擊直播間直接觀看（回看鏈接）https://developer.al

2020-05-12 11:13:54

簡介：本次分享主要介紹如何利用Analytics Zoo和NIH胸部X光影像數據集，在Apache Spark集羣上實現基於深度學習的胸腔疾病分類，爲醫生提供端到端的胸腔疾病AI診療輔助。有興趣的同學，可以提前關注此開源項目：https:/

2020-04-27 15:58:59

原文鏈接該功能與我們之前平臺化 Delta Lake 平臺化實踐（離線篇) 的很多工作都較爲相似，比如與 metastore 的集成，直接通過 manifest 讀取 delta 存活文件等。Delta Lake 在 0.5 之前只支持通過

2020-04-27 12:27:04

作者：邵賽賽轉載自公衆號：數據湖技術原文鏈接：https://mp.weixin.qq.com/s/dgLrh2GqnMu1rRqYpCtjoA前言在ABC (AI, BigData, Cloud)時代，傳統的大數據解決方案和廠商 (Clo

2020-04-20 13:22:54

團隊介紹阿里雲智能事業羣 EMR 是阿里巴巴計算平臺事業部的開源大數據生態體系核心技術團隊。我們以 Apache Hadoop 和 Spark爲核心打造一站式大數據分析平臺，在阿里雲上提供有競爭力的 E-MapReduce大數據上雲服務產品

2020-03-30 15:32:18