原创 EMR Spark-SQL性能極致優化揭祕 Native Codegen Framework

作者:周克勇,花名一錘,阿里巴巴計算平臺事業部EMR團隊技術專家,大數據領域技術愛好者,對Spark有濃厚興趣和一定的瞭解,目前主要專注於EMR產品中開源計算引擎的優化工作。背景和動機SparkSQL多年來的性能優化集中在Optimizer

原创 我們欠國內Spark開發者的,用一場擲地有聲的中文峯會來還

一年一度的全球Spark開發者頂級技術交流峯會——SPARK+AI SUMMIT 2020 將在6月22日如約而至。受全球疫情影響,往年盛大的現場實訓和演講全部放在了線上舉辦,規模反而更大:延長至5天,有200多個議題,4倍的trainin

原创 Spark Packages尋寶(一):簡單易用的數據準備工具Optimus

作者:李呈祥,花名司麟 ,阿里雲智能EMR團隊高級技術專家,Apache Hive Committer, Apache Flink Committer,目前主要專注於EMR產品中開源計算引擎的優化工作。Spark社區在Spark Packa

原创 Spark-TFRecord: Spark將全面支持TFRecord

編譯:江宇,阿里雲EMR技術專家。從事Hadoop內核開發,目前專注於機器學習、深度學習大數據平臺的建設。簡介:在機器學習領域,Apache Spark 由於其支持 SQL 類型的操作以及高效的數據處理,被廣泛的用於數據預處理流程,同時 T

原创 阿里雲發起首屆Spark “數字人體”AI挑戰賽 — 聚焦上班族脊柱健康

2020年 6月4日,首屆 Apache Spark AI智能診斷大賽在天池官網上線。Spark “數字人體” AI挑戰賽——脊柱疾病智能診斷大賽,聚焦醫療領域應用,召集全球開發者利用人工智能技術探索高效準確的脊柱退化性疾病自動診斷。現已面

原创 首屆 Apache Spark AI智能診斷大賽重磅來襲!

Spark“數字人體”AI挑戰賽——脊柱疾病智能診斷大賽介紹首屆 Apache Spark AI智能診斷大賽由阿里雲、Intel、Databricks 共同舉辦。Spark“數字人體”AI挑戰賽——脊柱疾病智能診斷大賽,召集全球開發者利用人

原创 SparkSQL與Hive metastore Parquet轉換

本文轉載自公衆號:大數據學習與分享Spark SQL爲了更好的性能,在讀寫Hive metastore parquet格式的表時,會默認使用自己的Parquet SerDe,而不是採用Hive的SerDe進行序列化和反序列化。該行爲可以通過

原创 5月21日 Spark 社區直播【Spark on Zeppelin】

主題:Spark on Zeppelin時間:5月21日 19:00參與方式:掃描下方海報二維碼加入釘釘羣或者屆時點擊直播間直接觀看(回看鏈接)https://developer.aliyun.com/live/2871講師介紹:章劍鋒(簡

原创 物化視圖在 SparkSQL 中的實踐

本文轉載自公衆號: 數據湖技術作者:馬駿傑什麼是物化視圖物化視圖主要用於預先計算並保存表連接或聚合等耗時較多的操作的結果,這樣,在執行查詢時,就可以避免進行這些耗時的操作,從而快速的得到結果。物化視圖使用查詢重寫(query rewrite

原创 招聘!招聘!招聘!計算平臺解決方案架構師專場

招聘職位:阿里雲智能事業羣-解決方案架構師-大數據及AI方向期望職級:P7工作地點:北京、杭州學歷要求:本科工作年限要求:五年簡歷發至[email protected]【團隊介紹】計算平臺是阿里巴巴集團數據平臺的基礎技術

原创 5月14日Apache Spark中國社區技術直播【Analytics Zoo上的分佈式TensorFlow訓練AI玩FIFA足球遊戲】

主題:Analytics Zoo上的分佈式TensorFlow訓練AI玩FIFA足球遊戲時間:2020.5.14 19:00參與方式:掃描下方海報二維碼加入釘釘羣或者屆時點擊直播間直接觀看(回看鏈接)https://developer.al

原创 4月29日Spark社區直播【用Analytics-Zoo實現基於深度學習的胸腔疾病AI診療輔助】

簡介:本次分享主要介紹如何利用Analytics Zoo和NIH胸部X光影像數據集,在Apache Spark集羣上實現基於深度學習的胸腔疾病分類,爲醫生提供端到端的胸腔疾病AI診療輔助。有興趣的同學,可以提前關注此開源項目:https:/

原创 Delta Lake Presto Integration & Manifests 機制

原文鏈接該功能與我們之前平臺化 Delta Lake 平臺化實踐(離線篇) 的很多工作都較爲相似,比如與 metastore 的集成,直接通過 manifest 讀取 delta 存活文件等。Delta Lake 在 0.5 之前只支持通過

原创 Spark在雲原生時代的發展

作者:邵賽賽轉載自公衆號:數據湖技術原文鏈接:https://mp.weixin.qq.com/s/dgLrh2GqnMu1rRqYpCtjoA前言在ABC (AI, BigData, Cloud)時代,傳統的大數據解決方案和廠商 (Clo

原创 阿里雲智能事業羣 EMR團隊招人啦!

團隊介紹阿里雲智能事業羣 EMR 是阿里巴巴計算平臺事業部的開源大數據生態體系核心技術團隊。我們以 Apache Hadoop 和 Spark爲核心打造一站式大數據分析平臺,在阿里雲上提供有競爭力的 E-MapReduce大數據上雲服務產品