原创 使用 Jupiter Notebook 運行 Delta Lake 入門教程

本文的例子來自 Delta Lake 官方教程。因爲官方教程是基於商業軟件 Databricks Community Edition 構建,雖然教程中使用的軟件特性都是開源 Delta Lake 版本所具備的,但是考慮到國內的網絡環境,註冊

原创 使用spark-redis組件訪問雲數據庫Redis

本文演示了在Spark Shell中通過spark-redis組件讀寫Redis數據的場景。所有場景在阿里雲E-MapReduce集羣內完成,Redis使用阿里雲數據庫Redis。創建服務我們以EMR-3.21.0版本和Redis 4.0爲

原创 YARN NodeLabel功能以及在EMR彈性伸縮中的應用

YARN Node Label功能最早是在Hadoop 2.6版本中引入,在後續版本中有更多的功能完善。到了Hadoop 2.8.x版本之後,該功能已經比較完整,可以滿足日常使用。在本文中,我們需要將Node Label功能應用在EMR彈性