Spark Packages尋寶(一):簡單易用的數據準備工具Optimus

作者:李呈祥,花名司麟 ,阿里雲智能EMR團隊高級技術專家,Apache Hive Committer, Apache Flink Committer,目前主要專注於EMR產品中開源計算引擎的優化工作。


Spark社區在Spark Packages網站中索引了許多第三方庫,這些第三方庫由不同的開發者貢獻,作爲Spark生態圈的一部分,擴充了Spark的使用範圍和使用場景,其中很多對於我們日常的使用可能有幫助,我們準備開啓一個系列文章介紹Spark Packages中一些有意思的第三方庫,作爲系列的第一篇,本文主要介紹Optimus,一個基於PySpark的簡單易用的數據準備工具。

本文的部分內容源自Optimus官網和相關介紹文章,原文鏈接參考文末引用部分。

在Spark(Pyspark)的支持下,Optimus允許用戶使用自己的或一組


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章