Virgin Hyperloop One如何使用Koalas將處理時間從幾小時降到幾分鐘--無縫的將pandas切換成Apache Spark指南

Virgin Hyperloop One(超級高鐵公司)是一家從事超級高鐵研究的公司,致力於能讓高鐵達到飛機的速度並且擁有更低的成本。爲了能夠製造一個商業的系統,我們需要收集並且分析非常大量的各種不同的數據,包括各種運行測試數據,多種模擬數據,技術設施數據,甚至社會經濟數據等等。我們之前絕大部分處理數據的代碼都是基於pandas使用python腳本來進行處理。之所以寫這篇文檔是因爲我們想分享我們如何使用Koalas在很少修改代碼的情況下來擴展我們的處理能力和節省大量處理時間的。

隨着我們的業務不斷的增長我們的數據量也在不斷的增長。我們的數據處理範圍越來越大,複雜程度越來越高,這導致我們基於pandas的python腳本越來越慢,知道慢到不能滿足我們的商業需求。所以我們調研了Spark,希望使用Spark能夠帶來更快的處理時間並且能夠

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章