Alluxio簡單介紹

原創

2020-02-22 17:35

Alluxio 原名 tachyon。

Alluxio 是一個高容錯的分佈式文件系統，允許文件以內存的速度在集羣框架中進行可靠的共享，類似Spark和 MapReduce。通過利用lineage信息，積極地使用內存，Alluxio的吞吐量要比HDFS高300多倍。Alluxio都是在內存中處理緩存文件，並且讓不同的 Jobs/Queries以及框架都能內存的速度來訪問緩存文件。

特性：

類 Java 的文件 API
兼容性：實現 Hadoop 文件系統接口
可插入式的底層文件系統
內建 Raw 原生表的支持
基於 Web 的 UI
提供命令行接口

Alluxio 架構：

與 HDFS 的比較：

Hadoop足夠快嗎？美國加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Alluxio。AMPLab從底層重建了Hadoop平臺，“沒有最快，只有更快”。

AMPLab在大數據領域最知名的產品是Spark，它是一個內存中並行處理的框架，Spark的創造者聲稱：使用Shark運行並行處理Job速度要比MapReduce快100倍。又因爲Spark是在內存運行，所以Shark可與Druid或者SAP's HANA系統一較高下。Spark也爲ClearStory下一代分析和可視化服務提供處理引擎。如果你喜歡用Hive作爲Hadoop的數據倉庫，那麼你一定會喜歡Shark，因爲它代表了“Hive on Spark”。

AMPLab的最新目標就是Hadoop分佈式文件系統（HDFS），不過HDFS在可用性和速度方面一直受人詬病，所以AMPLab創建了Alluxio（在High Scalability上非常奪目，引起了Derrick Harris的注意）。

當然，AMPLab並不是第一個對HDFS提出質疑的組織，同時也有很多商業版本可供選擇，像Quantcast就自己開發了開源文件系統，聲稱其在運行大規模文件系統時速度更快、更高效。

誠然，AMPLab所做的工作就是打破現有商業軟件的瓶頸限制。如果碰巧破壞了現狀，那麼就順其自然吧！不過，對於用戶來說，AMPLab只是爲那些尋找合適工具的人員提供了一種新的選擇，AMPLab的合作伙伴和贊助商包括谷歌，Facebook，微軟和亞馬遜網絡服務，它們當然非常樂意看到這些新技術，如果很有必要的話。

AMPLab的其他項目包括PIQL，類似於一種基於鍵/值存儲的SQL查詢語言；MLBase，基於分佈式系統的機器學習系統；Akaros，一個多核和大型SMP系統的操作系統；Sparrow，一個低延遲計算集羣調度系統。

Janvn

發佈了28 篇原創文章 · 獲贊 32 · 訪問量 30萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Alluxio簡單介紹

-bash: ll: 未找到命令的原因和解決方法

wind10系統如何安裝Chocolatey

git commit 、CHANGELOG 和版本發佈的標準自動化

PyTricks:Functions are first-class citizens in Python

VS Code 玩轉 Jupyter Notebook 份完整教程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結