Apache Hadoop 3.3.0發佈,正式支持騰訊雲對象存儲COS

近日,Apache Hadoop 3.3.0版本正式發佈,增加對騰訊雲對象存儲COS的支持。

Apache Hadoop 3.3.0是2020年Apache Hadoop 3.3系列的第一個版本,包含許多重要特性和增強功能,部分列舉如下:

  • ARM支持:這是第一個支持ARM體系結構的版本。

  • protobuf升級:由於protobuf-2.5.0版本壽命終止,將protobuf升級到3.7.1。

  • S3A功能增強:對S3A代碼做了許多功能上的增強,包括支持委託令牌(Delegation Token)、更好地處理404緩存、改進S3guard性能和彈性。

  • ABFS功能增強:解決實際使用中出現的問題並調整需要優化的地方,適當增加更多測試,改進文檔,尤其是故障排除的文檔。

  • 實現騰訊雲COS文件系統支持:騰訊雲是中國市場上排名第二的雲供應商,其對象存儲COS在中國雲用戶中得到了廣泛使用。COSN文件系統可在Hadoop中原生支持騰訊雲COS。

  • Java11運行時支持: Java 11運行時支持的開發工作已完成。

  • HDFS RBF穩定性改進:HDFS路由器現在已提供對安全性的支持,還包含許多錯誤修復和改進。

  • DNS解析以支持域名到IP服務: DFS客戶端可以使用單個域名來發現服務器(名稱節點/路由器/觀察者),而不必在配置中明確列出所有主機。

  • 機會容器(opportunistic containers)的調度:支持通過中央RM(YARN-5220)、分佈式調度(YARN-2877)以及基於實際節點利用率的容器調度(YARN-1011)和容器升級/降級(YARN-5085)來調度機會容器。

  • YARN應用程序的應用程序目錄:應用程序目錄系統爲YARN應用程序提供編輯和搜索界面。這提高了YARN在管理應用程序生命週期的可用性。

Hadoop是目前應用最爲廣泛的分佈式大數據處理框架,也是大數據處理領域事實上的標準。

大數據分析需要花費大量的計算和存儲資源。在傳統模式下,計算與存儲資源耦合度較高,一旦資源不夠,就需要對二者同時進行擴容。近年來,在雲計算的推動下,開發者逐漸開始採用雲上對象存儲,來實現計算與存儲的分離,進而提升資源的靈活性,並降低成本。

此次Hadoop新版本正式支持騰訊雲對象存儲COS,意味着後續開發者在基於Hadoop架構進行大數據分析時,能夠在不修改代碼的情況下,無縫高效地使用騰訊雲COS來處理海量數據讀寫任務。這在一定程度上標誌着騰訊雲對象存儲技術受到了Hadoop開源社區的認可。

騰訊雲對象存儲COS底層採用騰訊自研存儲引擎YottaStore,能夠實現單集羣理論管理百萬級節點和按需擴容,磁盤利用率達到 90% 以上。

“開發者在騰訊雲上可以使用彈性 MapReduce(EMR)計算,並直接使用騰訊雲對象存儲COS作爲後端存儲,整個過程都不需要額外添加代碼,更加方便和快捷。”騰訊雲對象存儲負責人介紹。

目前,小紅書、獵豹移動、珍愛網等公司都使用騰訊雲“EMR on COS”的計算與存儲分離模式來快速構建和部署大數據分析程序,以滿足企業大數據業務需求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章