在Hadoop生態系統中,規模最大、知名度最高的公司則是Cloudera。2018年與世界大數據巨頭Hortonworks合併,2019年被Cloud Report中評爲大數據和Spark的領跑者。這麼厲害的廠商,它裏面都有些什麼軟件呢?我們一起來看看吧!
首先我們需要了解今天介紹的軟件主要分爲Cloudera的兩條產品線:CDP和CDF。CDP是Cloudera Data Platform的簡稱,下面又分了很多產品,今天主要介紹CDP Data Center、CDP Data Hub、Cloudera Enterprise Data Hub、Cloudera Machine Learning和Cloudera Data Warehouse五款產品;而CDF就是Cloudera Data Flow的簡稱了。
CDP Data Center
Cloudera Data Platform (CDP) Data Center是用於從Edge到AI的集成分析的最全面的本地平臺,涵蓋了攝取,處理,分析,實驗和部署。它結合了Cloudera Enterprise Data Hub和HDP Enterprise Plus的優點,融合了最新和最出色的開源數據管理和分析技術,可以集成在一起工作,並針對數據中心內的部署進行了優化。
產品優勢
結合HDP和EDH優點
靈活部署
計算任務與數據存儲分開,可從遠程集羣訪問數據。這種混合方法通過管理存儲,表架構,身份驗證,授權和治理爲容器化應用程序提供了基礎。實時流處理
CDP數據中心在使用Apache Kafka處理和轉換流數據時具有極大的可伸縮性,並具有強大的流管理功能。可定製專屬服務
由Apache HDFS和Apache Hive 3以及許多其他用於特殊工作負載的組件組合而成。您可以選擇這些服務的任意組合來創建滿足您的業務需求和工作負載的集羣。CDP Data Hub
Cloudera Data Hub是Cloudera Data Platform(CDP)上的一項功能強大的雲服務,通過企業安全性,治理,擴展和控制,可以更輕鬆,安全,更快地構建現代的,關鍵任務,數據驅動的應用程序。原生雲服務由一套集成的開源技術提供支持,該技術可提供最廣泛的分析工作。
產品優勢
加快方案部署速度
減輕風險
Data Hub減輕與技術發展,供應商法規遵從性等相關的風險。它消除了昂貴數據中心硬件上的CAPEX需求,併爲每個數據中心環境提供端到端的安全性和治理,併爲任務關鍵型項目提供優化的SLA 。企業級安全性
數據中心可提供企業級安全性,包括內置的聯合身份管理;支持加密的雲存儲服務和附加捲;安全,無密鑰地訪問雲提供商的存儲和計算以及所有控制流量和數據路徑的自動有線加密等。使用更靈活
Data Hub支持雲原生架構,其中數據與計算基礎架構分離,數據交付層從原始數據中提取。這種分離的體系結構顯着提高了靈活性,敏捷性,數據保護和規模。Cloudera Enterprise Data Hub
Cloudera Enterprise Data Hub是一款用於數據驅動的雲優先型企業的平臺。適用於任何雲上的多功能分析,並且具有可應用於任何地方的一致性安全和治理。您可以訪問當前隱藏在數據中的無限未開發的機會。也將從靜態數據和動態數據中獲得無與倫比的價值,讓您在更大和更深入的環境中探索您的數據。
產品優勢
隨時隨地構建AI解決方案
優化的數據倉庫
爲應對現代數據挑戰,併爲您所需的各種高價值BI和分析用例提供機會,補充了不再能經濟高效地滿足這些新需求的傳統數據倉庫。廣泛的分析引擎套件
Cloudera提供了一套集成的分析引擎套件,範圍從流和批處理數據到數據倉庫,運營數據庫和機器學習。Cloudera SDX應用一致的安全性和治理,使用戶可以共享和發現數據以供跨工作負載使用。在開源創新的推動下,Cloudera的數據平臺提供了最大的靈活性,因此您可以專注於數據,應用程序和業務。Cloudera Machine Learning
Cloudera Machine Learning使團隊可以立即部署機器學習工作空間,這些工作空間可以自動擴展以適應他們的需求,並可以通過使用kubernetes自動掛起以節省成本。 所有這些都打包成可移植的體驗,多個團隊成員可以輕鬆訪問這些體驗,以在整個組織中提供一致的體驗。
產品優勢
自助式數據訪問
全面,凝聚的用戶體驗
商業ML需要數據工程,模型培訓和實驗跟蹤,以及在生產中部署和管理模型。Cloudera機器學習爲團隊提供一個在一個緊密結合的環境中完成所有工作的工具,而無需切換或縫合。便捷的ML工作區
Cloudera Machine Learning使管理員只需單擊幾下即可爲團隊部署新的機器學習工作區,使數據科學團隊無需等待即可訪問端對端ML所需的項目環境和資源。Cloudera Data Warehouse
Cloudera Data Warehouse是一種自動擴展,高度併發且具有成本效益的分析服務,可從結構化,非結構化和邊緣源隨時隨地提取大規模數據。它通過在內部部署和任何雲之間無縫移動工作負載以支持報表和儀表板,即席和高級分析(包括AI),並具有一致的安全性和治理,從而支持混合和多雲基礎架構模型。
產品優勢
優化工作負載
自動擴展
通過自動擴展,可以擴展和縮減虛擬倉庫實例,以便它們可以滿足您不斷變化的工作負載需求,並在不需要時節省雲資源成本。自動配置和隔離
自動配置每個數據倉庫和數據集市,可以調整一些設置來滿足您的需求。使用之後,您可以輕鬆地將嘈雜的鄰居工作負載卸載到它的Virtual Warehouse實例中,以便其他租戶可以訪問足夠的計算資源以使其工作負載完成並滿足其SLA。混合雲和多雲
利用從本地到任何雲的任一位置組合任一數據,從而幫助一起管理所有類型的工作負載。混合和多雲部署模型可確保所有分析工作負載快速,大規模地執行,而不管工作負載和用戶數量如何。Cloudera DataFlow
Cloudera DataFlow(CDF),以前稱爲Hortonworks DataFlow(HDF),是一個可擴展的實時流分析平臺,它可以攝取、組織和分析數據,以獲取關鍵洞察和即時的可操作情報。
產品優勢
減少數據集成開發時間
快速獲取實時見解
使用流媒體平臺Apache Kafka,CDF每秒可處理數百萬筆交易,識別關鍵模式,與機器學習模型進行比較,並提供預測性/規範性分析,幫助業務領導者做出關鍵決策並抓住機遇。安全無縫傳輸數據
使用帶有Minifi的NiFi輕鬆地從邊緣傳輸數據,從而建立廣泛分佈的IoT部署模型以進行區域數據收集。與Apache Ranger的緊密集使CDF提供跨移動數據和靜態數據的無縫安全性。開箱即用的合規性
CDF是業內唯一提供開箱即用的數據出處和從邊緣到企業的數據治理的產品。CDF中的NiFi無需任何額外的配置或設置即可提供數據來源跟蹤。通過與Apache Atlas的緊密集成,您可以完全控制從邊緣到企業的數據。