原创 Flink入門 04.原理初探

1   Flink角色分工 在實際生產中,Flink 都是以集羣在運行,在運行的過程中包含了兩類進程。 JobManager 它扮演的是集羣管理者的角色,負責調度任務、協調 checkpoints、協調故障恢復、收集 Job 的

原创 Flink Application Mode

隨着流式計算的興起,實時分析成爲現代商業的利器。越來越多的平臺和公司基於Apache Flink 構建他們的實時計算平臺,並saas化。 這些平臺旨在通過簡化應用的提交來降低最終用戶的使用負擔。通常的做法是,會提供一個諸如管理平臺的we

原创 Yarn 調度器

YARN是雙層調度範式,YARN Scheduler是YARN的主調度器,YARN Scheduler有多種實現,每一種對應了不同的調度策略,如常見的FIFO Scheduler,Fair Scheduler、Capacity Sche

原创 Spark ML機器學習庫評估指標示例

本文主要對 Spark ML庫下模型評估指標的講解,以下代碼均以Jupyter Notebook進行講解,Spark版本爲2.4.5。模型評估指標位於包org.apache.spark.ml.evaluation下。 模型評估指標是指測試

原创 Ambari HDP 下 SPARK2 與 Phoenix 整合

1、環境說明 操作系統 CentOS Linux release 7.4.1708 (Core) Ambari 2.6.x HDP 2.6.3.0 Spark 2.x Phoenix 4.10.0-HBase-1.

原创 CentOS7 Cloudera Manager6 完全離線安裝 CDH6 集羣

本文是在CentOS7.4 下進行CDH6集羣的完全離線部署。CDH5集羣與CDH6集羣的部署區別比較大。 說明:本文內容所有操作都是在root用戶下進行的。 文件下載 首先一些安裝CDH6集羣的必須文件要先在外網環境先下載好。 Cloud

原创 IDEA設置

設置鼠標滑輪修改字體大小 然後按住 Ctrl + 滑輪,就可改變字體大小 設置自動導包/刪包功能 顯示代碼行號和方法間分隔符 設置鼠標懸浮提示 設置忽略大小寫提示 設置文件多行顯示 設置字體、大小、行間距 設置編碼區和控制檯字