原创 9.spark 指定相關的參數配置 num-executor executor-memory executor-cores

num-executors參數說明:該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時,YARN集羣管理器會盡可能按照你的設置來在集羣的各個工作節點上,啓動相應數量的Exec

原创 3.Kafka整體結構圖、Consumer與topic關係、Kafka消息分發、Consumer的負載均衡、Kafka文件存儲機制、Kafka partition segment等(來自學習資料)

1. Kafka整體結構圖 Kafka名詞解釋和工作方式  Producer :消息生產者,就是向kafka broker發消息的客戶端。 Consumer :消息消費者,向kafka broker取消息的客戶端 Topic :可以

原创 4.6docker基礎詳細版--Dockerfile詳解

Dockerfile的指令格式 指令格式有兩種:註釋和指令 註釋以井號開頭,後面跟上信息 指令以大寫的指令名開頭,後面跟上參數 常見的指令 FROM 兩種形式如下: FROM <IMAGE> FROM <IMAGE>:<TAG>

原创 1.mysql中的左連接、內連接、右連接和全連接理解

內連接(INNER JOIN)(典型的連接運算,使用像   =   或   <>   之類的比較運算符)。包括相等連接和自然連接。 內連接使用比較運算符根據每個表共有的列的值匹配兩個表中的行 左連接(LEFT   JOIN   或   L

原创 10.spark executor

spark executorExecutor是spark任務(task)的執行單元,運行在worker上,但是不等同於worker,實際上它是一組計算資源(cpu核心、memory)的集合。一個worker上的memory、cpu由多個e

原创 7.spark mapPartition方法與map方法的區別

rdd的mapPartitions是map的一個變種,它們都可進行分區的並行處理。    兩者的主要區別是調用的粒度不一樣:map的輸入變換函數是應用

原创 1.hive的行列轉換

1、建表[sql] view plain copy create table if not exists temp.lateral_test  (id    string,     value string  )    ROW forma

原创 2.Kafka中topic的Partition,Kafka爲什麼這麼快,Consumer的負載均衡及consumerGroup的概念(來自學習筆記)

1.1. Kafka中topic的Partition  在Kafka文件存儲中,同一個topic下有多個不同partition,每個partition爲一個目錄,partiton命名規則爲topic名稱+有序序號,第一個partiton

原创 4.3docker基礎詳細版--docker的C/S模式及遠程訪問

docker C/S模式 server-client docker的C/S模式結構可以如下圖: docker 的守護進程即server端運行在宿主機上,守護進程在啓動後一直在後端運行,而用戶不會直接和守護進程交互,而是和docker的客戶

原创 4.Kafka Producer機制優化-提高發送消息可靠性

名稱解釋: Broker:負責消息的存儲和轉發,也可以叫消息中介節點 Topic:每種消息的分類叫做主題(Topic)。 Partition:每一個Topic被切分爲多個Partitions。 背景 Producer構造Message對象

原创 5.kafka確保數據不丟失討論

點贊 收藏 分享 文章舉報 挨踢正能量 發佈了13 篇原創文章 · 獲贊 25 · 訪問量 5萬+ 私信 關注

原创 4.1docker基礎詳細版--1.docker初識

什麼是docker docker是一個容器引擎,提供了一整套完整的容器解決方案。它是在2014年最火熱的開源項目,基於Apache2.0開原協議,由Go語言開發。 什麼是容器 容器其實歷史比較久遠,Linux上的LXC、Solaris上的

原创 4.4docker基礎詳細版--在容器中部署靜態網站

利用docker技術在容器中使用nginx部署一個靜態網站。 容器的端口映射 在使用run的時候指定-p或-P來進行端口映射: -P:將爲容器暴露的所有端口進行映射 eg:docker run -P -it centos /bi

原创 4.5docker基礎詳細版--docker鏡像相關

什麼是docker鏡像 docker鏡像是使用聯合加載技術實現的層疊的只讀文件系統,它是容器構建的基石。 docker鏡像的存儲位置可以通過docker info來查看: 列出鏡像 命令: docker images [OPTIONS]

原创 8.spark 體驗點滴- executor 數量 和task 並行數

一.指定spark executor 數量的公式executor 數量 = spark.cores.max/spark.executor.coresspark.cores.max 是指你的spark程序需要的總核數spark.execut