原创 Spark基於Yarn的兩種提交模式原理分析

Spark的三種提交模式 1.standalone模式,基於Spark自己的Master-Worker模式 2.基於YARN的yarn-cluster模式 3.基於YARN的yarn-client模式 yarn-cluster模式講解 1

原创 Canal架構及工作流程

Canal架構 Caner Server 一個Caner Server就代表一個canal運行實例,其對應於一個jvm 一個Caner Server同時對應着n個instance 一個instance對應着一個Mysql實例 Instan

原创 SequenceFile和MapFile特點及生成RDD

   定期分享源碼,總結相關知識點,哈哈哈,來關注啊 概括 Hadoop 的 HDFS 和 MapReduce 子框架主要是針對大數據文件來設計的,在小文件的處理上不但效率低下,而且十分消耗內存資源(每一個小文件佔用一個 Block,每

原创 spark textFille的分區和計算策略

幾種比較常見的RDD 正常開發中我們會經常用到下面的這幾種RDD textFile: 通過文本文件生成的RDD JDBCRDD: 讀取關係型數據庫所生成的RDD HBaseRDD: 讀取HBase所生成的RDD sequenceFile:

原创 spark rdd介紹

RDD介紹 RDD(Resilient Distributed Dataset,彈性分佈式數據集),是Spark最爲核心的概念。官方說法是RDD是隻讀的,分區記錄的集合。 RDD具體包含了一些什麼東西 rdd是一個類,它包含了數據應該