原创 Hive Metasotore API (Java) 報錯

Hive Metasotore 依賴版本: 1.1.0 版本:報錯:java.lang.NoSuchMethodError: org.apache.hadoop.hive.shims.HadoopShims.getHadoopCo

原创 HiveSQL 中group by 、join轉MapReduce作業 過程詳解

Join SELECT e.empno,e.ename,e.deptno,d.dname FROM emp e join dept d WHERE e.deptno = d.deptno 先對數據進行切分(數據量大) 然後執行m

原创 spark streaming、kafka 內存調優、分區調優

spark Streaming 限速 spark.streaming.kafka.maxRatePerPartition 而在Direct Approach,則是通過參數 spark.streaming.kafka.maxRate

原创 面試-筆試 解答

SQL編程 題目 求每一位員工工作時長 公司每位員工打卡時間表A 員工工作時長表B 解答過程 -- 得到分組時間的最大值 下班時間 select a.id,a.`name`,a.time from (SELECT id,n

原创 YARN的Memory和CPU調優配置詳解

Hadoop YARN同時支持內存和CPU兩種資源的調度,本文介紹如何配置YARN對內存和CPU的使用。 YARN作爲一個資源調度器,應該考慮到集羣裏面每一臺機子的計算資源,然後根據application申請的資源進行分配Contai

原创 Hive統計當月和本季度的流量

原始數據 用戶 日期 流量 熊貓tv 2018-01-02 5 快手 2018-01-02 3 YY 2018-01-02 2 熊貓tv 2018-

原创 Kafka 單分區有序 怎麼做到全局有序

Kafka 單分區有序 怎麼做到全局有序 主要概念 Topics: 主題是一個發佈記錄的目錄或者概要名稱 broker :進程,一個kafka就是一個broker,多個brok可以組成一個集羣 consumer 一個組內共享一

原创 Flume 負載均衡和容錯實現原理及過程

Failover Sink Processor 與Load balancing Sink Processor Failover Sink:故障轉移 工作原理 發送消息失敗的接收器放入一個冷卻池中,並設定一個冷靜期.隨着重試失

原创 Spark Shuffle機制

Shuffle機制 所謂shuffle就是把不同節點上的數據按相同key值拉取到一個節點上,在這過程中會涉及到IO,所以執行速度會收到影響. shuffle發生在map 和reduce之前(也可以說是兩個stage之間)分爲shuff

原创 Spark內存管理 StaticMemoryManagement與UnifiedMemoryManagement

內存管理 MemoryManage 管理在Jvm內部的Spark整體的內存使用,按任務劃分爲存儲內存(StorageMemory)和執行內存(ExecutionMemory) Storage 緩存使用和數據傳輸(廣播) Execut

原创 NTP 時區+時間同步

一臺主機作爲server(時間服務器),其它機架作爲client(客戶機)從server同步時間 準備 安裝ntp和ntpdate yum install -y ntpdate yum install -y ntp serve

原创 Spark repartition與coalesce對分區的操作

repartition 重新洗牌RDD中的數據,以創建更多或更少的分區,並在它們之間平衡.這總是對網絡上的所有數據進行洗牌. coalesce(numPartitions) 將對RDD中的數據減少到numPartitio

原创 Spark序列化

默認沒有序列化(StorageLevel.MEMORY_ONLY) def main(args: Array[String]) { val sparkConf = new SparkConf() .setMa

原创 Hive MetaStore簡單剖析解析,持續整理中...

MetaStore 1.DBS :存數據庫信息 mysql> select * from DBS \G; *************************** 1. row ***************************

原创 Spark Streaming算子:foreachRDD(func)

背景 對流生成的每個RDD應用函數func。這個函數應該將每個RDD中的數據推送到外部系統,例如將RDD保存到文件中,或者通過網絡將其寫入數據庫。請注意,函數func是在運行流應用程序的驅動程序進程中執行的,其中通常會有RDD操作,