原创 CDH Vcores和DRF
CDH集羣調優:內存、Vcores和DRF yurnom2015年08月07日 1條評論1,124次瀏覽 吐槽 最近“閒”來無事,通過CM把vcores使用情況調出來看了一眼,發現不論集羣中有多少個任務在跑,已分配的VCo
原创 Spark SQL架構
通過執行計劃理解上圖 spark-sql (default)> explain extended > select > a.key*(4+5),
原创 Spark遷移Hive數據到MongoDB(UpdateSave|UpsertSave)
Hive emp表數據 hive (soul)> select * from emp; OK emp.empno emp.ename emp.job emp.age emp.deptno 7369 SMITH CLERK 24 1
原创 通過MySQL中元數據信息刪除Hive中的表
一、確定Hive中需刪除的表名(order_mulit_partition 分區表) hive (default)> desc formatted order_mulit_partition; OK col_name
原创 CDH優化
一、HDFS dfs.block.size HDFS中的數據block大小,默認是64M,對於較大集羣,可以設置爲128或264M dfs.datanode.socket.write.timeout/dfs.socket.
原创 自定義添加KAFKA服務啓動時報錯
自定義添加kafka服務參考地址 kafka安裝 kafka parcels版本如下:(下載地址 download) KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel KAFKA-2.2.0-1.2.2.
原创 Spark 用戶訪問量
需求 求用戶訪問量的top5 需求分析 1、拿到用戶 2、訪問量求和 2、反轉排序再反轉 一、讀取文件 val file=sc.textFile("/opt/data/page_views.dat") 二、使用tab鍵分割並拿
原创 CDH Upgrade 5.10.0-->5.11.0
官網Upgrading to CDH 5.6 Using Parcels 一、將CM 5.11.0和 CDH 5.11.0的parcels下載好,上傳至CM主機。 二、進入/val/www/html路徑創建5.10.0文件夾,將5
原创 Spark2啓動報錯
錯誤如下: [root@hadoop002 conf]# spark-shell --master local[2] Exception in thread "main" java.lang.NoClassDefFoundErro
原创 CDH 自定義添加Spark2服務
官網參考Installing Cloudera Distribution of Apache Spark 2 一 、下載 SPARK2_ON_YARN-2.2.0.cloudera1.jar SPARK2-2.2.0.cloud
原创 Spark SQL 整合Hive的使用
官網地址 點擊進入 Spark SQL官方釋義 Spark SQL is Apache Spark's module for working with structured data. 一、使用Spark SQL訪問Hive需要
原创 Streaming黑名單過濾(transform算子的使用)
原始數據: 20180808,zs 20180808,ls 20180808,ww 黑名單列表: zs ls 思路: 1、原始日誌可以通過Streaming直接讀取成一個DStream 2、名單通過RDD來模擬一份 邏輯實現: 1
原创 UpdateStateByKey算子
具體用法參考官網UpdateStateByKey Operation updateStateByKey操作允許您在使用新信息不斷更新時保持任意狀態。 要使用它,您必須執行兩個步驟。 定義狀態 - 這個狀態可以是任意的數據類型 定義狀
原创 SparkSQL groupBy的使用
實例1: 數據格式(消費者ID 消費時間 消費金額) 1 12:01 100 1 12:02 200 1 12:50 100 2 12:50 100 3 13:01 200 需求:統計每個小時,每個用戶的消費總額 思路步驟: 1、i
原创 Flink MongoDBSink
MongoUtils package com.soul.utils; import com.mongodb.MongoClient; import com.mongodb.MongoCredential; import com.mo