原创 CDH Vcores和DRF

CDH集羣調優:內存、Vcores和DRF yurnom2015年08月07日 1條評論1,124次瀏覽 吐槽 最近“閒”來無事,通過CM把vcores使用情況調出來看了一眼,發現不論集羣中有多少個任務在跑,已分配的VCo

原创 Spark SQL架構

通過執行計劃理解上圖 spark-sql (default)> explain extended > select > a.key*(4+5),

原创 Spark遷移Hive數據到MongoDB(UpdateSave|UpsertSave)

Hive emp表數據 hive (soul)> select * from emp; OK emp.empno emp.ename emp.job emp.age emp.deptno 7369 SMITH CLERK 24 1

原创 通過MySQL中元數據信息刪除Hive中的表

一、確定Hive中需刪除的表名(order_mulit_partition 分區表) hive (default)> desc formatted order_mulit_partition; OK col_name

原创 CDH優化

一、HDFS dfs.block.size HDFS中的數據block大小,默認是64M,對於較大集羣,可以設置爲128或264M dfs.datanode.socket.write.timeout/dfs.socket.

原创 自定義添加KAFKA服務啓動時報錯

自定義添加kafka服務參考地址 kafka安裝 kafka parcels版本如下:(下載地址 download) KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel KAFKA-2.2.0-1.2.2.

原创 Spark 用戶訪問量

需求 求用戶訪問量的top5 需求分析 1、拿到用戶 2、訪問量求和 2、反轉排序再反轉 一、讀取文件 val file=sc.textFile("/opt/data/page_views.dat") 二、使用tab鍵分割並拿

原创 CDH Upgrade 5.10.0-->5.11.0

官網Upgrading to CDH 5.6 Using Parcels 一、將CM 5.11.0和 CDH 5.11.0的parcels下載好,上傳至CM主機。 二、進入/val/www/html路徑創建5.10.0文件夾,將5

原创 Spark2啓動報錯

錯誤如下: [root@hadoop002 conf]# spark-shell --master local[2] Exception in thread "main" java.lang.NoClassDefFoundErro

原创 CDH 自定義添加Spark2服務

官網參考Installing Cloudera Distribution of Apache Spark 2 一 、下載 SPARK2_ON_YARN-2.2.0.cloudera1.jar SPARK2-2.2.0.cloud

原创 Spark SQL 整合Hive的使用

官網地址 點擊進入 Spark SQL官方釋義 Spark SQL is Apache Spark's module for working with structured data. 一、使用Spark SQL訪問Hive需要

原创 Streaming黑名單過濾(transform算子的使用)

原始數據: 20180808,zs 20180808,ls 20180808,ww 黑名單列表: zs ls 思路: 1、原始日誌可以通過Streaming直接讀取成一個DStream 2、名單通過RDD來模擬一份 邏輯實現: 1

原创 UpdateStateByKey算子

具體用法參考官網UpdateStateByKey Operation updateStateByKey操作允許您在使用新信息不斷更新時保持任意狀態。 要使用它,您必須執行兩個步驟。 定義狀態 - 這個狀態可以是任意的數據類型 定義狀

原创 SparkSQL groupBy的使用

實例1: 數據格式(消費者ID 消費時間 消費金額) 1 12:01 100 1 12:02 200 1 12:50 100 2 12:50 100 3 13:01 200 需求:統計每個小時,每個用戶的消費總額 思路步驟: 1、i

原创 Flink MongoDBSink

MongoUtils package com.soul.utils; import com.mongodb.MongoClient; import com.mongodb.MongoCredential; import com.mo