原创 從源碼分析spark-submit作業提交流程(2.4.4)
一、spark-submit腳本內容分析 if [ -z "${SPARK_HOME}" ]; then source "$(dirname "$0")"/find-spark-home fi # disable rando
原创 Linux文本搜索(三)之 awk
AWK 一般用於對文本內容進行統計、按需要的格式進行輸出 AWK腳本的流程控制 輸入數據前例程BEGIN{} 主輸入循環{} 所有文件讀取完成例程END{} AWK的字段 每行稱作AWK的記錄 使用分隔符(默認是空格)分
原创 mysqlbinlog: [ERROR] unknown variable 'default-character-set=utf8mb4'
問題:使用mysqlbinlog工具查看MySQL的binlog日誌時出現如下錯誤 bigdata:mysqladmin:/usr/local/mysql/arch:>mysqlbinlog mysql-bin.000001 >
原创 HBase 之Rowkey設計
Rowkey的作用 Rowkey用於標識唯一的行 HBase中的數據都是根據Rowkey的字典序存儲的,比如memstore中的數據和HFile中的數據 讀寫數據都需要通過Rowkey來定位Region Rowkey的設計原則
原创 Hadoop支持lzo壓縮且支持分片
一、支持lzo壓縮 安裝 lzop native library [root@bigdata ~]# yum -y install lzo-devel zlib-devel gcc autoconf automake
原创 Linux文本搜索(一)之 grep、find
一、常用元字符簡介 字符 功能 \ 轉義字符 . 匹配除換行符(\n、\r)之外的任意一個字符 * 匹配前面的子表達式零次或多次 + 匹配前面的子表達式一次或多次 ? 匹配前面的子表達式零次或一次
原创 Linux文本搜索(二)之 sed
sed 一般用於對文本內容做替換 1. 基本使用 sed的基本工作方式 將文件以行爲單位讀取到內存(模式空間) 使用sed的每個腳本對該行進行操作 處理完成後輸出該行 sed的替換命令s: sed ‘s/old/
原创 JUC之創建線程的四種方式
一、繼承Thread類 通過自定義類繼承Thread類來創建 class MyThread extends Thread { @Override public void run() { for (i
原创 Hive源碼編譯支持UDF
一、準備源碼 下載 [hadoop@bigdata source]$ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1-src.tar.gz
原创 Hive SQL 之 數據庫
1、 Hive 中的數據庫本質是一個目錄,通常數據庫保存在hive.metastore.warehouse.dir所指定的目錄下,以.db爲後綴,例如testDB.db,該數據庫中的表以這個數據庫目錄的子目錄存在。 注:defa
原创 windows下IDEA本地運行MapReduce
github下載對應版本的hadoop.dll 和 winutils.exe 下載地址 配置環境變量 步驟1下載的東西放到這個目錄裏面, 在Path中添加如下 IDEA創建Maven項目 pom文件 <properties
原创 Hive之實現累加
一、需求 有如下數據 gifshow.com 2019/01/01 5 yy.com 2019/01/01 4 huya.com 2019/01/01 1 gifshow.com 2019/01/20 6 g
原创 hadoop HA standby無法切換爲active
將active namenode殺死,standby namenode進程無法自動切換爲active狀態,查看hadoop-hdfs-zkfc-ha-master01.log,出現如下錯誤信息 2020-01-14 01:07:5
原创 Hive實現topN
一、需求 查詢每個產品top3的用戶信息,初始數據表如下 uid pid user9 e user2 a user14 e user6 b user12 a ... ... ... ... 二、實現 #每
原创 java指定線程數順序打印數字
問題 有kCount個線程,從1開始編號,順序打印1,2,3…,打印到n; eg:kCount = 3; n = 10; 輸出: Thread 1 -> 1 Thread 2 -> 2 Thread 3 -> 3 Thread 1