原创 從源碼分析spark-submit作業提交流程(2.4.4)

一、spark-submit腳本內容分析 if [ -z "${SPARK_HOME}" ]; then source "$(dirname "$0")"/find-spark-home fi # disable rando

原创 Linux文本搜索(三)之 awk

AWK 一般用於對文本內容進行統計、按需要的格式進行輸出 AWK腳本的流程控制 輸入數據前例程BEGIN{} 主輸入循環{} 所有文件讀取完成例程END{} AWK的字段 每行稱作AWK的記錄 使用分隔符(默認是空格)分

原创 mysqlbinlog: [ERROR] unknown variable 'default-character-set=utf8mb4'

問題:使用mysqlbinlog工具查看MySQL的binlog日誌時出現如下錯誤 bigdata:mysqladmin:/usr/local/mysql/arch:>mysqlbinlog mysql-bin.000001 >

原创 HBase 之Rowkey設計

Rowkey的作用 Rowkey用於標識唯一的行 HBase中的數據都是根據Rowkey的字典序存儲的,比如memstore中的數據和HFile中的數據 讀寫數據都需要通過Rowkey來定位Region Rowkey的設計原則

原创 Hadoop支持lzo壓縮且支持分片

一、支持lzo壓縮 安裝 lzop native library [root@bigdata ~]# yum -y install lzo-devel zlib-devel gcc autoconf automake

原创 Linux文本搜索(一)之 grep、find

一、常用元字符簡介 字符 功能 \ 轉義字符 . 匹配除換行符(\n、\r)之外的任意一個字符 * 匹配前面的子表達式零次或多次 + 匹配前面的子表達式一次或多次 ? 匹配前面的子表達式零次或一次

原创 Linux文本搜索(二)之 sed

sed 一般用於對文本內容做替換 1. 基本使用 sed的基本工作方式 將文件以行爲單位讀取到內存(模式空間) 使用sed的每個腳本對該行進行操作 處理完成後輸出該行 sed的替換命令s: sed ‘s/old/

原创 JUC之創建線程的四種方式

一、繼承Thread類 通過自定義類繼承Thread類來創建 class MyThread extends Thread { @Override public void run() { for (i

原创 Hive源碼編譯支持UDF

一、準備源碼 下載 [hadoop@bigdata source]$ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1-src.tar.gz

原创 Hive SQL 之 數據庫

1、 Hive 中的數據庫本質是一個目錄,通常數據庫保存在hive.metastore.warehouse.dir所指定的目錄下,以.db爲後綴,例如testDB.db,該數據庫中的表以這個數據庫目錄的子目錄存在。 注:defa

原创 windows下IDEA本地運行MapReduce

github下載對應版本的hadoop.dll 和 winutils.exe 下載地址 配置環境變量 步驟1下載的東西放到這個目錄裏面, 在Path中添加如下 IDEA創建Maven項目 pom文件 <properties

原创 Hive之實現累加

一、需求 有如下數據 gifshow.com 2019/01/01 5 yy.com 2019/01/01 4 huya.com 2019/01/01 1 gifshow.com 2019/01/20 6 g

原创 hadoop HA standby無法切換爲active

將active namenode殺死,standby namenode進程無法自動切換爲active狀態,查看hadoop-hdfs-zkfc-ha-master01.log,出現如下錯誤信息 2020-01-14 01:07:5

原创 Hive實現topN

一、需求 查詢每個產品top3的用戶信息,初始數據表如下 uid pid user9 e user2 a user14 e user6 b user12 a ... ... ... ... 二、實現 #每

原创 java指定線程數順序打印數字

問題 有kCount個線程,從1開始編號,順序打印1,2,3…,打印到n; eg:kCount = 3; n = 10; 輸出: Thread 1 -> 1 Thread 2 -> 2 Thread 3 -> 3 Thread 1