原创 HIVE獲取時間函數, regexp_extract正則提取用法
Hive獲取時間函數 regexp_replace(date_add(from_unixtime(unix_timestamp(), "yyyy-MM-dd") , -1), '-','') regexp_extract函數: reg
原创 Flink 學習: DataStream Api 入門
一、數據源 1、內置數據源 基於文件 基於socket 基於collection 2、自定義數據源 實現SourceFuncition (非並行) 實現ParalleSourceFuncition 實現RichParalleSourceF
原创 Flink 學習: 數據源
一、數據源 1、內置數據源 基於文件 基於socket 基於collection 2、自定義數據源 實現SourceFuncition (非並行) 實現ParalleSourceFuncition 實現RichParalleSourceF
原创 Spark 讀寫Hbase
一、創建hbase表 在hbase shell中使用下面命令創建test_table表: hbase> create 'test_table','info' hbase shell 鏈接指定集羣 hbase shell 啓動腳本自動使用
原创 Centos7安裝Chrome瀏覽器 和ChromeDriver
一.創建yum源文件 在目錄 /etc/yum.repos.d/ 下新建文件 google-chrome.repo cd /etc/yum.repos.d/ vim google-chrome.repo 二.輸入yum源信息 [goo
原创 python 主線程捕獲子線程異常的方法
from threading import Thread import traceback class PropagatingThread(Thread): def run(self): self.exc =
原创 Hive 學習筆記(啓動方式,內置服務)
一、Hive介紹 原文地址:https://www.cnblogs.com/netuml/p/7841387.html Hive是基於Hadoop的一個數據倉庫,Hive能夠將SQL語句轉化爲MapReduce任務進行運行。
原创 HIVE regexp_extract正則提取用法
函數描述: regexp_extract( str, regexp[, idx] ) - extracts a group that matches regexp 字符串正則表達式解析函數。 -- 這個函數有點類似於 substring
原创 HIVE lateral view語句
原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView# lateral view用於和split, explode等
原创 Hadoop Streaming自帶參數解析
排序、hash分組、壓縮格式、內存設定 -Option: -input:輸入文件路徑 -output:輸出文件路徑 -mapper:用戶自己寫的mapper程序,可以是可執行文件或者腳本 -reducer:用戶自己寫的reducer程序,
原创 linux 實用指令
關鍵詞提取與統計詞頻 cat file | awk -F”\001” '{print $2}' | awk -F”\002” '{print $1}'| sort| uniq -c |sort -rn 對文件中的某一列求和 cat f
原创 linux 下 `dirname $0`
【`】,學名叫“倒引號”, 如果被“倒引號”括起來, 表示裏面需要執行的是命令。 比如 `dirname $0`, 就表示需要執行 dirname $0 這個命令 【“”】 , 被雙引號括起來的內容, 裏面 出現 $ (美元號
原创 gcc中的 -I -L(大寫l) -l(小寫l) -Wl,-rpath 選項
gcc編譯程序時,可能會用到“-I”(大寫i),“-L”(大寫l),“-l”(小寫l)等參數,下面做個記錄: 例子1: gcc -o example1 example1.c -I /usr/local/include/freetype2
原创 正則表達式替換掉漢字中間的空格
替換掉漢字中間的空格 import re original_str = 'a a 我我我 我我 我 我 sf ssf' patten = re.compile(r'([\w\u4e00-\u9fa5]{1})\
原创 C++去掉字符串中首尾空格和所有空格
//去掉首尾空格 void trim(string &s) { if( !s.empty() ) { s.erase(0,s.find_first_not_of(" "));