原创 Hbase表使用總結

業務邏輯比較複雜,有很多是根據VIN碼來判斷的,於是使用hbase並且把VIN碼作爲rowkey進行設計。 Column Family設計原則:一個靜態數據,一個動態數據。 VERSIONS設計原則:看歷史數據保留價值。 (1)創

原创 ES集羣5.3.0升級7.3.0

最近有新項目需要使用中文分詞,然鵝之前安裝的ES5.3.0需要安裝插件,而且老版也沒有自帶安全驗證,考慮之後還是升級吧 (一)下載所需要的軟件 wget -b https://download.java.net/java/GA/j

原创 區域分類(業務相關)

華中RSSC 1001 安徽340000、河南410000 華南RSSC 1003 福建350000、廣東440000、海南460000 江蘇RSSC 1004 江蘇320000 山東RSSC 1006 山東370000

原创 oracle常用操作(彙總)

有些特殊情況,需要手動修改數據庫中的數據,在此總結! 截取某個字段前兩位(所有行) select * from tt_presale_sales_repair update tt_presale_sales_repair set

原创 時間戳負數轉換問題

由於甲方人員使用sqoop抽數據,把時間類型自動轉換成了時間戳,而且是毫秒級別的。。 於是我們嘗試使用hive的時間戳方法轉換成日期 select from_unixtime(cast(-2114409600000/1000 as

原创 覈對Spark生成的數據流程(一)

日常開發中經常會驗證spark生成的數據是否和源oracle庫中數據join之後的結果相同? 也就是判斷spark sql --> hive sql --> oracle sql 執行結果一致即可,比如我們需要覈對201907月的

原创 機器學習-迴歸算法(下)

機器學習-迴歸算法(上) 線性迴歸的評價指標 《機器學習的敲門磚:歸一化與KD樹》 特徵工程系列:特徵預處理(上) 模型之母:簡單線性迴歸&最小二乘法 模型之母:簡單線性迴歸的代碼實現 模型之母:多元線性迴歸 《還不瞭解梯度下降

原创 Docker組件安裝(centos7)

查看linux版本號 uname -a cat /etc/redhat-release 使用 yum方式安裝Docker組件 #修改主機名 hostnamectl --static set-hostname docker-no

原创 ogg抽數據到hdfs問題(彙總)

新項目使用ogg抽數據按照年月日+小時的形式保存到hdfs,由於ogg數據是保留修改前數據和修改後數據的,所以採用json格式保存文本 {"table":"TEST.TT_SALES_RECORDS","op_type":"U"

原创 機器學習-迴歸算法(上)

之前我們介紹的KNN算法屬於分類(Classification),即Label爲離散的類別型(categorical variable),如:顏色類別、手機品牌、是否患病等。 而簡單線性迴歸是屬於迴歸(Regression),即L

原创 spark推測執行引發的思考

終於到週五了,打開電腦查看集羣運行情況, 某個workflow原來執行完只需要1h,現在執行時間翻倍? 應該是spark重試機制的原因,最終結果還是執行成功了 workflow 歷史執行時間 4:00-5:14 workfl

原创 sqoop常用命令(彙總)

sqoop版本:1.4.6+cdh5.13.3+132oracle導入到hdfs(parquet格式)oracle導入到hdfs(text格式)oracle導入到hdfs(rowid字段)oracle導入到hivehdfs導出到o

原创 oracle常用命令(hive轉換)

select * from tt_table where to_char(fkdat,'yyyy-MM-dd') < '2019-01-01' #改成hive語句 select * from tt_table where date

原创 集羣遷移hive表(無建表語句)

生產環境賬號回收,需要把所有數據表遷移到測試環境!!! 上百張表,已經找不到原始建表語句,只能自己想辦法了。 百度很久,最終決定通過shell把從集羣上把建表語句下載下來: 新建list_tables.sql use db; sh

原创 ogg抽數據到hdfs問題彙總

新項目使用ogg抽數據按照年月日+小時的形式保存到hdfs,由於ogg數據是保留修改前數據和修改後數據的,所以採用json格式保存文本 {"table":"TEST.TT_SALES_RECORDS","op_type":"U"