原创 impala drop刪除表注意問題

背景 在使用impala drop表然後新建該表再插入數據時,發現以前的數據還在裏面。 drop和create過程都沒有報錯。。。 實際分析發現,drop表後再select報錯,報表不存在,但實際應該是刪除了映射關係,但是hdfs

原创 hive函數to_unix_timestamp與unix_timestamp效率問題

可怕,hive版本1.2.1,實踐中發現,to_unix_timestamp比unix_timestamp函數快幾十甚至上百倍!!!

原创 hive where過濾條件中數值比較注意問題

背景 hive版本1.2.1 問題 where過濾條件中很多條件,其中包含了數值比較情況,當時開發人員沒注意寫的是a=0.01進行比較,a爲數值型,造成過濾條件不生效的情況。單獨是用a=0.01可以,但是在複雜條件下會出現問題。

原创 hive的between-and問題

背景 hive版本1.2.1 存儲格式parquet 篩選字段爲STRING類型的日期,如’20190918’時出現不包含頭尾的現象。 實驗 先分別創建parquet格式T1表與textfile格式的T2表, CREATE TAB

原创 mysql跨庫轉移數據

導出 select * from e into outfile "/data/mysql/e.txt" fields terminated by '|'; 注:outfile ‘/path/file’,中的 path 需要有my

原创 HIVE decimal類型溢出問題

背景 hive版本1.2.1 s1字段類型爲DECIMAL(38,a) s2字段類型爲DECIMAL(38,b) s3字段類型爲DECIMAL(38,c) s1 * s2* s3結果爲NULL,沒有報錯 解決辦法 猜測爲hive隱

原创 分類算法的評估方法

基本術語 常見的模型評價術語,假設分類目標只有兩類,計爲正例(positive)和負例(negtive)則: 1)True positives(TP):被正確地劃分爲正例的個數,即實際爲正例且被分類器劃分爲正例的實例數; 2)Fa

原创 Container killed on request. Exit code is 143

背景 只是一條INSERT語句插入一條數據,然後就報錯 報錯如下 Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask 分析

原创 LINUX通過python連接ACCESS(.mdb和.accdb文件)數據庫

前言 因爲ACCESS主要還是微軟的那一套,所以WIN平臺的連接方式不再贅述,網上方案很多。 LINUX上的連接,主要還是分爲ODBC和JDBC ODBC方案 包安裝 linux需安裝的包:mdbtools, unixODBC,

原创 數據分析——數據探索

數據質量分析 主要檢查原始數據中是否存中髒數據: 缺失值 異常值 不一致的值 重複數據及含有特殊符號的數據 缺失值 處理方式:刪除、插補、不處理 異常值 簡單統計量分析 3σ原則 箱型圖分析 數據特徵分析 分佈分析 定量

原创 HDFS-Failed to add storage directory

背景 重啓DN,報錯 2019-09-16 10:30:21,724 WARN common.Storage (DataStorage.java:loadDataStorage(449)) - Failed to add sto

原创 hdfs 跨集羣數據遷移

背景 測試環境數據缺失,需從開發環境同步數據過去,考慮採用Hadoop自帶的數據遷移工具 分析 遷移數據評估 開發環境數據比較雜亂,不是所有數據都需要遷移,且全部遷移即浪費時間,又沒有價值,根據時間情況按庫(甚至按表)進行遷移 遷

原创 hive 表結構及數據的複製

非分區表 複製表結構 create table new_table like exists_table; 複製表結構和數據 create table new_table as select * from exists_table

原创 溫故知新系列之python——and-or語法

在網上搜了一下,python 的and-or語法與C語言的三目運算符?:有類似的功能。但bool and a or b,當 a 爲假時,不會跟C語言的 bool ? a : b 一樣工作 常用的是把 and-or 封裝成一個函數:

原创 溫故知新系列之python——copy & deepcopy

經過copy操作的兩個數據對象擁有不同的地址空間,但是這個數據對象如果是內嵌了其他的複雜數據對象,這個內嵌的數據對象在兩個數據對象中擁有相同的地址空間,修改其中的值會互相影響。 經過deepcopy的操作的不管是內層還是外層數據對