原创 sqoop開啓多並行度時報錯
使用sqoop傳輸數據時,如果開啓多並行度會產生各種問題,比如傳輸完成後缺少一部分數據、傳輸過程中報錯等,解決方法爲並行度-m設爲1,但是寫多個傳輸腳本同時進行傳輸,提高傳輸效率,讓多個腳本同時傳輸的命令如下: sh sqoop_orac
原创 使用sqoop eval 操作關係型數據庫
想在sqoop export從hive抽取數據到關係型數據庫前先操作關係型數據庫,把目標表的數據清除一下,可以使用sqoop eval參數: sqoop eval --connect jdbc:oracle:thin:@10.1.4.10
原创 對shell命令設置如果執行不成功則重新執行
語句爲: if [[ $? != 0 ]] then 命令 else echo " success!" fi
原创 impala和hive語法的區別
最近在工作中遇到了一些語句在impala可以執行但hive不支持的情況,內容如下: hive的date_sub函數對應impala的days_sub函數 hive不支持add_years函數,只支持add_months函數 hive的TI
原创 sqoop export踩過的坑
使用sqoop export時遇到了以下的坑: username必須大寫; 在關係型數據庫建目標表時表名必須大寫; export-dir必須小寫; tablename必須大寫;
原创 HDFS學習筆記
HDFS:Hadoop Distributed File System Hadoop 分佈式文件系統 將大文件,大批量文件,分佈式的存放於大量服務器上。以便於採取分而治 之的方式對海量數據進行運算分析; HDFS 設計思路: 1
原创 python學習筆記
if-else簡化版:表達式1 if 表達式 else 表達式2y = 5x = "大於0" if y > 0 else "小於0"print(x)輸入數值,判斷是工作日還是休息日,或者輸入錯誤。day = int(input("請輸
原创 搭建hadoop集羣
hadoop集羣搭建的準備操作: 準備大數據集羣(三臺或者四臺服務器,推薦四臺) 推薦:四臺服務器的主機名分別是:hadoop02, hadoop03, hadoop04, hadoop05 對以上四臺服務器需要做以下準備操作
原创 informatica學習筆記
Repository manager(資料庫內容管理客戶端工具)管理repository service(元數據資料庫服務)。 Administratortion console(基於web的管理控制檯)管理integration ser
原创 工作筆記
收集表的統計信息:DECLAREBEGINDBMS_STATS.GATHER_TABLE_STATS(USER,’F_IS_AGT_M’);END;Chown:用來更改某個目錄或文件的用戶名和用戶組的;Chmod:用來修改某個目錄或文件的
原创 《linux命令行與shell腳本編程大全》筆記
Shell是系統的用戶界面,提供了用戶與內核進行交互操作的一種接口。它接收用戶輸入的命令並把它送入內核去執行。 實際上Shell是一個命令解釋器,它解釋由用戶輸入的命令並且把它們送到內核。 參數解釋:-i :information,執行
原创 join中連接條件放置位置
對於JOIN參與的表的關聯操作,如果需要不滿足連接條件的行也在我們的查詢範圍內的話,我們就必需把連接條件放在ON後面,而不能放在WHERE後面,如果我們把連接條件放在了WHERE後面,那麼所有的LEFT,RIGHT,等這些操作將不起任何作
原创 truncate table drop
truncate特點: 2.刪除數據表的數據,但是保留數據表的結構(定義); 3.truncate爲DDL語句,刪除不可回退; delete的特點: 1.刪除數據表的數據,保留數據表的結構(定義); 2.delete爲DML語句,刪除可回
原创 oracle數據庫優化總結
1. 數據庫優化基本知識I/O 數據庫的基本作用就是實現對數據的管理與查詢。隨之而來的就是大量的IO操作, 在海量數據的情況下,數據庫的性能問題有80%以上和IO有關。優化ORACLE數據庫的I/O性能一般有兩個方面,一是減少處