原创 redhat7.4離線搭建cdh6.3.1(四節點)

                                                                                                                 一.安裝版本

原创 sqoop開啓多並行度時報錯

使用sqoop傳輸數據時,如果開啓多並行度會產生各種問題,比如傳輸完成後缺少一部分數據、傳輸過程中報錯等,解決方法爲並行度-m設爲1,但是寫多個傳輸腳本同時進行傳輸,提高傳輸效率,讓多個腳本同時傳輸的命令如下: sh sqoop_orac

原创 使用sqoop eval 操作關係型數據庫

想在sqoop export從hive抽取數據到關係型數據庫前先操作關係型數據庫,把目標表的數據清除一下,可以使用sqoop eval參數: sqoop eval --connect jdbc:oracle:thin:@10.1.4.10

原创 對shell命令設置如果執行不成功則重新執行

語句爲: if  [[ $? != 0 ]] then 命令 else echo "  success!" fi

原创 impala和hive語法的區別

最近在工作中遇到了一些語句在impala可以執行但hive不支持的情況,內容如下: hive的date_sub函數對應impala的days_sub函數 hive不支持add_years函數,只支持add_months函數 hive的TI

原创 sqoop export踩過的坑

使用sqoop export時遇到了以下的坑: username必須大寫; 在關係型數據庫建目標表時表名必須大寫; export-dir必須小寫; tablename必須大寫;

原创 HDFS學習筆記

HDFS:Hadoop Distributed File System Hadoop 分佈式文件系統   將大文件,大批量文件,分佈式的存放於大量服務器上。以便於採取分而治 之的方式對海量數據進行運算分析;   HDFS  設計思路: 1

原创 python學習筆記

if-else簡化版:表達式1  if 表達式  else 表達式2y = 5x = "大於0" if y > 0 else "小於0"print(x)輸入數值,判斷是工作日還是休息日,或者輸入錯誤。day = int(input("請輸

原创 搭建hadoop集羣

hadoop集羣搭建的準備操作: 準備大數據集羣(三臺或者四臺服務器,推薦四臺)   推薦:四臺服務器的主機名分別是:hadoop02, hadoop03, hadoop04, hadoop05   對以上四臺服務器需要做以下準備操作

原创 informatica學習筆記

Repository manager(資料庫內容管理客戶端工具)管理repository service(元數據資料庫服務)。 Administratortion console(基於web的管理控制檯)管理integration ser

原创 工作筆記

收集表的統計信息:DECLAREBEGINDBMS_STATS.GATHER_TABLE_STATS(USER,’F_IS_AGT_M’);END;Chown:用來更改某個目錄或文件的用戶名和用戶組的;Chmod:用來修改某個目錄或文件的

原创 《linux命令行與shell腳本編程大全》筆記

Shell是系統的用戶界面,提供了用戶與內核進行交互操作的一種接口。它接收用戶輸入的命令並把它送入內核去執行。  實際上Shell是一個命令解釋器,它解釋由用戶輸入的命令並且把它們送到內核。 參數解釋:-i :information,執行

原创 join中連接條件放置位置

對於JOIN參與的表的關聯操作,如果需要不滿足連接條件的行也在我們的查詢範圍內的話,我們就必需把連接條件放在ON後面,而不能放在WHERE後面,如果我們把連接條件放在了WHERE後面,那麼所有的LEFT,RIGHT,等這些操作將不起任何作

原创 truncate table drop

truncate特點: 2.刪除數據表的數據,但是保留數據表的結構(定義); 3.truncate爲DDL語句,刪除不可回退; delete的特點: 1.刪除數據表的數據,保留數據表的結構(定義); 2.delete爲DML語句,刪除可回

原创 oracle數據庫優化總結

1.      數據庫優化基本知識I/O 數據庫的基本作用就是實現對數據的管理與查詢。隨之而來的就是大量的IO操作, 在海量數據的情況下,數據庫的性能問題有80%以上和IO有關。優化ORACLE數據庫的I/O性能一般有兩個方面,一是減少處