原创 IDEA和Maven打jar包方式

此篇博客對使用IDEA+Maven將Java項目打成Jar 包的方式介紹很全,有這方面問題的小夥伴可以看看。

原创 hive的Reduce join與Map join

說明 hive 中的join可分爲倆類,一種是common join(也叫Reduce join或shuffle join),另一種是 map join,後者是對hive join的一個優化,利用本地的task對較小的表hash

原创 阿里雲服務器安裝Azkaban郵件配置遇的坑

Azkaban發送郵件默認使用的是STMP 25端口,但是阿里雲服務器25端口是被禁用的,所以需要將25端口換到465端口 採用smtps協議傳輸郵件(25端口是非SSl協議傳輸),方法是修改源碼,具體如下: git cl

原创 HiveQL基礎語法(聚合,分組函數)

1. 聚合函數 通俗說,聚合函數是將多行數據導出一條結果 常用的聚合函數有:max,min,count,sum,avg 對emp表查詢員工的最大、最小、平均工資及所有工資的和 1. hive> select * fro

原创 Sqoop增量導入導出總結

Sqoop做爲關係型數據庫RDBMS和大數據平臺(HDFS,Hive,Hbase等)導入導出工具,如果不熟悉其參數作用,使用起來各種問題,本文作爲博主對Sqoop的實踐作出一定的總結,如有錯誤,僅供參考。 Sqoop Job

原创 Hive CLI 常用操作

1. 語法 1. To get help, run "hive -H" or "hive --help". 2. Usage (as it is in Hive 0.9.0): 3.

原创 Hadoop HA 部署

Hadoop 集羣 本次學習我們使用3臺Linux虛擬機,每臺虛擬機環境如下: 配置集羣SSH互信 配置集羣互信,可以讓集羣機器無密碼互相訪問 執行命令ssh-keygen 3臺集羣機器分別執行ssh-keygen命

原创 HiveServer2 JDBC客戶端連接Hive數據庫

1. 介紹: 兩者都允許遠程客戶端使用多種編程語言,通過HiveServer或者HiveServer2,客戶端可以在不啓動CLI的情況下對Hive中的數據進行操作,兩者都允許遠程客戶端使用多種編程語言如java,python等向

原创 hive導入導出(import/export)

1. 概括 Hive 0.8.0 之後引入了EXPORT and IMPORT 命令。 EXPORT命令將表或分區的數據連同元數據一起導出到指定的輸出位置(HDFS上)。然後可以將此輸出位置移至不同的Hadoop或Hive實例,

原创 Hive數據操作語言(DML)

1. 加載數據(load) LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, part

原创 Hive 數據定義語言(DDL)

DDL(Data Definition Language) HiveQL 語句可以通過hive官網進行全面細緻學習,這裏概述hive的DDL語言 Hive數據存儲結構 1. Database:Hive中包含了多個數據庫,默

原创 Hive實現wordcount統計

1. 創建一個數據庫 1. hive> create database wordcount; 2. OK 3. Time taken: 0.389 seconds

原创 Spark 源碼編譯

選擇Spark源碼 官網:spark.apache.org 目的:從官網下載源碼進行編譯比下載的安裝包要完整,並且可以定向編譯出匹配自己Hadoop及其他組件的Spark版本 環境準備 JDK: Spark 2.2.0及以上

原创 Hive字符集問題

創建表失敗 hive創建表失敗,報錯 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaEx

原创 sqoop 部署安裝

1. 下載,上傳,解壓 下載 下載的sqoop版本要與環境的hadoop版本相匹配,本文使用的版本是: sqoop-1.4.6-cdh5.7.1.tar.gz 上傳 [hadoop@wjxhadoop001 softwar