台部落banana`

此篇博客對使用IDEA＋Maven將Java項目打成Jar 包的方式介紹很全，有這方面問題的小夥伴可以看看。

2020-06-14 11:07:13

說明 hive 中的join可分爲倆類，一種是common join（也叫Reduce join或shuffle join),另一種是 map join，後者是對hive join的一個優化，利用本地的task對較小的表hash

2020-06-14 11:07:13

Azkaban發送郵件默認使用的是STMP 25端口，但是阿里雲服務器25端口是被禁用的，所以需要將25端口換到465端口採用smtps協議傳輸郵件(25端口是非SSl協議傳輸)，方法是修改源碼，具體如下： git cl

2020-06-14 11:07:13

1. 聚合函數通俗說，聚合函數是將多行數據導出一條結果常用的聚合函數有：max,min,count,sum,avg 對emp表查詢員工的最大、最小、平均工資及所有工資的和 1. hive> select * fro

2020-06-14 11:07:13

Sqoop做爲關係型數據庫RDBMS和大數據平臺（HDFS，Hive,Hbase等）導入導出工具，如果不熟悉其參數作用，使用起來各種問題，本文作爲博主對Sqoop的實踐作出一定的總結，如有錯誤，僅供參考。 Sqoop Job

2020-05-24 15:32:55

1. 語法 1. To get help, run "hive -H" or "hive --help". 2. Usage (as it is in Hive 0.9.0): 3.

2020-02-20 13:49:14

Hadoop 集羣本次學習我們使用3臺Linux虛擬機，每臺虛擬機環境如下：配置集羣SSH互信配置集羣互信，可以讓集羣機器無密碼互相訪問執行命令ssh-keygen 3臺集羣機器分別執行ssh-keygen命

2020-02-20 13:49:14

1. 介紹：兩者都允許遠程客戶端使用多種編程語言，通過HiveServer或者HiveServer2，客戶端可以在不啓動CLI的情況下對Hive中的數據進行操作，兩者都允許遠程客戶端使用多種編程語言如java，python等向

2020-02-20 13:49:14

1. 概括 Hive 0.8.0 之後引入了EXPORT and IMPORT 命令。 EXPORT命令將表或分區的數據連同元數據一起導出到指定的輸出位置（HDFS上）。然後可以將此輸出位置移至不同的Hadoop或Hive實例，

2020-02-20 13:49:14

1. 加載數據（load) LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, part

2020-02-20 13:49:14

DDL(Data Definition Language) HiveQL 語句可以通過hive官網進行全面細緻學習，這裏概述hive的DDL語言 Hive數據存儲結構 1. Database:Hive中包含了多個數據庫，默

2020-02-20 13:49:13

1. 創建一個數據庫 1. hive> create database wordcount; 2. OK 3. Time taken: 0.389 seconds

2020-02-20 13:49:13

選擇Spark源碼官網：spark.apache.org 目的：從官網下載源碼進行編譯比下載的安裝包要完整，並且可以定向編譯出匹配自己Hadoop及其他組件的Spark版本環境準備 JDK: Spark 2.2.0及以上

2020-02-20 13:49:13

創建表失敗 hive創建表失敗，報錯 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaEx

2020-02-20 13:49:13

1. 下載，上傳，解壓下載下載的sqoop版本要與環境的hadoop版本相匹配，本文使用的版本是： sqoop-1.4.6-cdh5.7.1.tar.gz 上傳 [hadoop@wjxhadoop001 softwar

2020-02-20 13:49:12