原创 Hive 使用RegexSerDe來處理標準格式Apache Web日誌

我們以一個例子來介紹如何使用RegexSerDe來處理標準格式的Apache Web日誌,並對其進行統計分析。我的Hive版本是apache-hive-0.13.1-bin 一、在Hive中創建表serde_regex CREATE

原创 Hive 處理CSV格式文件數據

一般情況下對於CSV格式文件數據,有多種第三方SerDer來處理。本文采用CSVSerDe: 一、添加第三方SerDe 首先在Hive classpath中添加第三方SerDe JAR包,命令如下: hive> add jar /hom

原创 Sqoop2學習(一)—Sqoop1.99.3介紹與安裝

問題導讀:          1、Sqoop2 server安裝需要依賴什麼條件?          2、common.loader值怎麼配置?          3、Sqoop默認兩個端口是12000、12001 一、Sqoop2簡介

原创 Hive用戶接口(一)—Hive Web接口HWI的操作及使用

問題導讀:        1、Hive提供了哪三種用戶訪問接口?         2、如何手動構建hive-hwi-*.war安裝包?         3、hwi 服務啓動命令是什麼?         4、hwi啓動之前需要將哪兩個包拷貝

原创 HiveQL 數據定義語言使用(一)—Hive中數據庫的創建、顯示、刪除和修改操作介紹

問題導讀:          1、創建數據庫命令中DATABASE可以被哪個關鍵字代替使用?          2、在創建數據庫的時候如何指定數據庫存放路徑?          3、如果一個數據庫中含有表,那麼刪除該數據庫有哪兩種方式?

原创 Hive用戶接口(二)—使用Hive JDBC驅動連接Hive操作實例

問題導讀:         1、Hive提供了哪三種用戶訪問方式?         2、使用HiveServer時候,需要首先啓動哪個服務?         3、HiveServer的啓動命令是?         4、HiveServer

原创 Java InetAddress根據域名獲取該域名對應的IP地址及本地IP地址

InetAddress對域名進行解析是使用本地機器配置或者網絡命名服務(如域名系統(Domain Name System,DNS)和網絡信息服務(Network Information Service,NIS))來實現。 代碼如下: i

原创 Hive表中四種不同數據導出方式以及如何自定義導出列分隔符

問題導讀: 1、Hive表數據四種導出方式是? 2、導出命令中LOCAL的作用及有無的區別? 3、導出命令中是否可以嚮導入命令一樣使用INTO? 4、如何自定義導出文件的列分隔符? 5、hive的-e和-f參數的作用及如何使用其來導出數

原创 Tomcat服務器在Linux開機下自啓動配置

        tomcat安裝部署在Linux系統上作爲服務器使用的時候,需要考慮Linux服務器宕機或者關機重啓的時候能否自動開啓tomcat,以便能夠保證web應用程序的正常執行。以下是配置的詳細步驟: 一、  切換到/etc/in

原创 Linux環境下 使MYSQL數據庫支持InnoDB引擎

問題1:在Linux服務器上創建數據庫表的時候,明明設置表的引擎是InnoDB,將.sql導入數據庫後總是自動變爲MyISAM。 問題2:修改MYSQL數據庫默認存儲引擎               ①  [root@hyserver /

原创 Linux 下文件Non-ISO extended-ASCII編碼問題

           Linux下,有時候我們需要將文件轉換爲另外一種編碼格式,如UTF-8,這個時候我們可以使用iconv工具轉換,但是如果遇到不確定的編碼,在轉換的時候就很麻煩,比如Non-ISO extended-ASCII。現有一

原创 Sqoop2學習(二)—將MySQL數據庫中數據導入到HDFS中

問題導讀:         1、Sqoop客戶端如何創建服務端連接?                 Sqoop的安裝此處不再介紹,此處接我上一篇博文:Sqoop2學習(一)—Sqoop1.99.3介紹與安裝。 一、配置服務端地址及端口

原创 使用Sqoop1.4.4將MySQL數據庫表中數據導入到HDFS中

問題導讀:         1、--connect參數作用?         2、使用哪個參數從控制檯讀取數據庫訪問密碼?         3、Sqoop將關係型數據庫表中數據導入HDFS基本參數要求及命令?         4、數據默認

原创 Hive 實戰練習(一)—按照日期將每天的數據導入Hive表中

需求:          每天會產生很多的日誌文件數據,有這麼一種需求:需要將每天產生的日誌數據在晚上12點鐘過後定時執行操作,導入到Hive表中供第二天數據分析使用。要求創建分區表,並按照日期分區。數據文件命名是以當天日期命名的,如20

原创 Sqoop1.4.4使用SQL語句形式將MySQL數據庫表中數據導入到HDFS中

問題導讀:         1、Sqoop使用SQL語句實現數據導入使用哪個參數?         2、使用--query參數執行數據導入,三個必須加上的參數是?         3、--split-by參數的作用?         4、