原创 source介紹及動手實踐

flume內置了大量的source,其中avro source、thrift source、spooling directory source、kafka source具有較好的性能和較廣泛的使用場景。 avro source Avro

原创 存儲處理程序和NoSql

存儲處理程序是一個結合InputFormat、OutputFormat、SerDe和Hive需要使用的特定的代碼,來將外部實體作爲標準的Hive表進行處理的整體。 Storage Handler Background Hadoop中有一

原创 Hive鎖

Hive結合Zookeeper支持鎖功能 Hive中包含了一個使用Zookeeper進行鎖定的鎖功能。Zookeeper實現了高度可靠的分佈式協調服務。處理需要增加一些額外的設置和配置步驟。Zookeeper對於Hive用戶來說是透明的。

原创 processor示例

sink group允許組織多個sink到一個實體上,sink processors能夠提供在組內所有sink之間實現負載均衡的能力,而且在失敗的情況下能夠進行故障轉移從一個sink到另外一個sink 1、default sink pro

原创 selector示例

11、複製:同一份數據,發送給兩個sink 1個source、2個channel、2個sink case12_replicate_sink.conf #配置內容 #name the component on this agent a1.

原创 Hive模式設計

按天劃分的表:使用分區 分區: 一個理想的分區方案不應該導致產生太多的分區和文件夾目錄,並且每個目錄下的文件應該足夠大,應該是文件系統中塊大小的若干倍。 如何保證: 按時間範圍進行分區的一個好的策略就是按照不同的時間粒度來確定合適大小的

原创 Hive基礎操作

安裝Hive : https://cwiki.apache.org/confluence/display/Hive/GettingStarted 命令行界面: 使用cli,用戶可以創建表,查看錶模式以及查詢表等操作。 cli "一次使

原创 Hive數據類型和數據格式

Hive支持關係型數據庫中的大多數基本數據類型,同時也支持關係型數據庫中很少出現的3中集合數據類型: 基本數據類型: tinyint(1byte)、smallint(2byte)、int(4byte)、bigint(8byte)、bool

原创 Kafka整合Flume

Kafka與flume 1)準備jar包 1、將Kafka主目錄lib下的如下jar拷貝至Flume的lib目錄下 kafka_2.10-0.8.2.1.jar、kafka-clients-0.8.2.1.jar、jopt-simpl

原创 Hive的thrift服務

Hive具有一個可選的組件叫HiveServer或HiveThrift,其允許通過指定端口訪問Hive。 啓動Thrift Server 進入Hive安裝目錄 使用如下命令開啓服務 hive --service hiveserver &

原创 HiveQL:數據定義

Hive中的數據庫:本質上是表的一個目錄或命名空間,數據庫所在的目錄位於屬性hive.metastore.warehouse.dir所指定的頂層目錄之後,數據庫的文件目錄名是以.db結尾的。 hive在查詢的時候,如果表中的數據以及分區

原创 Hive調優

使用explain 其可以幫助我們學習Hive是如何將查詢轉化爲MapReduce任務的。 在執行語句前面增加explain關鍵字即可,如 explain select sum(number) from onecol ; 使用expla

原创 Hive基礎知識

HIve出現的原因:解決SQL用戶從一個現有的基於傳統關係型數據庫和結構化查詢語言的基礎架構轉移到hadoop上,來通過HiveQL來查詢存儲在Hadoop集羣上的數據。 Hive可以將大多數的查詢轉換爲MapReduce任務(job)

原创 sink示例

7、hdfs實例 case8_hdfs.conf #配置內容 #name the component on this agent a1.sources = r1 a1.channels= c1 a1.sinks = k1 #descr

原创 Hive安全

使用Hive進行權限驗證 如果文件和文件夾是多個用戶共同擁有的話,那麼文件的權限設置就變的相當重要。HDFS中的文件目錄權限和Unix中的模式非常相似,都包含3層:用戶、組和其他,同時具有3種權限:可讀、可寫和可執行。 Hive中hive