原创 flume+kafka整合採集數據案例

一、flume簡介 1.1.1 概述 Flume是一個分佈式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統。 Flume可以採集文件,socket數據包、文件、文件夾、kafka等各種形式源數據,又可以將採集到的數據(下沉sink)輸出

原创 sparkStreaming介紹及sparkStreaming整合Kafka

1、sparkStreaming概述 1.1 什麼是sparkStreaming Spark Streaming makes it easy to build scalable fault-tolerant streaming

原创 Spark 數據全局排序實現以及RangePartitioner的使用示例

Spark 數據全局排序實現以及RangePartitioner的使用示例 2017年09月13日 17:20:35 javartisan 閱讀數 2612 轉自鏈接:https://blog.csdn.net/Dax1n/article

原创 大數據開發之sqoop數據遷移工具簡介

概述 sqoop是apache旗下一款“Hadoop和關係數據庫服務器之間傳送數據”的工具。 導入數據:MySQL,Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統; 導出數據:從Hadoop的文件系統中導

原创 Sigmoid函數求導

原创 Hdfs的文件讀寫過程

0 Hdfs簡介 HDFS 是 Hadoop Distribute File System 的簡稱,意爲:Hadoop 分佈式文件系統。是 Hadoop 核心組件之一,作爲最底層的分佈式存儲服務而存在。它們是橫跨在多臺計算機上的存儲系統

原创 大數據開發之Druid數據查詢

1 Druid數據查詢 1.1:查詢組件介紹 在介紹具體的查詢之前,我們先來了解一下各種查詢都會用到的基本組件,如Filter,Aggregator,Post-Aggregator,Query,Interval等,每種組件都包含很

原创 Storm入門程序wordCount

1.1、storm是什麼         storm是twitter公司開源貢獻給apache的一款實時流式處理的一個開源軟件,主要用於解決數據的實時計算以及實時的處理等方面的問題 1.2、storm的特點         Storm是一

原创 SparkRdd 的分區操作及Shuffle原理

RDD 的 Shuffle 和分區 分區的作用 RDD 使用分區來分佈式並行處理數據, 並且要做到儘量少的在不同的 Executor 之間使用網絡交換數據, 所以當使用 RDD 讀取數據的時候, 會盡量的在物理上靠近數據源, 比如說在讀取

原创 hbase的rowkey設計原則及熱點問題

1.1 hbase數據庫介紹 1、簡介 hbase是基於Google BigTable模型開發的,典型的key/value系統。是建立在hdfs之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫nosql的數據庫系統。它是Apache

原创 ElasticSearch及全文搜索介紹

一、搜索的介紹 搜索是指搜尋檢索,指代使用一定手段來檢索到我們自己需要的信息,包括從文件當中檢索,百度當中檢索,網站內部搜索等等 全文檢索的介紹 1、全文檢索的需求介紹 首先我們談幾個公司,如雷貫耳的:百度、谷歌、維基百科;這些公司都有一

原创 Hive的UDF函數簡單示例開發

Hive函數 1.1、內置函數 內容較多,見《Hive官方文檔》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF   1)查看系統自帶的函數 hive

原创 大數據開發之flume高可用的搭建

高可用架構圖 下面我們搭建一個高可用的Flume NG集羣,架構圖如下所示: 圖中,我們可以看出,Flume的存儲可以支持多種,這裏只列舉了HDFS和Kafka(如:存儲最新的一週日誌,並給Storm系統提供實時日誌流)。 角色

原创 spark-submit幾種提交模式的區別

在 spark的提交模式中,有三種提交方式:分別是基於spark集羣的standalone模式,基於YARN集羣的yarn-client和yarn-cluster三種模式, Standalone,模式提交: spark-submit --

原创 sparksql整合hive的環境搭建

    Spark SQL主要目的是使得用戶可以在Spark上使用SQL,其數據源既可以是RDD,也可以是外部的數據源(比如文本、Hive、Json等)。Spark SQL的其中一個分支就是Spark on Hive,也就是使用Hive中