台部落fa124607857

一、flume簡介 1.1.1 概述 Flume是一個分佈式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統。 Flume可以採集文件，socket數據包、文件、文件夾、kafka等各種形式源數據，又可以將採集到的數據(下沉sink)輸出

2020-07-05 10:42:03

1、sparkStreaming概述 1.1 什麼是sparkStreaming Spark Streaming makes it easy to build scalable fault-tolerant streaming

2020-06-29 08:55:48

Spark 數據全局排序實現以及RangePartitioner的使用示例 2017年09月13日 17:20:35 javartisan 閱讀數 2612 轉自鏈接：https://blog.csdn.net/Dax1n/article

2020-06-29 08:12:08

概述 sqoop是apache旗下一款“Hadoop和關係數據庫服務器之間傳送數據”的工具。導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統；導出數據：從Hadoop的文件系統中導

2020-06-29 08:12:07

2020-06-29 08:12:07

0 Hdfs簡介 HDFS 是 Hadoop Distribute File System 的簡稱，意爲：Hadoop 分佈式文件系統。是 Hadoop 核心組件之一，作爲最底層的分佈式存儲服務而存在。它們是橫跨在多臺計算機上的存儲系統

2020-06-29 08:12:06

1 Druid數據查詢 1.1：查詢組件介紹在介紹具體的查詢之前，我們先來了解一下各種查詢都會用到的基本組件，如Filter,Aggregator,Post-Aggregator,Query,Interval等，每種組件都包含很

2020-06-29 08:12:06

1.1、storm是什麼 storm是twitter公司開源貢獻給apache的一款實時流式處理的一個開源軟件，主要用於解決數據的實時計算以及實時的處理等方面的問題 1.2、storm的特點 Storm是一

2020-06-29 08:12:06

RDD 的 Shuffle 和分區分區的作用 RDD 使用分區來分佈式並行處理數據, 並且要做到儘量少的在不同的 Executor 之間使用網絡交換數據, 所以當使用 RDD 讀取數據的時候, 會盡量的在物理上靠近數據源, 比如說在讀取

2020-06-29 08:12:04

1.1 hbase數據庫介紹 1、簡介 hbase是基於Google BigTable模型開發的，典型的key/value系統。是建立在hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫nosql的數據庫系統。它是Apache

2020-06-29 08:12:04

一、搜索的介紹搜索是指搜尋檢索，指代使用一定手段來檢索到我們自己需要的信息，包括從文件當中檢索，百度當中檢索，網站內部搜索等等全文檢索的介紹 1、全文檢索的需求介紹首先我們談幾個公司，如雷貫耳的：百度、谷歌、維基百科；這些公司都有一

2020-06-29 08:12:04

Hive函數 1.1、內置函數內容較多，見《Hive官方文檔》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1）查看系統自帶的函數 hive

2020-06-29 08:12:04

高可用架構圖下面我們搭建一個高可用的Flume NG集羣，架構圖如下所示：圖中，我們可以看出，Flume的存儲可以支持多種，這裏只列舉了HDFS和Kafka（如：存儲最新的一週日誌，並給Storm系統提供實時日誌流）。角色

2020-06-29 08:12:04

在 spark的提交模式中，有三種提交方式：分別是基於spark集羣的standalone模式，基於YARN集羣的yarn-client和yarn-cluster三種模式， Standalone,模式提交: spark-submit --

2020-06-29 08:12:04

Spark SQL主要目的是使得用戶可以在Spark上使用SQL，其數據源既可以是RDD，也可以是外部的數據源（比如文本、Hive、Json等）。Spark SQL的其中一個分支就是Spark on Hive，也就是使用Hive中

2020-06-29 08:12:03