原创 ElasticSearch2.3.3離線搭建(windows+Linux) 原 薦

1、ElasticSearch介紹 ElasticSearch 是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch 是用Java開發的,並作爲Apac

原创 Spark2.2.0 分佈式離線搭建 原 薦

1、Spark簡介 Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架

原创 ElasticSearch5.4.3離線搭建 原 薦

1、ElasticSearch簡介 ElasticSearch 是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch 是用Java開發的,並作爲Apac

原创 Hadoop之分佈式存儲HDFS和離線計算MapReduce 原

1、Hadoop簡介 Apache Hadoop軟件庫是一個框架,允許在集羣服務器上使用簡單的編程模型對大數據集進行分佈式處理。Hadoop被設計成能夠從單臺服務器擴展到數以千計的服務器,每臺服務器都有本地的計算和存儲資源。Hadoop的

原创 Spark認知 原 薦

一、Spark體系結構 Spark是一種基於內存的開源計算框架,不同於Hadoop的MapReduce和HDFS,Spark主要包括Spark Core和在Spark Core基礎之上建立的應用框架Spark SQL、Spark Stre

原创 Apache Hadoop集羣2.6.0離線搭建 原 薦

搭建準備: Linux環境,jdk-7u79-linux-i586.tar.gz,基本的shell知識,hadoop-2.6.0.tar.gz 1、配置主機名 vim /etc/hosts ----- 3節點都修改 192.168.8.

原创 Kettle基礎使用 原

Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,然後以一種指定的格式流出。Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什麼,而不是你想怎麼做。