原创 hadoop--之YARN框架流程

 YARN平臺簡介          YARN的誕生的背景     在Hadoop1.0版本中MapReduce架構存在的許多問題,例如:             (一)無法支持更多的計算模型,Mapreduce將兩個階段計算模型Map

原创 HBase API的簡單使用(三)

JAVA API  HBase數據存儲管理相關的內容,其涉及的主要類包括:HBaseAdmin,HBaseConfiguration,HTable,HTableDescriptor,HColumnDescriptor,Put,Get和Sc

原创 歡迎使用CSDN-markdown編輯器

歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公

原创 HBase基本概念(一)

HBase的基本定義 HBase是Apache Hadoop中的一個子項目,HBase依託於Hadoop的HDFS作爲最基本存儲基礎單元,通過使用Hadoop的dfs工具就可以看到這些數據。存儲文件夾的結構,還可以通過Map/Red

原创 Flume的基本概念

一:Flume介紹 1.1、在hadoop生態圈中,Flume的位置。 1.2、Flume是什麼?     有Cloudera公司開源     分佈式、可靠、高可用的海量日誌採集系統     數據源可定製,可擴展。     數據存儲系

原创 hadoop-之二次排序&分組&分區

需求背景 MapReduce框架對處理結果的輸出會根據key值進行默認的排序,這個默認排序可以滿足一部分需求,但是也是十分有限的。在我們實際的需求當中,往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現,本文將通過兩個個

原创 Zookeeper系列(二)服務器搭建

Zookeeper的安裝和配置     Zookeeper有不同的運行環境,包括,單機環境,集羣環境和集羣僞分佈式環境。 軟件要求:     安裝Zookeeper需要Java的支持,並且要求1.6以上的版本,對於集羣的安裝,Zookee

原创 10.ES搜索

一:基於詞項和基於全文的搜索 1.1 基於Term的查詢 Term 是表達語意的最小單位。搜索和利用統計語言模型進行自然語言處理都需要處理Term。 特點 Term Query/ Range Query/ Exists Qu

原创 1.Elasticsearch概述及其發展

1.Elasticsearch簡介 基於Lucene 的分佈式、高性能、高可用、可伸縮的搜索和分析系統 1.1特點 Elasticsearch起源於Lucene. 自動維護數據的分佈到多個節點的索引建立,還有搜索請求分佈

原创 6.Request Query 詳解

1. Request Body Search 將查詢語句通過HTTP Request Body 發送給Elasticsearch 1.1 404_idx //ignore_unavailable=true,可以忽略嘗試訪問不存

原创 7.Mapping詳解

1.什麼是Mapping 1.Mapping 類似數據庫中的schema的定義,作用如下 定義索引中的字段的名稱 定義字段的數據類型,例如字符串,數字,布爾… 字段,倒排索引的相關配置(Analyzed or Not Analy

原创 9.聚合與第一部分總結

1. 什麼是聚合(Aggregation) 1.1 集合的分類 Bucket Aggregation :一些列滿足特定條件的文檔的集合 Metric Aggregation :一些數學運算,可以對文檔字段進行統計分析 Pipe

原创 4.通過Analyzer進行分詞

1. Analysis與Analyzer Analysis : 文本分析是吧全文本轉換成一系列單詞(term/token)的過程,也叫分詞 Analysis : 是通過Analyzer來實現的 可使用Elasticsearch

原创 8.多字段特性&Analyzer&Template

1.多字段特性 多字段特性 廠商名字實現精準匹配 增加一個keyword字段 使用不同的analyzer 不同語言 pinyin字段的搜索 還支持爲搜索和索引指定不同的analyzer 1.1 Exact V

原创 2.Elasticsearch基本概念

1 概述 2.文檔(document) Elasticsearch是面向文檔的,文檔是所有可搜索數據的最小單元 日誌文件中的日誌項 一本電影的具體信息/一張唱片的詳細信息 MP3播放器裏的一首歌/一片PDF文檔中的具體內容