原创 hadoop--之YARN框架流程
YARN平臺簡介 YARN的誕生的背景 在Hadoop1.0版本中MapReduce架構存在的許多問題,例如: (一)無法支持更多的計算模型,Mapreduce將兩個階段計算模型Map
原创 HBase API的簡單使用(三)
JAVA API HBase數據存儲管理相關的內容,其涉及的主要類包括:HBaseAdmin,HBaseConfiguration,HTable,HTableDescriptor,HColumnDescriptor,Put,Get和Sc
原创 歡迎使用CSDN-markdown編輯器
歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公
原创 HBase基本概念(一)
HBase的基本定義 HBase是Apache Hadoop中的一個子項目,HBase依託於Hadoop的HDFS作爲最基本存儲基礎單元,通過使用Hadoop的dfs工具就可以看到這些數據。存儲文件夾的結構,還可以通過Map/Red
原创 Flume的基本概念
一:Flume介紹 1.1、在hadoop生態圈中,Flume的位置。 1.2、Flume是什麼? 有Cloudera公司開源 分佈式、可靠、高可用的海量日誌採集系統 數據源可定製,可擴展。 數據存儲系
原创 hadoop-之二次排序&分組&分區
需求背景 MapReduce框架對處理結果的輸出會根據key值進行默認的排序,這個默認排序可以滿足一部分需求,但是也是十分有限的。在我們實際的需求當中,往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現,本文將通過兩個個
原创 Zookeeper系列(二)服務器搭建
Zookeeper的安裝和配置 Zookeeper有不同的運行環境,包括,單機環境,集羣環境和集羣僞分佈式環境。 軟件要求: 安裝Zookeeper需要Java的支持,並且要求1.6以上的版本,對於集羣的安裝,Zookee
原创 10.ES搜索
一:基於詞項和基於全文的搜索 1.1 基於Term的查詢 Term 是表達語意的最小單位。搜索和利用統計語言模型進行自然語言處理都需要處理Term。 特點 Term Query/ Range Query/ Exists Qu
原创 1.Elasticsearch概述及其發展
1.Elasticsearch簡介 基於Lucene 的分佈式、高性能、高可用、可伸縮的搜索和分析系統 1.1特點 Elasticsearch起源於Lucene. 自動維護數據的分佈到多個節點的索引建立,還有搜索請求分佈
原创 6.Request Query 詳解
1. Request Body Search 將查詢語句通過HTTP Request Body 發送給Elasticsearch 1.1 404_idx //ignore_unavailable=true,可以忽略嘗試訪問不存
原创 7.Mapping詳解
1.什麼是Mapping 1.Mapping 類似數據庫中的schema的定義,作用如下 定義索引中的字段的名稱 定義字段的數據類型,例如字符串,數字,布爾… 字段,倒排索引的相關配置(Analyzed or Not Analy
原创 9.聚合與第一部分總結
1. 什麼是聚合(Aggregation) 1.1 集合的分類 Bucket Aggregation :一些列滿足特定條件的文檔的集合 Metric Aggregation :一些數學運算,可以對文檔字段進行統計分析 Pipe
原创 4.通過Analyzer進行分詞
1. Analysis與Analyzer Analysis : 文本分析是吧全文本轉換成一系列單詞(term/token)的過程,也叫分詞 Analysis : 是通過Analyzer來實現的 可使用Elasticsearch
原创 8.多字段特性&Analyzer&Template
1.多字段特性 多字段特性 廠商名字實現精準匹配 增加一個keyword字段 使用不同的analyzer 不同語言 pinyin字段的搜索 還支持爲搜索和索引指定不同的analyzer 1.1 Exact V
原创 2.Elasticsearch基本概念
1 概述 2.文檔(document) Elasticsearch是面向文檔的,文檔是所有可搜索數據的最小單元 日誌文件中的日誌項 一本電影的具體信息/一張唱片的詳細信息 MP3播放器裏的一首歌/一片PDF文檔中的具體內容