原创 YARN 服務庫與事件庫

服務庫 對於生命週期較長的對象, YARN 採用了基於服務的對象管理模型對其進行管理, 該模型主要有以下幾個特點。 將每個被服務化的對象分爲 4 個狀態: NOTINITED(被創建)、INITED(已初始化)、 STARTED

原创 JAVA 配置管理庫 typesafe.config

      Typesafe的Config庫,純Java寫成、零外部依賴、代碼精簡、功能靈活、API友好。支持Java properties、JSON、JSON超集格式HOCON以及環境變量。它也是Akka的配置管理庫。     

原创 HBase存儲架構

從HBase的架構圖上可以看出,HBase中的存儲包括HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,本篇文章統一介紹他們的作用即存儲結構。

原创 Yarn 應用開發流程

1 概況 Apache Hadoop YARN (Yet Another Resource Negotiator,另一種資源協調者)是Hadoop系統上的資源統一管理平臺,其主要作用是實現集羣資源的統一管理和調度。YARN是一個高

原创 HBase WAL 解析

WAL(Write-Ahead-Log)是HBase的RegionServer在處理數據插入和刪除的過程中用來記錄操作內容的一種日誌。大致過程如下圖所示,首先客戶端啓動一個操作來修改數據,每一個修改都封裝到KeyValue對象實例

原创 Lucene 索引技術

1 信息檢索技術基礎 1.1 全文檢索基本過程 我們處理的數據包含兩類,一是具有固定格式或有限長度的結構化數據,如數據庫、元數據等;另一個是非結構化的數據,如圖片、郵件、word文檔等。對結構化數據的存儲和查詢技術比較簡單和成熟,

原创 提高HBase WAL寫入性能

問題描述:       HBase在集成其它組件,作爲存儲引擎完成組合服務時,往往是數據先寫入HBase,然後對數據進行檢索,之後數據通過網絡傳輸給目標服務。HBase與組件之間的數據一致性使用WAL來保證。WAL是一種常用的保證數據可靠

原创 初識 Solr

全文檢索概述 Solr簡介 1 Solr服務器框架 2 Solr目錄結構 3 Solr Admin 4 Solr的配置 241 solrxml 242 solrconfigxml 243 schemaxml 1

原创 YARN 狀態機庫

狀態機庫 狀態機由一組狀態組成, 這些狀態分爲三類 : 初始狀態、 中間狀態和最終狀態。 狀態機從初始狀態開始運行, 經過一系列中間狀態後, 到達最終狀態並退出。 在一個狀態機中,每個狀態都可以接收一組特定事件, 並根據具體的事件類型轉換

原创 Kafka 簡析

我們爲什麼要搭建該系統 Kafka是一個消息系統,原本開發自LinkedIn,用作LinkedIn的活動流(activity stream)和運營數據處理管道(pipeline)的基礎。現在它已爲多家不同類型的公司 作爲多種類型的數

原创 大數據應用統一集成平臺CDAP簡介

CDAP概述 CDAP的特性 CDAP的架構和技術 CDAP的適用場景 CDAP的優缺點 總結 CDAP概述       CDAP (CAST DATA APPLICATION PLATFORM)是一個開源的大數據應用統一集

原创 Kafka Zero-Copy 使用分析

Kafka的高效讀寫是有Zore-copy技術實現的,那麼Zore-copy是如何作用於Kafka呢?關於Zore-copy技在此不再贅述。 Kafka在什麼場景下用了這個技術 Zero-Copy 是如何被調用,並且

原创 ThreadLocal

ThreadLocal並不是一個Thread,而是Thread的局部變量,也許把它命名爲ThreadLocalVariable更容易讓人理解一些。 當使用ThreadLocal維護變量時,ThreadLocal爲每個使用該變量的線程提供獨

原创 Solr 進階

Solr索引過程 solr 檢索過程 Solr Cloud簡介 Solr Cloud的拓撲結構       Solr是一個基於Lucene的一個全文檢索引擎,依賴Lucene提供高效的信息檢索服務。SolrCloud是Solr4.0的

原创 Elasticsearch 架構

Elasticsearch 是最近兩年異軍突起的一個兼有搜索引擎和NoSQL數據庫功能的開源系統,基於Java/Lucene構建。最近研究了一下,感覺 Elasticsearch 的架構以及其開源的生態構建都有許多可借鑑之處,所以整理成文