原创 Hbase高級特性及其優化分析

一、Hbase中的常見屬性        VERSIONS:指版本數        MIN_VERSIONS=> '0':最小版本數        TTL=> 'FOREVER':版本存活時間               假設v

原创 YARN中自己總結的幾個關鍵點

以前在Hadoop 1.0中JobTracker主要完成兩項功能:資源的管理和作業控制。在集羣規模過大的場景下,JobTracker 存在以下不足: 1)JobTracker 單點故障。 2)JobTracker 承受的訪問壓力大,影響系

原创 百度第三代Spider是什麼?

百度第三代Spider是什麼? 在過去,百度搜索引擎的數據處理的多數工作是由MapReduce系統完成的,處理延時達到天級。從2014年開始,Spider系統進行了大規模重構,以搜索結果更新延遲從周級縮短到分鐘級爲目標,設計實現了海量

原创 Sparkler:Spark上的爬蟲

本講義出自Karanjeet Singh與Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演講,主要介紹了利用了分佈式計算和信息檢索領域的最新發展技術並且組合了像Spark, Ka

原创 Hbase的TTL字段超時設置測試

在工作中,很多時候需要對錶字段進行限定,例如限定一列的超時時間等。 今天就總結一下: 1. 做Hbase表做更改前,首先要disable 這個表,否則記錄會丟失。 首先,我們建立一個測試表test,有一個列簇fa hbase(m

原创 JAVA操作HBASE數據操作詳解

Hbase對於建表,和RDBMS類似,hbase也有namespace的概念,可以指定表空間創建表,也可以直接創建表,進入default表空間。 對於數據操作,HBase支持四類主要的數據操作,分別是: Put :增加一行,

原创 hbase日常操作以及日常維護

一,基本命令:     建表:create 'testtable','coulmn1','coulmn2'      也可以建表時加coulmn的屬性如:create 'testtable',{NAME => 'coulmn1', BLO

原创 Java操作Hbase進行建表、刪表以及對數據進行增刪改查,條件查詢

1、搭建環境   新建JAVA項目,添加的包有:    有關Hadoop的hadoop-core-0.20.204.0.jar    有關Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以

原创 Spark平臺上的JavaWordCount示例

WorldCount目錄結構如下: [root@master WordCount]# find . . ./src ./src/main ./src/main/java ./src/main/java/JavaWordCount.jav

原创 基於spark的網絡爬蟲實現

爬蟲是獲取網絡大數據的重要手段,爬蟲是一種非常成熟的技術了,然而想着在Spark環境下測試一下效果. 還是非常簡單的,利用JavaSparkContext來構建,就可以採用原來Java中的網頁獲取那一套來實現. 首先給定幾個初始種子,

原创 Hbase 建表基本命令總結

訪問Hbase,以及操作hbase,命令不用使用分號 hbase shell 進入hbase list 查看錶 hbase shell -d hbase(main):024:0> scan '.META.' =============小例

原创 Flink on YARN快速入門指南

  Apache Flink是一個高效、分佈式、基於Java和Scala(主要是由Java實現)實現的通用大數據分析引擎,它具有分佈式 MapReduce一類平臺的高效性、靈活性和擴展性以及並行數據庫查詢優化方案,它支持批量和基於

原创 Apache Hadoop 2.2.0 HDFS HA + YARN多機部署

部署邏輯架構: HDFS HA部署物理架構 注意: JournalNode使用資源很少,即使在實際的生產環境中,也是把JournalNode和DataNode部署在同一臺機器上; 生產環境中,建議主備NameN

原创 HBaseFilter過濾器的介紹以及使用

1 過濾器 HBase 的基本 API,包括增、刪、改、查等。 增、刪都是相對簡單的操作,與傳統的 RDBMS 相比,這裏的查詢操作略顯蒼白,只能根據特性的行鍵進行查詢(Get)或者根據行鍵的範圍來查詢(Scan)。 HBase

原创 大數據處理引擎Spark與Flink大比拼

大數據技術正飛速地發展着,催生出一代又一代快速便捷的大數據處理引擎,無論是Hadoop、Storm,還是後來的Spark、Flink。然而,畢竟沒有哪一個框架可以完全支持所有的應用場景,也就說明不可能有任何一個框架可以完全取代另一個。今