原创 HBase實踐 | 使用 Docker 快速上手 HBase

前言:本文主要講述瞭如何使用Docker快速上手HBase,省去繁雜的安裝部署環境,直接上手,小白必備。適合HBase入門學習及簡單代碼測試。 1. Docker 安裝 參考地址: https://yeasy.gitbook.io/d

原创 HBase+ElasticSearch二級索引實踐總結

前言:還記得那是2018年的一個夏天,天氣特別熱,我一邊擦汗一邊聽領導大刀闊斧的講述自己未來的改革藍圖。會議開完了,核心思想就是:我們要搞一個數據大池子,要把公司能灌的數據都灌入這個大池子,然後讓別人用各種姿勢來撈這些數據。系統從開始打

原创 HBase原理 | HBase Compaction介紹與參數調優

我們知道,數據達到HBase服務端會寫WAL-寫Memstore,然後定期或滿足一定條件時刷寫磁盤生成一個HFile文件,隨着時間推移生成的HFile會越來越多,將會影響HBase查詢性能,同時會對HDFS造成一定影響。因此HBase會

原创 Hudi原理 | Apache Hudi 典型應用場景介紹

1.近實時攝取 將數據從外部源如事件日誌、數據庫提取到Hadoop數據湖中是一個很常見的問題。在大多數Hadoop部署中,一般使用混合提取工具並以零散的方式解決該問題,儘管這些數據對組織是非常有價值的。 對於RDBMS攝取,Hudi通過

原创 再來聊一聊 Parquet 列式存儲格式

Parquet 是 Hadoop 生態圈中主流的列式存儲格式,最早是由 Twitter 和 Cloudera 合作開發,2015 年 5 月從 Apache 孵化器裏畢業成爲 Apache 頂級項目。 有這樣一句話流傳:如果說 HDFS

原创 Hive on Spark 運行於Yarn模式下如何調優

Hive on spark 性能遠比hive on mr 要好,而且提供了一樣的功能。用戶的sql無需修改就可以直接運行於hive on spark。udf函數也是全部支持。本文主要是想講hive on spark 在運行於yarn模式

原创 Hadoop社區比 Ozone 更重要的事情

作者:鄭鍇,花名鐵傑,阿里巴巴高級技術專家,Apache Hadoop PMC,Apache Kerby 創立者。深耕分佈式系統開發和開源大數據多年,目前專注於在阿里雲上提供更好用更有彈性的 Hadoop/Spark 大數據平臺。最近幾

原创 HBase最佳實踐 | 聊聊HBase核心配置參數

前言:參數之於軟件系統就像按鈕之於工程系統,絕大多數工程師對於工程系統的認知就是首先從這些按鈕來的,而且通常來說按鈕越多,系統就會越複雜。認知過程無非三個階段,首先弄明白這些按鈕都用來控制神馬,再者是在什麼場景下需要旋轉按鈕、如何旋轉,

原创 Apache Hudi:劍指數據湖的增量處理框架

隨着Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發展,Hadoop生態系統有潛力作爲面向分鐘級延時場景的通用統一服務層。然而,爲了實現這一點,這需要在HDFS中實現

原创 認識 Delta Lake:讓數倉進化到數據湖

百花齊放的大數據生態17,18是計算引擎火熱的兩年,19年已然是紅海了。計算引擎中的王者是Spark,綜合指標最好,生態也好,當其他引擎還在ETL,交互查詢,流上廝殺時,Spark已經在AI領域越走越遠。對比明顯的是,計算層的上層和下層

原创 免費福利領取:3場網易的大數據直播課程

大數據人才作爲中國互聯網行業需求最旺盛的六類人才之一,初級大數據工程師的薪水就達15k,有三年以上工作經驗的資深工程師更是高達年薪50-60萬。據麥肯錫報告,目前大數據人才缺口更是在百萬人以上。如何實現大數據開發入門呢?如果把學習路線做

原创 Redis 6.0 穩定版發佈,正式支持多線程

近期Redis 6.0.0穩定版發佈了,是Redis有史以來最大的版本, Redis的作者在博客中介紹了該版本中的新特性,此外除了這些新特性外,Redis 6也正式支持多線程!意味着從此不能單純的說Redis是單線程模型了。本文我們先來

原创 MapReduce Shuffle 和 Spark Shuffle 結業篇

Shuffle簡介 Shuffle的本意是洗牌、混洗的意思,把一組有規則的數據儘量打亂成無規則的數據。而在MapReduce中,Shuffle更像是洗牌的逆過程,指的是將map端的無規則輸出按指定的規則“打亂”成具有一定規則的數據,以便

原创 HBase實踐 | HBase IO優化與高可用建設

作者:陳旭往期回顧:HBase實踐 | HBase內核優化與吞吐能力建設CAP能力模型在CAP能力模型表現方面,hbase主要是面向CP的應用系統,針對數據寫入可以滿足強一致性需求,從客戶端視角來看寫入成功之後的數據是即時可見的。然而h

原创 Kafka是如何利用零拷貝提高性能的

Kafka 在執行消息的寫入和讀取這麼快的原因,其中的一個原因是零拷貝(Zero-copy)技術,下面我們來了解一下這麼高效的原因。 傳統的文件讀寫 傳統的文件讀寫或者網絡傳輸,通常需要將數據從內核態轉換爲用戶態。應用程序讀取用戶態內存