台部落大数据技术架构

前言：本文主要講述瞭如何使用Docker快速上手HBase，省去繁雜的安裝部署環境，直接上手，小白必備。適合HBase入門學習及簡單代碼測試。 1. Docker 安裝參考地址： https://yeasy.gitbook.io/d

2020-05-23 23:23:29

前言：還記得那是2018年的一個夏天，天氣特別熱，我一邊擦汗一邊聽領導大刀闊斧的講述自己未來的改革藍圖。會議開完了，核心思想就是：我們要搞一個數據大池子，要把公司能灌的數據都灌入這個大池子，然後讓別人用各種姿勢來撈這些數據。系統從開始打

2020-05-23 23:23:29

我們知道，數據達到HBase服務端會寫WAL-寫Memstore，然後定期或滿足一定條件時刷寫磁盤生成一個HFile文件，隨着時間推移生成的HFile會越來越多，將會影響HBase查詢性能，同時會對HDFS造成一定影響。因此HBase會

2020-05-23 23:23:29

1.近實時攝取將數據從外部源如事件日誌、數據庫提取到Hadoop數據湖中是一個很常見的問題。在大多數Hadoop部署中，一般使用混合提取工具並以零散的方式解決該問題，儘管這些數據對組織是非常有價值的。對於RDBMS攝取，Hudi通過

2020-05-23 23:23:29

Parquet 是 Hadoop 生態圈中主流的列式存儲格式，最早是由 Twitter 和 Cloudera 合作開發，2015 年 5 月從 Apache 孵化器裏畢業成爲 Apache 頂級項目。有這樣一句話流傳：如果說 HDFS

2020-05-23 23:23:29

Hive on spark 性能遠比hive on mr 要好，而且提供了一樣的功能。用戶的sql無需修改就可以直接運行於hive on spark。udf函數也是全部支持。本文主要是想講hive on spark 在運行於yarn模式

2020-05-20 05:37:21

作者：鄭鍇，花名鐵傑，阿里巴巴高級技術專家，Apache Hadoop PMC，Apache Kerby 創立者。深耕分佈式系統開發和開源大數據多年，目前專注於在阿里雲上提供更好用更有彈性的 Hadoop/Spark 大數據平臺。最近幾

2020-05-13 08:28:54

前言：參數之於軟件系統就像按鈕之於工程系統，絕大多數工程師對於工程系統的認知就是首先從這些按鈕來的，而且通常來說按鈕越多，系統就會越複雜。認知過程無非三個階段，首先弄明白這些按鈕都用來控制神馬，再者是在什麼場景下需要旋轉按鈕、如何旋轉，

2020-05-13 08:28:54

隨着Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發展，Hadoop生態系統有潛力作爲面向分鐘級延時場景的通用統一服務層。然而，爲了實現這一點，這需要在HDFS中實現

2020-05-13 08:28:54

百花齊放的大數據生態17，18是計算引擎火熱的兩年，19年已然是紅海了。計算引擎中的王者是Spark，綜合指標最好，生態也好，當其他引擎還在ETL,交互查詢，流上廝殺時，Spark已經在AI領域越走越遠。對比明顯的是，計算層的上層和下層

2020-05-13 08:28:54

大數據人才作爲中國互聯網行業需求最旺盛的六類人才之一，初級大數據工程師的薪水就達15k，有三年以上工作經驗的資深工程師更是高達年薪50-60萬。據麥肯錫報告，目前大數據人才缺口更是在百萬人以上。如何實現大數據開發入門呢？如果把學習路線做

2020-05-13 08:28:54

近期Redis 6.0.0穩定版發佈了，是Redis有史以來最大的版本， Redis的作者在博客中介紹了該版本中的新特性，此外除了這些新特性外，Redis 6也正式支持多線程！意味着從此不能單純的說Redis是單線程模型了。本文我們先來

2020-05-07 20:36:10

Shuffle簡介 Shuffle的本意是洗牌、混洗的意思，把一組有規則的數據儘量打亂成無規則的數據。而在MapReduce中，Shuffle更像是洗牌的逆過程，指的是將map端的無規則輸出按指定的規則“打亂”成具有一定規則的數據，以便

2020-05-01 10:34:17

作者：陳旭往期回顧：HBase實踐 | HBase內核優化與吞吐能力建設CAP能力模型在CAP能力模型表現方面，hbase主要是面向CP的應用系統，針對數據寫入可以滿足強一致性需求，從客戶端視角來看寫入成功之後的數據是即時可見的。然而h

2020-05-01 10:34:17

Kafka 在執行消息的寫入和讀取這麼快的原因，其中的一個原因是零拷貝（Zero-copy）技術，下面我們來了解一下這麼高效的原因。傳統的文件讀寫傳統的文件讀寫或者網絡傳輸，通常需要將數據從內核態轉換爲用戶態。應用程序讀取用戶態內存

2020-04-28 15:42:04