Hadoop應用架構-OReilly 2015-讀書筆記

原創

2020-06-21 07:51

Hadoop Application Architectures-OReilly 2015-ReadingNotes.md

數據建模

p23 HBase基於TTL的舊數據清除（合併到新HFile時跳過）
p25 爲了能夠在Hive外部使用metastore，一個新項目HCatalog啓動了

數據移動

p32 HBase的掃描速度大約是HDFS的1/10-1/8，訪問單個記錄的時間爲毫秒級別
p36 Flume攔截器？
p40 小文件：
- 使用Solr
- 使用HBase
- 使用容器格式，如SequenceFiles或Avro
可掛載的HDFS
- Fuse-DFS（會顯著影響性能，模型持續性較差？）
- NFSv3
Sqoop：Hadoop與關係數據庫的批量傳輸
- 可能的瓶頸：數據傾斜：Mapper對主鍵的劃分不均勻
- 2種方法鑑別更新過的行：
  1. Sequence ID
  2. 時間戳
Flume架構：數據源 --> 攔截器 --> 選擇器 --> Channel --> Sink
p56 Camus: 從Kafka中批量加載數據

數據處理

MapReduce
Spark
- RDD
抽象層
- Pig
- Crunch
  - 核心：Pipeline對象，done()觸發流水線的執行
- Cascading
Hive
- 外部表導入：CREATE EXTERNAL TABLE ... FIELDS TERMINATED BY '|' STORED AS TEXTFILE LOCATION 'foo';
- 收集統計信息（用於CBO？）：ANALYZE TABLE foo COMPUTE STATISTICS
- 支持各種不同的分佈式JOIN：
  - map關聯（hash關聯）
  - bucketed join
  - sorted buckted merge join
- EXPLAIN（查詢計劃）：用戶應該養成習慣，查看Hive究竟在背後做了什麼
Impala
- DataNode：查詢規劃器 --> 查詢協調器 --> 查詢執行器
- 分佈式MPP數據庫：（參考本書附錄）
  - broadcast hash join（將小表複製到所有大表數據所在的節點上，以hashtable形式加載到內存作過濾）
  - partitioned hash join（先hash分區，再分發，每個節點緩存數據集的一個子集）
- 與Hive不同，Impala後臺服務是長期運行的進程
- 用LLVM編譯查詢，將查詢用到的方法編譯爲優化的機器碼
- p102 如果查詢需要掃描非常多的數據，節點故障不可以強制要求重啓恢復查詢，推薦使用Hive

通用範式

依據主鍵去重
windowing分析
- 注意SQL語句裏的OVER關鍵詞
基於時間序列的更新
- 利用HBase的版本特性
- 使用RecordKey-StartTime作爲row key
- 重寫HDFS更新整個表
- 利用分區分開存儲當前記錄和歷史記錄

圖處理

BSP模型
Giraph
Spark GraphX

協調調度

Airbnb Chronos on Mesos？
OOzie
- 工作流範式
  - 點對點
  - 扇出（fork-and-join）
  - 分支決策
- 調度模式
  - 頻率
  - 時間／數據觸發

近實時處理

p170 lambda架構
Storm
- 在要求“僅處理1次”時，2個選擇：（1）事務性拓撲；（2）Trident
Spark Streaming

點擊流分析

欺詐檢測

數據倉庫

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

多點 Dmall x TiDB：出海多雲多活架構下的 TiDB 運維實戰

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

神策數據付力力入選福布斯中國 30 Under 30 十週年名人堂

福布斯中國30 UNDER 30 持續關注青年才俊。在 U30 十週年之際，福布斯中國通過跟蹤、梳理、比較歷年Under 30們入選後的表現、社會影響力事件，以及創業精神詮釋，編制了福布斯中國U30名人堂名單。神策數據聯合創始人 & 技術

2024-05-14 21:51:58

企業IT架構治理之道

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早

京東雲開發者

2024-05-13 23:59:32

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

神策數據：詳解保險 OMO 一體化的關鍵步驟

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

數倉安全：數據脫敏技術深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

24小時熱門文章

最新文章

最新評論文章