Hadoop權威指南（第4版）-OReilly 2016 讀書筆記

原創

2020-06-21 07:51

Hadoop權威指南（第4版）-OReilly 2016-ReadingNotes.md

初識Hadoop

關於MapReduce

mapper和reducer
combiner*

HDFS

p48 Hadoop2: HA，備用namenode
2種HA共享存儲：
- NFS過濾器
- QJM（quorum journal manager）
p73 副本怎麼放
- 由近到遠隨機放（注意，hadoop不使用DHT機制，靠的是namenode的索引維護）

YARN

p83 MapReduce 1 vs YARN
- RM -> NM（管理監控容器）：YARN vs k8s vs Mesos？

Hadoop的I/O操作

p99 deflate／gzip不可切分？？？見鬼（bz2反而可以？）
- p105 壓縮塊連續存儲，沒有特殊標記，無法從數據流任意位置快速定位到下一個塊
自定義序列化格式：Writable
- WritableComparator
高層次容器封裝：SequenceFile
- MapFile：排序過的SequenceFile，有索引（這讓我想起chromium for android裏面的pak資源格式）
其他：Avro、ORCFile

MapReduce應用開發

Configuration API
MRUnit
- p159 測試驅動程序：Mini集羣？
打包作業
Web界面
日誌
作業調優
工作流：JobControl、Oozie

MapReduce工作機制

p191 map／reduce任務的JVM會在退出前向其父app master發送錯誤報告
p195 shuffle：系統執行排序，將map輸出作爲輸入傳給reduce的過程
- 溢出文件（spill file），combiner
p202 推測執行
OutputCommiter *

MapReduce類型與格式

默認情況下，只有1個reducer
InputFormat
- 輸入分片
OutputFormat（略）

MapReduce特性

用戶自定義計數器
- p250 動態計數器：enum --> string？
排序是MapReduce的核心技術？
- p256 通過對鍵空間進行採樣，可較爲均勻地劃分數據集
- 輔助排序*
連接
- map端：merge-join？
  - org.apache.hadoop.mapreduce.join.CompositeInputFormat
- reduce端：hash-join？
邊數據（side data）分佈
- 分佈式緩存（org.apache.hadoop.filecache.DistributedCache）

構建Hadoop集羣

商用機器規格：靠
Hadoop安全
- 委託令牌？

管理Hadoop

關於Avro

關於Parquet

p364 原子類型：int96？？

Flume

Sqoop

p414 BlobRef
p416 Sqoop會根據目標表的定義生成java類（這個牛）

Pig

p432 多查詢執行（類似於編譯器後端優化中的CSE）
p452 UDF
p459 分段複製連接（fragment replicate join）：這不就是Hive裏的broadcast hash join嘛

Hive

執行引擎：Tez／Spark的優越性？？
p482 其他SQL-on-Hadoop：Apache Phoenix：SQL on HBase
HiveQL
分區和桶
p504 Hive只支持等值連接？
- RBO -> 0.14+ CBO
p512 UDAF（聚集函數）

Crunch

Spark

HBase

ZooKeeper

案例學習：醫療公司Cerner的可聚合數據

生命數據科學：用軟件拯救生命

Cascading

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《分佈式服務架構：原理、設計與實戰》

1 分佈式微服務架構設計原理 1.1 從傳統單體架構到服務化架構 JEE架構針對企業級應用定義，進行了邏輯分層，包括Web層、業務邏輯層、數據存取層，大多數項目仍然部署在同一個應用服務器上的一個JVM進程中。 SSH架構仍然以

2020-07-08 11:23:27

黃階低級 - 《 Java 核心》- 4.2 使用預定義類 - 修改0次

使用預定義類在 Java 中，沒有類就無法做任何事情！並不是所有類都有面向對象特徵，例如， Math 類。 1、對象和對象變量要想使用對象，就必須首先構造對象，並指定其初始狀態，然後，對對象應用方法通常，我們

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.2 註釋 - 修改0次

Java 註釋在 Java 中，有三種註釋方式 1、單行註釋（短註釋）註釋內容從 // 開始到本行結束 System.out.println("we will not use 'Hello World !'");//這是單

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.4 靜態域和靜態方法 - 修改0次

靜態域和靜態方法在絕大多數的面向對象程序設計語言中，靜態域被稱爲類域，術語“ static ”只是沿用了 C++ 的叫法，並無實際意義 1、靜態常量和靜態方法靜態變量用的比較少，靜態常量卻用的比較多一個常用的靜態常

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.5 運算符 - 修改0次

1、自增自減運算符有兩種形式，前綴和後綴，前綴先進行加1運算，後綴使用變量原來的值。 int m = 7; int n = 7; int a = 2 * ++m;// now a is 16, m is 8 int b =

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.0 對象和類 - 修改0次

對象和類開始新的一章，主要介紹: 1、面向對象程序設計 2、如何創建標準 Java 類庫中的類的對象 3、如何編寫自己的類

2020-07-08 06:59:06

深度之眼《Python基礎+數據科學入門》筆記

文|Seraph 00 | 緒論和環境配置通常學員機器學習實戰過程中的問題：寫的代碼不夠簡潔、高效、強壯。 Python是解釋型動態語言，與編譯型靜態語言（C++等）的區別是：靜態語言編譯的時候就已經知道數據類型，而動態語言執

2020-07-08 00:56:51

《Java高併發編程詳解-多線程架構與設計》線程安全與數據同步

摘自《Java高併發編程詳解-多線程架構與設計》第四章文章目錄定義Synchronized使用深入 synchronized關鍵字使用synchronized注意的問題4.容易死鎖的原因死鎖檢測定義共享資源：多個線程對同

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》Thread API

摘自《Java高併發編程詳解-多線程架構與設計》第三章文章目錄1.sleep不會釋放monitor鎖的所有權2.使用TimeUnit.XX.sleep代替Thread.sleep3.yield讓出CPU資源4.yield與s

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》線程間的通信

摘自《Java高併發編程詳解-多線程架構與設計》第五章文章目錄同步、異步、阻塞、非阻塞概念Monitor鎖wait 與 notify使用wait的注意事項使用notify的注意例子：測試主動interrupt對if中使用wa

2020-07-07 22:20:30

第三章存儲與檢索

第二章關注的是將數據錄入數據庫系統的格式，以及檢索出來的機制，這章關注同樣的問題，但是是從數據庫的視角來看：數據庫如何存儲我們的數據，以及如何檢索出我們需要的數據。書中開篇列舉了一個使用bash 命令製作的簡單數據庫的例子：

理想你今年几岁

2020-07-07 21:58:12

【讀書筆記】金融理財，半佛推薦，小狗錢錢_2020.05.01

【概述】書名：小狗錢錢作者：博多·舍費爾日期：2020年05月01日讀書用時：413頁，8小時。【讀書筆記】 ◆ 童話與理財 >> 我們從教科書中知道，很久很久以前，貨幣（金錢）是爲方便人們進行貨物交換而誕生的，是爲人服務的

2020-07-07 21:54:02

【讀書筆記】管理技巧-逆商思維，逆商：我們該如何應對壞事件_2020.07.01

【概述】書名：逆商：我們該如何應對壞事件作者：保羅·史託茲日期：2020年07月01日讀書用時：1028頁，8.5小時。【讀書筆記】 ◆ 推薦序一逆風飛揚 >> 逆商的CORE四個維度[CORE是英文單詞Control（掌控感

2020-07-07 21:54:01

淘寶海量數據產品技術架構

轉自： http://blog.csdn.net/smarttony/article/details/6667944 淘寶數據魔方技術架構解析淘寶網擁有國內最具商業價值的海量數據。截至當前，每天有超過30億的店鋪、商品瀏覽記錄，

迷失的小书童

2020-07-07 20:59:04

百度筆試題，求解答

轉載於：http://blog.csdn.net/smarttony/article/details/1478600 百度筆試題，求解答一、選擇題：15分共10題 1. 在排序方法中，關鍵碼比較次數與記錄地初始排列無關的

迷失的小书童

2020-07-07 20:59:04

24小時熱門文章

最新文章

最新評論文章