Hadoop權威指南（第三版）筆記

原創

2020-07-04 02:18

第一章：

爲什麼不用數據庫對大量硬盤上的大規模數據進行批量分享，而要用map reduce呢？

關乎計算機硬盤的發展趨勢：尋址時間的提升遠不敵傳輸速率的提升。尋址是導致硬盤操作延遲的主要原因。

另，M/R對半結構、非結構話數據更有效。

第二章：

氣象數據集詳細實戰解析

第四章：

序列化：將結構化對象轉化爲字節流以便在網絡上傳輸或寫到磁盤，經常出現在進程間通信和永久存儲。

Hadoop多個節點的進程間通信通過RPC，RPC序列化格式4大理想屬性：

緊湊；

快速；

可擴安裝；

支持互操作。

Hadoop使用自己的序列化格式Writable，緊湊速度快，但不太容易用Java以外的語言進行擴展或使用。

4.3 序列化一節詳細解析了Writable各種子類（primitive的，集合類型的，nullWritable，ObjectWritable，GenericWritable……）。

除了以上Hadoop提供的非常有用的Writable，我們也可根據自己的需求構造新的定製實現，完全控制二進制表示和排序順序。由於Writable是MapReduce數據路徑的核心，挑戰二進制表示能對性能產生顯著效果。

範例4-7演示了定製Writable TextPair的實現，以及“比較”的改進（乾貨。簡潔演示了避開反序列化進行TextPair的設計和辦法）。

Avro是一個獨立於編程語言的數據序列化系統。

接下來是一個很有參考價值的實戰示例，但沒細看。回頭參考。

（第四章從這裏開始到章末，未細看。）

哪些應用領域不適合運行在hdfs上？

第五-八章：沒什麼意思，翻過去了，沒細看。

第九章：重要。非常全面地介紹了hadoop配置，對實戰具有很好的指導意義

9.4.5 hadoop其他屬性

也是一些常見有用的屬性。包括：

1 集羣成員（hosts）

2 緩衝區大小（4KB no ok，128 KB常用）

3 HDFS塊大小：64M？128/256更有助於降低namenode內存壓力並向mapper傳輸更多數據。

4 保留的存儲空間

5 回收站

6 作業調度：可將默認的FIFO替換爲一個具有更多特性的調度器。

7 慢啓動reduce

8 任務內存限制（重要）

在共享集羣上不允許問題MR影響集羣中各節點的正常工作。

可通過設定mapred.child.java.opts參數並鎖定（final修飾）來控制mr任務對內存的使用量，但並不總是可行。

比如總有一些合理因素允許部分作業佔用更多內存。

另外，有些任務能創建新進程，且其內存使用不受上述參數約束，例如streaming和管道作業就是如此。

怎麼辦？怎麼加強任務的內存限制管理？兩種機制：

第十章：管理Hadoop

重要。不過只瀏覽了一下。有時間最好參考着實操一下。

第十一章：PIG略過

第十二章：HIVE

回頭來看

第十三章：HBASE

回頭來看

第十四章：Zookeeper

（未細看。非常值得抽時間來細看。包含一個領導者選舉示例；包含zk自身實現，其中展示了很多很多分佈式開發相關的議題；包括使用zk爲服務提供支持……應回來細看）

使用zk並不能避免分佈式系統固有的“部分失敗”，但它提供一組工具使你在構建分佈式應用時能對部分失敗進行正確處理。

第十五章：SQOOP略過

第十六章：實例學習

1 Last.fm 簡單實用，基本應用。已看透。

2 hive：略過時陳舊，且和當前需求關係不密切，翻過。

3 Nutch：成就。略過。

4 Rackspace 沒細看

5 cascading 沒細看。

6 萬億數量級排序——沒好好看。

7 pig+wukong探索十億數量級邊的網絡圖

略過

附錄沒啥可看。沒看。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

特徵：支持熱鍵放大位置跟隨縮放比例隨時調整高亮放大鏡區域記住上一次設定操作說明：啓動程序，托盤顯示圖標Ctrl+Q熱鍵開啓放大鏡放大位置跟隨鼠標移動鼠標滾輪調整縮放比例常見問題：視頻播放的時候能否實時放大不支持。放大期間，

2024-04-19 14:35:10

GPG4win 加解密使用筆記

簡介： Gpg4win是一套文件或email加密解密的安全方案。 Gpg4win - a secure solution for file and email encryption. Gpg4win (GNU Privacy Guard f

2024-04-19 14:33:30

視頻講解如何構建surging微服務調用

surging 是一款優秀的微服務引擎，包括了社區版，標準版，異構版，平臺版本來解決公司的業務場景需求，如果你是初學者，或者是技術狂熱者，社區版完全可以符合你們的要求來學習或者構建起微服務體系的引擎框架，如果你沒信心去把控構建

2024-04-19 14:32:59

【面試準備】項目經驗——接口自動化項目

Java junit 項目的接口就很簡單，只支持本地運行，結構就是這樣了。 REST_TEMPLATES

金大鑫要堅持

2024-04-19 14:29:29

【面試準備】【SQL】數據庫有哪些約束？

數據庫中的約束（constraints）是用來確保數據庫中數據的準確性和可靠性的一種規則。以下是一些常見的數據庫約束： PRIMARY KEY（主鍵）：確保列的值是唯一的，並且不能爲NULL。 FOREIGN KEY（外鍵）：用於在

金大鑫要堅持

2024-04-19 14:29:29

【面試準備】跨域問題解決方法

跨域是什麼瀏覽器對於javascript的同源策略的限制，是一種安全策略舉例：用戶登陸某個網站後，服務器在客戶端寫了一些cookie，如果cookie被其他網站讀取，那麼隱私信息就會泄漏，包含用戶的登錄狀態等。跨域情況說明：域名不

金大鑫要堅持

2024-04-19 14:29:29

遞歸處理複製變量目錄按原路徑複製到新目錄的腳本

腳本如下: 1 # coding: utf-8 2 3 """ 4 該腳本主要做把源目錄下所有文件，照搬原路徑基礎上覆制文件 5 """ 6 7 import os 8 # import shutil

2024-04-19 14:26:19

我的個人博客上線開源啦，歡迎圍觀！

博客地址：https://yanyunfeng.com 其實很早就有開發一個自己個人博客的想法，但是一直沒有付諸行動，如今大家能看到這篇文章，說明我的博客終於是上線啦，撒花～～在開發這個博客之前，我都是在各大平臺上寫些東西，但是吧，平臺規

2024-04-19 14:23:08

golang開發深入理解 context

context的歷史 context包在Go 1.7版本正式加入Go標準庫。在加入之前我們看看Go團隊核心成員Sameer Ajmani在2014年發表的一篇關於context介紹博客，地址：https://go.dev/blog/cont

2024-04-19 14:22:38

南方公園完整破碎

被魅惑了,就用自己人打一下自己即可解除. 手機女俠大招和減防攻擊很好用.

張博的博客

2024-04-19 14:20:58

BGE M3-Embedding 模型介紹

BGE M3-Embedding來自BAAI和中國科學技術大學，是BAAI開源的模型。相關論文在https://arxiv.org/abs/2402.03216，論文提出了一種新的embedding模型，稱爲M3-Embedding，它在多

2024-04-19 14:20:18

【百川大模型】RediSearch在python中的應用場景

[本文出自天外歸雲的博客園] RediSearch是一個非常強大的全文搜索引擎，它可以與Python一起使用，爲你的應用程序提供快速的搜索能力。以下是一些使用RediSearch的場景示例：場景一：商品搜索假設你正在開發一個電子商務網站

2024-04-19 14:16:58

CXF WebService wsdl2java

下載 apache-cxf-3.3.1 並解壓到bin 目錄下，輸入生成命令 wsdl2java -encoding utf-8 -d D:\Software\Webservice\ws http://XXX.XXX.XXX.XXX:X

2024-04-19 14:15:57

keycloak~jwt的rs256簽名的驗證方式

接口地址 keycloak開放接口地址：/auth/realms/fabao/.well-known/openid-configuration rsa算法相關術語 RSA算法是一種非對稱加密算法，其安全性基於大整數分解的困難性。在RS

2024-04-19 14:13:27

通過Java修改consul配置（保留註釋、保留縮進）

　　直接上代碼了，找了很久也沒找到保留註釋的三方包，snakeyaml 的縮進一直也有問題，就自己寫了個正則方式的　　consul也沒有相關接口，只接受整個的　　傳key和value，替換相應value值，　　大佬

2024-04-19 14:08:07

24小時熱門文章

最新文章

最新評論文章