原创 「DUBBO系列」線程池打滿問題分析方法與實例

1 文章概述 DUBBO線程池打滿是一個嚴重問題,本文通過一個實例分析如何排查這個問題,首先我們用代碼重現這個異常。   1.1 生產者配置 <beans>   <dubbo:registry address="zookeeper:/

原创 Hive中的複雜數據類型

在Hive中如何使用符合數據結構  maps,array,structs 1 Array的使用 創建數據庫表,以array作爲數據類型create table  person(name string,work_locations arra

原创 Hadoop中的序列化

1 簡介 序列化和反序列化就是結構化對象和字節流之間的轉換,主要用在內部進程的通訊和持久化存儲方面。通訊格式需求 hadoop在節點間的內部通訊使用的是RPC,RPC協議把消息翻譯成二進制字節流發送到遠程節點,遠程節點再通過反序列化把二進

原创 Hadoop中的壓縮(2) Mapper中使用壓縮

1 輸入文件 若輸入文件時壓縮過的,那麼被MR讀取時它們會被自動解壓。根據文件擴展名可以確定使用哪一個文件解碼器。TextInputFormat的getRecordReader方法,再進入LineRecordReader。 if (i

原创 Hadoop1.X中使用RPC

1.1 協議 import org.apache.hadoop.io.Text; import org.apache.hadoop.ipc.VersionedProtocol; public interface MyProtocol e

原创 MapReduce中的InputFormat(2)自定義

1 概述 Hadoop內置的輸入文件格式類有: 1)FileInputFormat<K,V>這個是基本的父類,自定義就直接使用它作爲父類。 2)TextInputFormat<LongWritable,Text>這個是默認的數據格式類。k

原创 MapReduce中如何處理跨行的Block和InputSplit

1 提出問題 Map最小輸入數據單元是InputSplit。比如對於那麼對於一個記錄行形式的文本大於128M時,HDFS將會分成多塊存儲(block),同時分片並非到每行行尾。這樣就會產生兩個問題: 1、Hadoop的一個Block默認是

原创 Hadoop中的FileStatus、BlockLocation、LocatedBlocks、InputSplit

1 FileStatus 1.1 包名 org.apache.hadoop.fs.FileStatus 1.2 格式 FileStatus{path=hdfs://192.X.X.X:9000/hadoop-2.7.1.tar.gz; i

原创 Hadoop API文檔地址

經常需要查閱,做一下筆記 http://hadoop.apache.org/docs/ http://hadoop.apache.org/docs/current1/api/ http://hadoop.apache.org/docs/c

原创 Hadoop報錯:Failed to locate the winutils binary in the hadoop binary path

1 發現問題在虛擬機中搭建了hadoop集羣,在windows中通過代碼訪問報錯 15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils binary in the ha

原创 MapReduce中的InputFormat(1)概述

1 概念InputFormat用於描述輸入數據的格式,提供以下兩個功能:A、數據切分:按照某種策略將輸入的數據切分成若干split,以便確定Map Task個數,以及對應的Split。B、提供數據:爲Mapper提供輸入數據,對於給定sp

原创 Hadoop報錯:could only be replicated to 0 nodes, instead of 1

1 發現問題 執行hadoop上傳文件命令,報錯could only be replicated to 0 nodes, instead of 12 方案1 原因:查看logs文件夾下datanode相關日誌:java.io.IOExce

原创 我的聲明和公衆號

本人技術員一枚,以上博客都是對技術的體會和感悟,不能保證全部博文正確或最優,期待大牛們指正。博文僅供學習交流,不可作爲除學習外的任何用途。本人原創文章未經允許不得轉載。十分期待並歡迎技術以及生活的愛好者交流學習。  

原创 Hadoop上傳文件報錯: name node is in safe mode

將本地文件拷貝到hdfs上去,結果上錯誤:Name node is in safe mode 這是因爲在分佈式文件系統啓動的時候,開始的時候會有安全模式,當分佈式文件系統處於安全模式的情況下,文件系統中的內容不允許修改也不允許刪除,直到安

原创 Hadoop中基於文件的數據格式(1)SequenceFile

1 概述 1 SequenceFile是Hadoop爲例存儲二進制的<k,v>而設計的一種平面文件。 2 SequenceFile的key和value是writable或者writable子類。 3 SequenceFile的存儲不按照k