线上Spark处理Bzip2引出Hadoop Bzip2线程安全问题

我们的Hadoop生产环境有两个版本，其中一个是1.0.3，为了支持日志压缩和split，我们添加了hadoop-1.2中关于Bzip2压缩的feature. 一切运行良好。

为了满足公司对迭代计算的需求(复杂HiveSQL,广告推荐算法，机器学习 etc), 我们构建了自己的Spark集群，最初是Standalone Mode，版本spark-0.9.1,支持Shark。

上线后，问题接踵而来，最为致命的是，shark在处理Hadooop bzip2文件时计算结果通常会有偏差,有时差的特别离谱(比如，用shark统计1个5kw行的日志,结果只有

3kw行).

显然shark+hive+spark+hadoop的某个环节出了bug。第一次面对这么复杂的系统，着实头疼。

于是，开始蛮干，部署shark+hive+spark+hadoop开发环境，debug，查看出问题的环节。（这个过程中把Spark-core的源码也缕了一遍),始终没有发现什么问题。

后来，参加了Spark技术大会，和同行交流的过程中，幡然悔悟： Spark的task是线程级并发的，而Hadoop MR的task是进程级并发的，那么，会不会是Bzip2存在线程安全问题呢？

回来后，查看Bzip2Codec相关的代码，终于发现了问题所在。(话说，凌晨3点，没有eclipse,用vim 改的), 迫不及待的重新编译Hadoop和Spark，测试，发现处理Bzip2结果OK了！

CBzip2InputStream 有一个flag变量private static boolean skipDecompression ,默认值是false. (表示是否要跳出解压缩？)

这个变量在CBZip2InputStream的 public static long numberOfBytesTillNextMarker方法里被置为true. 在CBZip2InputStream.read方法里可能被置为false；

看来，它是一个流(inputStream)读取过程中经常用到的flag变量.

假设，现在同一个进程内，有两个线程都要做Bzip2流的读取工作，它们共用一个static类型的标志位skipDecompression. 显然会出问题的。

解决办法：将其skipDecompression改成非static类型，修改调用skipDecompression的静态方法为非static类型。

(PS: Bzip2Codec.createInputStream 方法用于将给定的流InputStream转换成CBzip2InputStream. 是Bizp2文件读取时的必经方法。该方法里调用了CBZip2InputStream.numberOfBytesTillNextMarker静态方法，这里导致了多线程读取BZip2流时skipDecompresion标志位混乱)

由于向社区提交path需要漫长的过程，暂时没有提交社区。具体的patch如下，如有同行遇到同类问题，请借鉴.

Index: src/core/org/apache/hadoop/io/compress/bzip2/CBZip2InputStream.java
===================================================================
--- src/core/org/apache/hadoop/io/compress/bzip2/CBZip2InputStream.java	(版本 510)
+++ src/core/org/apache/hadoop/io/compress/bzip2/CBZip2InputStream.java	(版本 525)
@@ -129,7 +129,9 @@
   private int computedBlockCRC, computedCombinedCRC;
 
   private boolean skipResult = false;// used by skipToNextMarker
-  private static boolean skipDecompression = false;
+  //modified by jicheng.song
+  //private static boolean skipDecompression = false;
+  private  boolean skipDecompression = false;
 
   // Variables used by setup* methods exclusively
 
@@ -315,13 +317,18 @@
  * @throws IOException
    *
    */
-  public static long numberOfBytesTillNextMarker(final InputStream in) throws IOException{
-    CBZip2InputStream.skipDecompression = true;
-    CBZip2InputStream anObject = null;
+  //modified by jicheng.song
+  //public static long numberOfBytesTillNextMarker(final InputStream in) throws IOException{
+  public  long numberOfBytesTillNextMarker(final InputStream in) throws IOException{
+    this.skipDecompression = true;
+    //
+    this.in = new BufferedInputStream(in, 1024 * 9);// >1 MB buffer
+    this.readMode = readMode;
+    //CBZip2InputStream anObject = null;
 
-    anObject = new CBZip2InputStream(in, READ_MODE.BYBLOCK);
+    //anObject = new CBZip2InputStream(in, READ_MODE.BYBLOCK);
 
-    return anObject.getProcessedByteCount();
+    return this.getProcessedByteCount();
   }
 
   public CBZip2InputStream(final InputStream in) throws IOException {
@@ -395,7 +402,9 @@
 
     if(skipDecompression){
       changeStateToProcessABlock();
-      CBZip2InputStream.skipDecompression = false;
+      //modified by jicheng.song
+      //CBZip2InputStream.skipDecompression = false;
+      this.skipDecompression = false;
     }
 
     final int hi = offs + len;
Index: src/core/org/apache/hadoop/io/compress/BZip2Codec.java
===================================================================
--- src/core/org/apache/hadoop/io/compress/BZip2Codec.java	(版本 510)
+++ src/core/org/apache/hadoop/io/compress/BZip2Codec.java	(版本 525)
@@ -148,8 +148,11 @@
     // BZip2 start of block markers are of 6 bytes.  But the very first block
     // also has "BZh9", making it 10 bytes.  This is the common case.  But at
     // time stream might start without a leading BZ.
+      CBZip2InputStream tmpInput = new CBZip2InputStream(seekableIn, readMode); 
     final long FIRST_BZIP2_BLOCK_MARKER_POSITION =
-      CBZip2InputStream.numberOfBytesTillNextMarker(seekableIn);
+      //modified by jicheng.song
+      //CBZip2InputStream.numberOfBytesTillNextMarker(seekableIn);
+      tmpInput.numberOfBytesTillNextMarker(seekableIn);
     long adjStart = Math.max(0L, start - FIRST_BZIP2_BLOCK_MARKER_POSITION);
 
     ((Seekable)seekableIn).seek(adjStart);

线上Spark处理Bzip2引出Hadoop Bzip2线程安全问题

CORS error 但是 status code 是200 OK

压缩上传的GPU数据的方案

使用skopeo同步镜像

Hadoop Snappy安裝終極教程

Spark源碼分析——deploy模塊

Spark源碼解析——Shuffle

linux系統中oom killer策略

HDFS源碼學習（1）——NameNode主要數據結構

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結