台部落cm_chenmin

翻譯：http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming Storm是一個流處理框架同時能做批處理(Trident) Spark是一個批處理框架同時能做微批

2020-06-16 10:30:24

Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力.

2020-02-22 15:10:02

1.數據序例化用Kryo序例化代替默認的java序例化，java序例化的優點是靈活，能序例化任何實現了接口java.io.Serializable

2020-02-22 15:10:02

for(i <- 表達式) 讓變量i遍歷<-右邊的表達式的所有值，比如：for(i <- 1 to n),如果需要遍歷從0到n-1的區間，使用unt

2020-02-22 15:10:02

TEXTFILE 默認格式，行存儲，導入數據時直接把數據文件拷貝到hdfs的hive表目錄(hive location)，數據文件可先經過gzip等

2020-02-22 15:10:02

本文轉自：http://blog.csdn.net/mazhimazh/article/details/19752475 1、強引用（StrongReference）強引用是使用最普遍的引用。如果一個對象具

2020-02-22 15:10:02

因業務需求，寫了一個python多線程處理數據的程序，記錄下來，方便以後參考： #!/usr/bin/python ''' coding=utf-8 bossid.fy.mapping.itil.dic 2611:171:video

2020-02-22 15:10:02

Storm爲了保證每條數據成功被處理,實現至少一次語義，通過Storm的ACK機制可以對spout產生的每一個tuple進行跟蹤; tuple處理成功是指這個Tuple以及這個Tuple產生的所有子Tuple都被成功處理, 由每一個處理b

2020-02-22 15:10:02

定長數組Array: 定義數組例子： val nums = new Array[Int](10) val a = new Array[String]

2020-02-22 15:10:02

scala特質可以同時擁有抽象方法和具體方法，類可以實現多個特質當接口使用的特質 trait Logger{ def log(msg:String)//這是個抽象方法，特質中未被實現的方法默認爲抽象方法，無需使用abstract }

2020-02-22 15:10:02

hive建表： hive分內部表與外部表，創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。在刪除表的時候，內部表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據

2020-02-22 15:10:02

scala定義類： class Counter{ private var value = 0 //你必須初始化字段 def increment(){ value += 1}//方法默認是公有的 } 類有一個主構器和任意多的輔助構造器，

2020-02-22 15:10:02

建表語句： create 'NewsClickFeedback',{NAME=>'Toutiao',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>'ROW',COMPRESSION=>'SNAPPY

2020-02-22 15:10:02

scala讀取文件： import scala.io.Source val source = Source.fromFile("myfile.txt","UTF-8")//第一個參數可以是字符串或者是java.io.File;第二個參數

2020-02-22 15:10:02

一些雜瑣的東西，記錄一下，以後可能會用得上，另外以後遇到可以記錄的可以追加在這裏文件gbk 編碼轉utf-8: coding=$(file -b $file1 |cut -d ' ' -f1) if [ "$coding" == "I

2020-02-22 15:10:02