原创 Storm vs Spark

翻譯:http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming Storm是一個流處理框架同時能做批處理(Trident) Spark是一個批處理框架同時能做微批

原创 flume從kafka導數據到hdfs

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力.

原创 spark性能調優

1.數據序例化 用Kryo序例化代替默認的java序例化,java序例化的優點是靈活,能序例化任何實現了接口java.io.Serializable

原创 scala-for循環

for(i <- 表達式) 讓變量i遍歷<-右邊的表達式的所有值,比如:for(i <- 1 to n),如果需要遍歷從0到n-1的區間,使用unt

原创 hive存儲格式

TEXTFILE 默認格式,行存儲,導入數據時直接把數據文件拷貝到hdfs的hive表目錄(hive location),數據文件可先經過gzip等

原创 Java 7之基礎 - 強引用、弱引用、軟引用、虛引用

本文轉自:http://blog.csdn.net/mazhimazh/article/details/19752475 1、強引用(StrongReference)           強引用是使用最普遍的引用。如果一個對象具

原创 python多線程代碼實例

因業務需求,寫了一個python多線程處理數據的程序,記錄下來,方便以後參考: #!/usr/bin/python ''' coding=utf-8 bossid.fy.mapping.itil.dic 2611:171:video

原创 Storm的ACK機制與編碼實例

Storm爲了保證每條數據成功被處理,實現至少一次語義,通過Storm的ACK機制可以對spout產生的每一個tuple進行跟蹤; tuple處理成功是指這個Tuple以及這個Tuple產生的所有子Tuple都被成功處理, 由每一個處理b

原创 scala-數組

定長數組Array: 定義數組例子: val nums = new Array[Int](10) val a = new Array[String]

原创 scala-特質(trait)

scala特質可以同時擁有抽象方法和具體方法,類可以實現多個特質 當接口使用的特質 trait Logger{ def log(msg:String)//這是個抽象方法,特質中未被實現的方法默認爲抽象方法,無需使用abstract }

原创 hive建庫建表與數據導入導出

hive建表: hive分內部表與外部表,創建內部表時,會將數據移動到數據倉庫指向的路徑;若創建外部表,僅記錄數據所在的路徑, 不對數據的位置做任何改變。在刪除表的時候,內部表的元數據和數據會被一起刪除, 而外部表只刪除元數據,不刪除數據

原创 scala-類與對象

scala定義類: class Counter{ private var value = 0 //你必須初始化字段 def increment(){ value += 1}//方法默認是公有的 } 類有一個主構器和任意多的輔助構造器,

原创 HBase-建表語句

建表語句: create 'NewsClickFeedback',{NAME=>'Toutiao',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>'ROW',COMPRESSION=>'SNAPPY

原创 scala-文件IO

scala讀取文件: import scala.io.Source val source = Source.fromFile("myfile.txt","UTF-8")//第一個參數可以是字符串或者是java.io.File;第二個參數

原创 有些命令

一些雜瑣的東西,記錄一下,以後可能會用得上,另外以後遇到可以記錄的可以追加在這裏 文件gbk 編碼轉utf-8: coding=$(file -b $file1 |cut -d ' ' -f1) if [ "$coding" == "I