原创 在streaming process中爲什麼需要類似sql查詢語言

從現有的CEP(Complex Event Processing)框架,像強大得Esper,我們學到很多工作完全可以通過寫sql來完成的,不需要編寫任何的代碼。所以對於流處理我認爲也需要這樣的類似sql查詢語言。目前像Storm這

原创 Storm問題——組件帶參數構造函數未被調用,拋出NullpointerException

問題描述 不知道大家有沒有遇到過這個問題,我實現了BaseRichBolt,重載一個帶參數的構造函數,new這個組件時傳入一個參數作爲該組件的成員變量,然後在declareOutputFields方法中調用該變量,local模式運行正常,

原创 storm雜談之Why use netty as transport instead of zeromq

Storm後來用Netty來取代了zmq,這個可以參考一下兩篇blog 這兩篇blog詳細的闡述原因以及一些性能測試, 大家參考一下 Reference 1、Netty 4 Reduces GC Overhead by 5x at

原创 Storm雜談之Topology的啓動過程(二)

在一中講到了topology提交給nimbus nimbus Nimbus可以 說是storm中最核心的部分,它的主要功能有兩個: 對Topology的任務進行分配資源接收用戶的命令並做相應的處理,如Topology的提交,殺死,

原创 Storm雜談之Topology的啓動過程(一)

topology的提交 大家都知道,要提交Storm Topology 到Cluster,需要運行如下命令: ${STORM_HOME}/bin/storm jar xxxxxxxxxxx.jar ${main class} [args

原创 玩轉Bits和Bytes——Apache Flink的內存管理

How Apache Flink operates on binary data Nowadays, a lot of open-source systems for analyzing large data sets are i

原创 簡單的HBase Client端實現

前言 newbie剛接觸HBase,遇到幾個初學者常見的關於HBase問題,這裏就問題就不多做介紹,主要還是編碼優化問題,下面專門介紹以下幾點,希望對於初學者有所幫助。 基於HBase-0.94.x 版本 Tips RowKey的設計 H

原创 序列化框架對比——Avro, Protocol Buffers and Thrift

So you have some data that you want to store in a file or send over the network. You may find yourself going through s

原创 Apache MRQL——Apache又一開源孵化利器

MRQL is a query processing and optimization system for large-scale, distributed data analysis, built on top of Apac

原创 Storm之trident序列化問題

在使用Storm的trident做流計算開發時,遇到一個詭異的問題: 我繼承IPartitionedTridentSpout或者IOpaquePartitionedTridentSpout接口做事務型實時計算的開發,類型T通常是用來每

原创 大數據存取的選擇:行存儲還是列存儲?

目前大數據存儲有兩種方案可供選擇:行存儲和列存儲。業界對兩種存儲方案有很多爭持,集中焦點是:誰能夠更有效地處理海量數據,且兼顧安全、可靠、完整性。從目前發展情況看,關係數據庫已經不適應這種巨大的存儲量和計算要求,基本是淘汰出局。在已知的幾

原创 storm運行異常之No output fields defined for component:stream XxxBolt:null

錯誤log: 2015-01-05 17:22:49 [Thread-38-log] ERROR backtype.storm.daemon.executor - java.lang.RuntimeException: java.la

原创 HBase的運算有多快

簡介 HBase是模仿google bigtable的開源產品,又是hadoop的衍生品,hadoop作爲離線計算系統已經得到業界的普遍認可,並經過N多公司大規模使用的驗證,自然地認爲Hbase也將隨之獲得成功。 《HBase: The

原创 Storm雜談之調度算法

前言 scheduler是storm的調度器,它負責爲Topology分配當前的集羣可用資源,目前storm提供了3中調度器 EvenScheduler:會將系統中的資源均勻的分配給當前需要任務分配的多個TopologyDefaultS

原创 RabbitMQ vs Kafka

原文地址:http://www.quora.com/RabbitMQ-vs-Kafka-which-one-for-durable-messaging-with-good-query-features RabbitMQ vs Kafka: