原创 Apache Flume(一)

今天詳細學習一下flume,原來都是瑣瑣碎碎,僅限於使用。不多說,還是從官方網站開始。 Apache Flume是一個分佈式、可靠的、可用的系統,該系統用來高效的收集、聚合、移動那些存儲在不同數據源的大量日誌數據到中心數據存儲點。 Apa

原创 Apache Kafka(二)

那麼這次我們進行kafka的簡單應用。 第一步(下載代碼): 下載0.10.0.0版本並且解壓,可以使用命令:tar -xvf kafka-2.11-0.10.0.0.tgz 接着我們進入解壓後的目錄:cd kafka-2.11-0.10

原创 spark-streaming入門(三)

Spark Streaming + Flume Integration Guide Apache Flume is a distributed, reliable, and available service for efficient

原创 Spark源碼解析(一)

RDD之getNarrowAncestors內部方法分析 最近開始spark的源碼攻關,其實看源碼一直是我最怕的東西,因爲太多、太雜、太深導致不能夠很好的把我脈絡導致每次最後都放棄。有人跟我說看源碼可以階段性一個方法一個方法的去學習,去看

原创 Dropwizard框架入門

最近項目用到了Dropwizard框架,個人感覺還不錯,那麼這裏就從他們官網入手,然後加上自己的實現步驟讓大家初步瞭解這個框架。 官網對DW(Dropwizard)的定義是跨越了一個庫和框架之間的界限。他的目標是提供一個生產就緒的web

原创 Scala協變逆變上界下界

這裏介紹一下關於scala中的協變逆變的有關知識,因爲真的每次碰見都懵逼的感覺很難受。此處我不會對比Java中的相關協變逆變,只針對scala的進行講解。 首先我說一下協變,所謂協變,白話文就是說讓你的能夠使用比原始定義類型的子類。不要懵

原创 spark-streaming入門(二)

Input DStreams and Receivers Input DStreams are DStreams representing the stream of input data received from streaming

原创 Spark源碼解析(二)

     這次繼續上次的地方,我這裏只挑我個人感覺有意義的方法來講,有些是內部的private方法,有些是展現給我們的外部可以調用的方法。這裏主要講的方法是他的內部方法withScope,方法如下: /** * Execute a b

原创 Apache Kafka 實戰從零開始(一)

   不多說,咱們直接進入主題,那麼我這裏介紹一下我的環境。我用的是mac本,沒有往本機裝虛擬機,所以我用的是我的阿里雲主機,窮滴很,就單節點吧咳咳。 那麼首先說一下,由於我們的Kafka需要zookeeper的支持,所以在安裝kafka

原创 Apache Kafka(三)

   我們繼續之前的所述,繼續kafka的學習。 第八部(使用kafka流來處理數據): kafka stream是kafka的一個客戶端包,這個包用來實時處理和分析保存在kafka brokers中的數據。以下這個簡短的例子將會講解如何

原创 spark提交

這次主要講一下spark的提交具體操作和流程。原來一直用,也沒怎麼深入查看,那麼這次就來仔細看一下提交的學問。跟我們以前一樣,我們以官網下手。這裏我不在把英文貼上,直接進行。 在spark的bin文件夾下的spark-submit腳本是用

原创 Apache Kafka(一)

Kafka講解 介紹 kafka是一個分佈式的,分區的,可備份的日誌提交服務。它提供了消息系統的功能,但是設計確實獨一無二。 這些意味着什麼呢? 首先我們介紹一些術語: 1. Kafka獲取的消息在類型上叫做topics 2. 我們把生產

原创 JAVA_Kafka_producer_consumer

消費者代碼: import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.Properties; import java

原创 Apache Flume(二)

繼續上文的flume進行學習,不多說, 直接進入主題。 Flume支持根據zookeeper的agent的配置。這是個實驗性的特徵(我估計這麼說可能說明目前還不是很穩定,猜的),配置文件需要上傳到zookeeper上面,有着配置文件的後綴

原创 Storm-declareOutputFields-declare

最近項目需要開始接觸storm,感覺跟spark差距還是不小的,不過每個平臺都有各自的優勢,不做過多評價。有個地方,一直困擾了我好久,就是不管是spout實現類還是bolt實現類裏面都有個declareOutputFields的方法,後面