原创 從Kafka日誌拆分來看系統架構

下面是根據最近的工作內容來思考做事的方式,說是系統架構稍微有點標題黨了,但是我感覺也可以說是廣義的系統架構。   一、做鋪墊   目前筆者在基礎數據部門做實時計算相關的內容,近期接觸到的主要工作是Kafka日誌拆分,也就是把最基礎的全量

原创 面試,究竟面什麼?

在互聯網這個行業裏面,跳槽是一件極爲常見的事情,所以,與之同步到來的一件事情就是面試。     做爲面試官,你會用一些面試題來考察候選人;做爲應聘者,你要準備面試以拿到offer。那麼:面試,究竟面什麼?   下面,通過我個人進行求職

原创 Flink 應用

Apache Flink 是一個支持有狀態的計算的框架,它可以用來處理有邊界的數據流和無邊界的數據流。Flink 提供了多種不同抽象級別的API,並且提供對於常見的用例提供專用的函數庫。   一、爲流式應用構建好的模塊 可以構建的並且被

原创 面試題

公司A: 1.講講你做的過的項目。 項目裏有哪些 難點重點注意點呢? 2.講講多線程吧, 要是你,你怎麼實現一個線程池呢? 3.講一下Mapreduce或者hdfs的原理和機制。map讀取數據分片。 4.shuffle 是

原创 工作原則和技巧總結

1、做事要有排期:任何一個工作在開始做的時候都要預估一個排期,自己要保證在排期內完成 2、codereview:代碼要互相review,任何改動都要提交review,如果其他人不在,自己也要把自己提交的cr地址發出來並且在註釋中貼出來。

原创 Storm的容錯性

Storm有幾種不同的守護進程。Nimbus調度worker,Supervisor運行和殺死worker,log viewer 提供對於日誌的訪問方式,UI展示集羣的狀態。   一、問:如果一個Worker死掉了,那麼會發生什麼? 答:

原创 【轉】Map Reduce & YARN

Map Reduce & YARN 簡介 Apache Hadoop 是一個開源軟件框架,可安裝在一個商用機器集羣中,使機器可彼此通信並協同工作,以高度分佈式的方式共同存儲和處理大量數據。最初,Hadoop 包含以下兩個主要組件:H

原创 JVM之基本的垃圾回收算法彙總

本章介紹基本的垃圾回收算法的,從不同的維度來劃分回收的算法。             參考文章:http://pengjiaheng.iteye.com/blog/520228  

原创 Flink window 的類型

一、Window Type 1、Global windows     2、Tumbling windows     3、Sliding windows     4、Session windows     5、WindowAll    二

原创 Spark系列文章列表

 一、 Spark - Cluster Mode概述(翻譯) 

原创 Kafka 文章大全

https://blog.csdn.net/u013573133/article/details/48142677

原创 熱點資訊,一網打盡

http://leaderanking.com/  領航榜單,用熱榜引領你航遊網絡。全網熱點,一網掃盡。爲您提供豐富的、多類目的排行榜信息。   這個是本人開發的一個小網站,吸收了多分類、多站點的排行榜,方便您進行熱點諮詢的查看,謝謝支

原创 Apache Flink 概覽 - 有狀態的流式計算

  Flink的主要特性如下:   一、所有的流式使用用例   事件驅動的應用 流式 & 批量分析 數據 Pipelines & ETL 二、保證正確性   嚴格一次(Exactly-once) 狀態一致性 基於消息時間(Event-

原创 Oozie Coordinator使用及詳解

Oozie所支持工作流,工作流定義通過將多個Hadoop Job的定義按照一定的順序組織起來,然後作爲一個整體按照既定的路徑運行。一個工作流已經定義了,通過啓動該工作流Job,就會執行該工作流中包含的多個Hadoop Job,直到完成,

原创 storm 性能排查過程

1. bolt spout數量 2. time_out 時間 3. max_pending 4. ack 機制