原创 從Kafka日誌拆分來看系統架構
下面是根據最近的工作內容來思考做事的方式,說是系統架構稍微有點標題黨了,但是我感覺也可以說是廣義的系統架構。 一、做鋪墊 目前筆者在基礎數據部門做實時計算相關的內容,近期接觸到的主要工作是Kafka日誌拆分,也就是把最基礎的全量
原创 面試,究竟面什麼?
在互聯網這個行業裏面,跳槽是一件極爲常見的事情,所以,與之同步到來的一件事情就是面試。 做爲面試官,你會用一些面試題來考察候選人;做爲應聘者,你要準備面試以拿到offer。那麼:面試,究竟面什麼? 下面,通過我個人進行求職
原创 Flink 應用
Apache Flink 是一個支持有狀態的計算的框架,它可以用來處理有邊界的數據流和無邊界的數據流。Flink 提供了多種不同抽象級別的API,並且提供對於常見的用例提供專用的函數庫。 一、爲流式應用構建好的模塊 可以構建的並且被
原创 面試題
公司A: 1.講講你做的過的項目。 項目裏有哪些 難點重點注意點呢? 2.講講多線程吧, 要是你,你怎麼實現一個線程池呢? 3.講一下Mapreduce或者hdfs的原理和機制。map讀取數據分片。 4.shuffle 是
原创 工作原則和技巧總結
1、做事要有排期:任何一個工作在開始做的時候都要預估一個排期,自己要保證在排期內完成 2、codereview:代碼要互相review,任何改動都要提交review,如果其他人不在,自己也要把自己提交的cr地址發出來並且在註釋中貼出來。
原创 Storm的容錯性
Storm有幾種不同的守護進程。Nimbus調度worker,Supervisor運行和殺死worker,log viewer 提供對於日誌的訪問方式,UI展示集羣的狀態。 一、問:如果一個Worker死掉了,那麼會發生什麼? 答:
原创 【轉】Map Reduce & YARN
Map Reduce & YARN 簡介 Apache Hadoop 是一個開源軟件框架,可安裝在一個商用機器集羣中,使機器可彼此通信並協同工作,以高度分佈式的方式共同存儲和處理大量數據。最初,Hadoop 包含以下兩個主要組件:H
原创 JVM之基本的垃圾回收算法彙總
本章介紹基本的垃圾回收算法的,從不同的維度來劃分回收的算法。 參考文章:http://pengjiaheng.iteye.com/blog/520228
原创 Flink window 的類型
一、Window Type 1、Global windows 2、Tumbling windows 3、Sliding windows 4、Session windows 5、WindowAll 二
原创 Spark系列文章列表
一、 Spark - Cluster Mode概述(翻譯)
原创 Kafka 文章大全
https://blog.csdn.net/u013573133/article/details/48142677
原创 熱點資訊,一網打盡
http://leaderanking.com/ 領航榜單,用熱榜引領你航遊網絡。全網熱點,一網掃盡。爲您提供豐富的、多類目的排行榜信息。 這個是本人開發的一個小網站,吸收了多分類、多站點的排行榜,方便您進行熱點諮詢的查看,謝謝支
原创 Apache Flink 概覽 - 有狀態的流式計算
Flink的主要特性如下: 一、所有的流式使用用例 事件驅動的應用 流式 & 批量分析 數據 Pipelines & ETL 二、保證正確性 嚴格一次(Exactly-once) 狀態一致性 基於消息時間(Event-
原创 Oozie Coordinator使用及詳解
Oozie所支持工作流,工作流定義通過將多個Hadoop Job的定義按照一定的順序組織起來,然後作爲一個整體按照既定的路徑運行。一個工作流已經定義了,通過啓動該工作流Job,就會執行該工作流中包含的多個Hadoop Job,直到完成,
原创 storm 性能排查過程
1. bolt spout數量 2. time_out 時間 3. max_pending 4. ack 機制