流數據------學習筆記

流數據特點:實時獲取來自不同數據源的海量數據,經過實時分析處理,獲得有價值的信息

快速持續到達;

來源多,格式複雜;

數據量大,但不關心存儲;

注重整體價值;

順序顛倒或不完整;

數據的價值隨着時間的流逝而降低;

流計算系統要求:

高性能
海量式
實時性
分佈式
易用性

可靠性

流計算框架:

商業級:IBM InfoSphere Streams;IBM StramBase(用於銀行);

開源流計算框架:Twitter Storm;Yahoo! S4;

公司自行開發:Facebook Puma;Dstream(百度);銀河流數據處理平臺(淘寶)

流數據處理過程:

數據實時採集;數據實時計算;數據實時查詢服務;


數據實時採集:需要保證實時性、低延時、穩定可靠;

目前有許多互聯網公司發佈的開源分佈式日誌採集系統均可滿足每秒數百MB的數據採集和傳輸需求,如:
Facebook的Scribe
LinkedIn的Kafka
淘寶的Time Tunnel

基於Hadoop的Chukwa和Flume

基本架構有三個部分:

Agent:主動採集數據,並把數據推送到Collector部分
Collector:接收多個Agent的數據,並實現有序、可靠、高性能的轉發

Store:存儲Collector轉發過來的數據(對於流計算不存儲數據)


數據實時計算:對採集的數據進行實時的分析和計算,並反饋實時結果


實時查詢服務:經由流計算框架得出的結果可供用戶進行實時查詢、展示或儲存

傳統:需要用戶主動查詢;數據爲歷史數據;

實時查詢:實時;最新數據;


發佈了168 篇原創文章 · 獲贊 39 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章