實時數據分析Real-time data analysis frameworks (or stream system)

原創

2018-09-04 21:46

最近的工作中涉及要設計一個系統可以實時的監控系統的狀態，比如hadoop任務的執行情況，服務器的健康等。這個系統需要實時的處理對象產生的信息，併發送給用戶。

這個系統顯然需要具備如下特性：

可靠性
大數據處理
實時性

顯然這將是一個基於Hadoop上的項目，目前可供參考的有

Kafka: Kafka is a messaging system that was originally developed at LinkedIn to serve as the foundation for LinkedIn’s activity stream processing pipeline. Nice talk

S4: S4 is a general-purpose, distributed, scalable, partially fault-tolerant, pluggable platform that allows programmers to easily develop applications for processing continuous unbounded streams of data.

Hedwig: Hedwig is a publish-subscribe system designed to carry large amounts of data across the internet in a guaranteed-delivery fashion from those who produce it (publishers) to those who are interested in it (subscribers).

Storm: Storm is a distributed, reliable, and fault-tolerant stream processing system. Its use cases are so broad that we consider it to be a fundamental new primitive for data processing. Introduction slide

Flume: Apache Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. Its main goal is to deliver data from applications to Apache Hadoop’s HDFS.

Scribe: Scribe is a server for aggregating streaming log data. It is designed to scale to a very large number of nodes and be robust to network and node failures.

隨着項目的跟進，我會繼續更新。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop相關幫助文檔地址，留着以後查閱

Sqoop 用戶幫助文檔： http://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html

2020-07-08 04:57:44

Apache Hadoop 項目介紹

Apache Hadoop 項目開發的開源軟件提供了可靠、可伸縮、分佈式的計算。它是Google類似技術的開源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。爲什麼要開發這樣的系統呢？

2020-07-03 22:45:12

Hive 中SerDe概述

一、背景 1、當進程在進行遠程通信時，彼此可以發送各種類型的數據，無論是什麼類型的數據都會以二進制序列的形式在網絡上傳送。發送方需要把對象轉化爲字節序列纔可在網絡上傳輸，稱爲對象序列化；接收方則需要把字節序列恢復爲對象，稱爲對象的反序列化

2020-06-30 05:30:49

cloudstack知識點

1.what cloudstack 是一個開源的軟件平臺，它以池計算的形式提供公共的，私人的或者公私混合的基礎設施作爲服務。雲由網絡，存儲和計算結點三部分的基礎設施組成（也就是說硬件部分由這三部分組成）.coludstack是用

2020-06-22 21:09:38

Hadoop HDFS Shell 命令

Hadoop Shell CommandsFS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocal

2020-06-22 18:34:24

MapReduce程序理解

1.JobConf conf的定義：用戶向Hadoop框架描述一個map-reduce作業的基本接口其下函數：設置job名，輸出鍵的類，輸出值的類， Mapper類，設置用戶定義的Co

2020-06-21 07:32:39

ubuntu下hbase安裝

1、在清華鏡像站點下載Hbase的安裝文件，下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/ 2、解壓放在/usr/local的目錄下 3、修改權限 sudo cho

2020-06-21 06:50:57

MapReduce統計詞頻demo

目錄結構 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns

2020-06-21 04:05:07

Cloud Computing - Proposal 雲服務器上多種類型數據庫的性能比較和原理探究

題目：雲服務器上多種類型數據庫的性能比較和原理探究我們選取了三種不同類型的數據庫：Mysql、MongoDB、Redis 來測試它們在不同種類的雲服務器上的讀寫性能、網絡併發性能、存儲性能、CPU佔用率、事務處理能力以及安全性能方面的區

2020-06-21 03:02:32

MongoDB中shard key的選擇

將存儲在MongoDB數據庫中的Collection進行分片需要選定分片Key（Shard key),對於分片Key的選定直接決定了集羣中數據分佈是否均衡、集羣性能是否合理。那麼我們究竟該選擇什麼樣的字段來作爲分片Key呢？有如下幾個需要

2020-06-20 23:23:42

A Distributed Mutex based on Redis

Set key to hold string value if key does not exist. In that case, it is equal to SET. When keyalready holds a value,

2020-06-16 16:29:39

Cloud Foundry HA with NATS and other explaination (by James Bayer)

There has been another post on this previously. When running on vSphere / SAN, this is generally not an issue as we hav

2020-06-16 16:29:39

UCSB雲計算之Eucalyptus

UCSB全稱是University of California, Santa Barbara。Lamia Youseff 是USCB的女教授，最初接觸雲計算時閱讀過她的一篇論文：Towards a Unified Ontolog

2020-06-16 08:02:20

通過CDN爲網站加速

目錄 1 CDN概念 1.1 例子 1.2 普通訪問形式與CDN訪問形式對比 2 CDN架構及配置 3 CDN應用場景 3.1 網站站點應用加速 3.2 視音頻點播/大文件下載分發加速 3.3 視頻直播加速 3.4 移動應用加速

2020-06-15 06:39:45

利用Sklearn和pyspark進行舊金山犯罪數據集的預測

2020-05-02 14:45:43

24小時熱門文章

最新文章

最新評論文章