流数据------学习笔记

原創

2020-02-22 05:24

流数据特点：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息

快速持续到达；

来源多，格式复杂；

数据量大，但不关心存储；

注重整体价值；

顺序颠倒或不完整；

数据的价值随着时间的流逝而降低；

流计算系统要求：

高性能
海量式
实时性
分布式
易用性

可靠性

流计算框架：

商业级：IBM InfoSphere Streams；IBM StramBase（用于银行）；

开源流计算框架：Twitter Storm；Yahoo！ S4；

公司自行开发：Facebook Puma；Dstream（百度）；银河流数据处理平台（淘宝）

流数据处理过程：

数据实时采集；数据实时计算；数据实时查询服务；

数据实时采集：需要保证实时性、低延时、稳定可靠；

目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒数百MB的数据采集和传输需求，如：
Facebook的Scribe
LinkedIn的Kafka
淘宝的Time Tunnel

基于Hadoop的Chukwa和Flume

基本架构有三个部分：

Agent：主动采集数据，并把数据推送到Collector部分
Collector：接收多个Agent的数据，并实现有序、可靠、高性能的转发

Store：存储Collector转发过来的数据（对于流计算不存储数据）

数据实时计算：对采集的数据进行实时的分析和计算，并反馈实时结果

实时查询服务：经由流计算框架得出的结果可供用户进行实时查询、展示或储存

传统：需要用户主动查询；数据为历史数据；

实时查询：实时；最新数据；

发布了168 篇原创文章 · 获赞 39 · 访问量 7万+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cdh设置hdfs权限

通常會把 root 或者需要的用戶添加到 supergroup組，但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat

2022-12-19 09:37:26

开源80万行代码，微众银行如何在小团队规模下炼出一套一站式大数据平台 | 卓越技术团队访谈录

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

Uber容器化Apache Hadoop基础设施的实践

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber 技术团队

2021-11-19 09:03:49

基础软件创业 8 年，星环科技如何精准“踩点”？ | C位面对面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

基础软件创业 8 年，如何精准“踩点”？｜ C位面对面

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 09:28:56

抛弃Hadoop，数据湖才能重获新生

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-10-28 14:23:59

Hadoop 生态里，为什么 Hive 活下来了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Einat Orr 博士

2021-10-08 19:08:56

成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-08 10:38:57

基于阿里云部署的CDP产品详情

雲與AI時代的到來，爲當下的數據存儲，數據分析帶來了一些顛覆性的變革，企業上雲已是大勢所趨。但企業採用雲服務可能會帶來數據管理方面的挑戰，因爲數據可能被存儲在孤島中，從而使企業難以在所有IT環境中發現、獲取、信任和兼容數據。此外，還存在被單

2021-08-18 15:43:52

伴鱼数仓演进

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

伴鱼技术团队

2021-08-14 08:03:57

架构师（2021年7月）

卷首語：淺談架構現狀：設計越來越複雜，行業缺乏系統性思考採訪嘉賓 | 黃浩從之前單純的高流量到現在高流量、高併發，企業面對的業務場景越來越多，對系統的各項要求也越來越高，這意味着對系統架構的要求也越來越高。在過去很長的時間裏，集中式單

InfoQ 中文站

2021-07-08 08:03:58

从广告监测到知识图谱，明略千亿大数据处理能力是如何炼成的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-18 11:03:58

11天里13个Apache开源项目宣布退休，Hadoop的时代结束了

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-18 10:03:54

Hadoop 的“遗产”

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-08 09:58:53

大数据技术升级脉络及认知陷阱 | InfoQ 大咖说

直播內容：多年來，大數據技術經歷了幾輪更迭，在計算、存儲、大規模落地等層面均取得了不錯的進展，並在不斷的成長和成熟，整個生態領域也得到了快速發展。目前，基於分析的大數據計算平臺在各大公司發揮着非常重要的基礎設施的作用。本期，網易數據科學

InfoQ 中文站

2021-04-26 10:43:51

24小時熱門文章

最新文章

最新評論文章