基於spark的流式數據處理—流計算

原創

心相印-Garrett

2020-07-01 08:24

概念

流計算：實時獲取來自不同數據源的海量數據，經過實時分析處理，獲得有價值的信息。

流計算秉承一個基本理念，即數據的價值隨着時間的流逝而降低，如用戶點擊流。因此，當事件出現時就應該立即進行處理，而不是緩存起來進行批量處理。爲了及時處理流數據，就需要一個低延遲、可擴展、高可靠的處理引擎。

對於一個流計算系統來說，它應達到如下需求：

高性能：處理大數據的基本要求，如每秒處理幾十萬條數據；
海量式：支持TB級甚至是PB級的數據規模；
實時性：保證較低的延遲時間，達到秒級別，甚至是毫秒級別；
分佈式：支持大數據的基本架構，必須能夠平滑擴展；
易用性：能夠快速進行開發和部署；
可靠性：能可靠地處理流數據；

流計算框架

當前業界誕生了許多專門的流數據實時計算系統來滿足各自需求，目前有三類常見的流計算框架和平臺：

商業級的流計算平臺；
開源流計算框架；
公司爲支持自身業務開發的流計算框架。

商業級：IBM InfoSphere Streams和IBM StreamBase。較爲常見的是開源流計算框架，代表如下：

Twitter Storm：免費、開源的分佈式實時計算系統，可簡單、高效、可靠地處理大量的流數據；
Yahoo! S4（Simple Scalable Streaming System）：開源流計算平臺，是通用的、分佈式的、可擴展的、分區容錯的、可插拔的流式系統。

公司爲支持自身業務開發的流計算框架：

Facebook Puma
Dstream（百度）
銀河流數據處理平臺（淘寶）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於IntelliJ Idea的Scala開發環境搭建一使用Git管理代碼

前面幾篇文章講了基於IntelliJ Idea的Scala開發環境搭建以及幾個Demo，如果想要了解相關內容，請參考我的Hadoop/spark欄目下的相關文章，本文主要介紹IntelliJ Idea的Git代碼管理配置，主要步驟

心相印-Garrett

2020-07-01 08:24:33

基於IntelliJ Idea的Scala開發demo一Spark-SQL操作Postgresql開發

本文主要是spark-sql與PostgreSQL的交互實現demo，具體步驟如下：導入相關PostgreSQL的依賴驅動包編寫spark-sql操作PostgreSQL的代碼打包運行導入相關PostgreSQL的依賴

心相印-Garrett

2020-07-01 08:24:32

基於spark的Scala編程—循環處理DataFrame方法

本文主要介紹spark的Scala編程中的循環處理DataFrame的方法，本文主要是在寫數據自動化測試的一個demo，大體的思路就是配置好了測試用例，現在需要批量執行測試用例。目前主要有如下三個方法： For/While循環

心相印-Garrett

2020-07-01 08:24:31

基於IntelliJ Idea的Scala開發環境搭建一遠程上傳以及遠程集羣調試

具體步驟如下：配置遠程的Deployment 配置本地上傳目錄以及遠程目標目錄配置排除上傳哪些文件配置遠程Deployment 打開IntelliJ Idea的該項目的“Preferences”，選擇添加SFTP遠程方式

心相印-Garrett

2020-07-01 08:24:30

基於spark的流式數據處理—SparkStreaming開發demo—RDD流

概述在調試Spark Streaming應用程序的時候，我們可以使用如下方法創建基於RDD隊列的DStream： streamingContext.queueStream(queueOfRDD) 本文demo場景是：每隔1秒創

心相印-Garrett

2020-07-01 08:24:29

基於spark的流式數據處理—spark streaming

本文主要介紹一下spark streaming，從以下三個方面來介紹： Spark Streaming設計 Spark Streaming與Storm的對比從“Hadoop+Storm”架構轉向Spark架構 Spark S

心相印-Garrett

2020-07-01 08:24:29

基於spark的Scala編程—Scala字符串

本文來說一下Scala的字符串操作，在第一次使用Scala字符串的時候，基本都是用字符串相加（+）來實現的，後來發現了Scala字符串還有插值，瞬間感覺自己low了，所以要特別記錄一下。 Scala字符串 Scala的String

心相印-Garrett

2020-07-01 08:24:29

基於spark的Scala編程—Traits用法

Scala Trait(特徵) Scala Trait(特徵) 相當於 Java 的接口，實際上它比接口還功能強大。與接口不同的是，它還可以定義屬性和方法的實現。一般情況下Scala的類只能夠繼承單一父類，但是如果是 Trait(

心相印-Garrett

2020-07-01 08:24:28

基於spark的流式數據處理—DStream概述

本文介紹spark streaming的DStream用法： Spark Streaming工作機制 Spark Streaming程序的基本步驟創建StreamingContext對象 Spark Streaming工作機

心相印-Garrett

2020-07-01 08:24:28

基於spark的流式數據處理—批處理和流處理區別

靜態數據很多企業爲了支持決策分析而構建的數據倉庫系統，其中存放的大量歷史數據就是靜態數據。技術人員可以利用數據挖掘和OLAP（On-Line Analytical Processing）分析工具從靜態數據中找到對企業有價值的信息

心相印-Garrett

2020-07-01 08:24:27

基於Scala的spark開發環境搭建（一）

具體步驟如下：本地環境安裝JDK 安裝Intellij IDEA軟件在Intellij IDEA上安裝scala插件本地安裝JDK環境第一步：下載JDK的安裝包（最新版本爲JDK13），下載地址：（windows就下

心相印-Garrett

2020-07-01 08:24:26

基於spark的流式數據處理—流計算處理流程以及應用場景

本文主要從一下幾個方面來介紹流計算處理流程：概述數據實時採集數據實時計算實時查詢服務概述傳統的數據處理流程，需要先採集數據並存儲在關係數據庫等數據管理系統中，之後由用戶通過查詢操作和數據管理系統進行交互，如下圖所示

心相印-Garrett

2020-07-01 08:24:25

基於spark的流式數據處理—SparkStreaming開發demo—文件流

概述本文主要完成一個spark streaming的文件流demo，如果是編寫一個獨立的Spark Streaming程序，而不是在spark-shell中運行，則需要通過如下方式創建StreamingContext對象： im

心相印-Garrett

2020-07-01 08:24:25

基於IntelliJ Idea的Scala開發demo一Spark-SQL開發demo

心相印-Garrett

2020-02-21 11:20:51

基於spark的Scala編程—讀取properties文件

心相印-Garrett

2020-02-21 11:20:51

24小時熱門文章

最新文章

最新評論文章