【中英雙語】Spark官方文檔解讀（一）——Spark概述

原創

2020-05-27 10:14

文章目錄

Apache Spark™ is a unified analytics engine for large-scale data processing.

個人總結

如果你從本文中學習到絲毫知識，那麼請您點點關注、點贊、評論和收藏
大家好，我是愛做夢的魚，我是東北大學大數據實驗班大三的小菜雞，非常渴望優秀，羨慕優秀的人。從5月25號我們開始了爲期兩個月的實習，我們需要做一個大型大數據項目，一個項目由三個學生+一個企業的項目經理完成。請大家持續關注我的專欄，我會每天更新。
專欄：大數據案例實戰——大三春招大數據開發
 專欄：Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址：子浩的博客https://blog.csdn.net/weixin_43124279

歡迎大家關注微信公衆號【程序猿乾貨鋪】
一羣熱愛技術並且嚮往優秀的程序猿同學，不喜歡水文，不喜歡販賣焦慮，只喜歡談技術，分享的都是技術乾貨。Talk is cheap. Show me the code

Apache Spark™ is a unified analytics engine for large-scale data processing.

Apache Spark™是用於大規模數據處理的統一分析引擎。

1. Speed

Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.
速度
運行工作負載的速度提高了100倍。
Apache Spark使用最新的DAG調度程序，查詢優化器和物理執行引擎，可實現批處理和流數據的高性能。

Logistic regression in Hadoop and Spark
Hadoop和Spark中的邏輯迴歸

2. Ease of Use

Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.
使用方便
使用Java，Scala，Python，R和SQL快速編寫應用程序。
Spark提供了80多個高級算子，可輕鬆構建並行應用程序。您可以從Scala，Python，R和SQL Shell交互使用它。

df = spark.read.json("logs.json") 
df.where("age > 21").select("name.first").show()

# Spark's Python DataFrame API
# Read JSON files with automatic schema inference
# Spark的Python DataFrame API通過自動模式推斷讀取JSON文件

3. Generality

Combine SQL, streaming, and complex analytics.
Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.
通用性
結合SQL、流和複雜分析。
Spark爲一堆庫提供了支持，包括SQL和DataFrames、用於機器學習的MLlib、GraphX和Spark Streaming。您可以在同一個應用程序中無縫地組合這些庫。

4. Runs Everywhere

Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.
You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.
運行在所有地方
Spark可在Hadoop，Apache Mesos，Kubernetes，單機或雲中運行。它可以訪問各種數據源。
您可以在EC2，Hadoop YARN，Mesos或Kubernetes上使用Spark的獨立集羣模式運行它。訪問HDFS，Alluxio，Apache Cassandra，Apache HBase，Apache Hive和數百種其他數據源中的數據。

個人總結

Spark 作爲下一代大數據處理引擎，在非常短的時間裏嶄露頭角，並且以燎原之勢席捲業界。Spark 對曾經引爆大數據產業革命的 Hadoop MapReduce 的改進主要體現在這幾個方面：

首先，Spark 速度很快，支持交互式使用和複雜算法。
其次，Spark 非常好用。Spark 豐富的 API 帶來了更強大的易用性。由於高級 API 剝離了對集羣本身的關注，你可以專注於你所要做的計算本身，只需在自己的筆記本電腦上就可以開發Spark 應用。
最後，Spark 是一個通用引擎， Spark 不單單支持傳統批處理應用，更支持交互式查詢、流式計算、機器學習、圖計算等各種應用，滿足各種不同應用場景下的需求。而在Spark 出現之前，我們一般需要學習各種各樣的引擎來分別處理這些需求。
Spark基本可以運行在所有地方

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【中英雙語】Spark官方文檔解讀（一）——Spark概述

文章目錄

Apache Spark™ is a unified analytics engine for large-scale data processing.

1. Speed

2. Ease of Use

3. Generality

4. Runs Everywhere

個人總結

致遠OA及相關OA系統集成與二次開發

EXCEL公式使用總結

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

【面試準備】項目經驗——接口自動化項目

【C/C++描述】第十一屆藍橋杯省賽C/C++大學C組第一場(2020.7.5) 題目+題解

【JAVA實現】第十一屆藍橋杯省賽CC++大學C組第一場(2020.7.5) 題目+題解

【Java實現】第十一屆藍橋杯省賽C/C++ 大學B組第一場(2020.7.5) 題目+題解

東北大學軟件學院數值分析實驗----病態方程組Hx=b求解

【迭代式開發】v1前端界面展示+代碼——大數據開發實戰項目（四）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結