[大數據之Spark]——快速入門

本篇文檔是介紹如何快速使用spark，首先將會介紹下spark在shell中的交互api，然後展示下如何使用java,scala,python等語言編寫應用。

爲了良好的閱讀下面的文檔，最好是結合實際的練習。首先需要下載spark,然後安裝hdfs，可以下載任意版本的hdfs。

Spark Shell 交互

基本操作

Spark Shell提供給用戶一個簡單的學習API的方式以及快速分析數據的工具。在shell中，既可以使用scala（運行在java虛擬機，因此可以使用java庫）也可以使用python。可以在spark的bin目錄下啓動spark shell：

./bin/spark-shell.sh

spark操作對象是一種分佈式的數據集合，叫做Resilient Distributed Dataset(RDD)。RDD可以通過hdfs文件創建，也可以通過RDD轉換得來。

大數據學習羣：716581014 一起學習

下面就實際操作下，看看效果。我的本地有個文件——test.txt,內容爲：

hello world
haha nihao

可以通過這個文件創建一個新的RDD

val textFile = sc.textFile("test.txt")
textFile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21

在Spark中，基於RDD可以作兩種操作——Actions算子操作以及Transformations轉換操作。

我們可以使用一些算子操作體驗下：

scala> textFile.count() //RDD有用的數量
res1: Long = 2

scala> textFile.first() //RDD第一行
res3: String = hello world

再執行一些轉換操作，比如使用filter轉換，返回一個新的RDD集合：

scala> val lines = textFile.filter(line=>line.contains("hello"))
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:23

scala> lines.count()
res4: Long = 1

scala> val lines = textFile.filter(line=>line.contains("haha"))
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at filter at <console>:23

scala> lines.count()
res5: Long = 1

scala> lines.first()
res6: String = haha nihao

緩存

Spark也支持在分佈式的環境下基於內存的緩存，這樣當數據需要重複使用的時候就很有幫助。比如當需要查找一個很小的hot數據集，或者運行一個類似PageRank的算法。

舉個簡單的例子，對linesWithSpark RDD數據集進行緩存，然後再調用count()會觸發算子操作進行真正的計算，之後再次調用count()就不會再重複的計算，直接使用上一次計算的結果的RDD了：

scala> linesWithSpark.cache()
res7: linesWithSpark.type = MapPartitionsRDD[2] at filter at <console>:27

scala> linesWithSpark.count()
res8: Long = 19

scala> linesWithSpark.count()
res9: Long = 19

看起來緩存一個100行左右的文件很愚蠢，但是如果再非常大的數據集下就非常有用了，尤其是在成百上千的節點中傳輸RDD計算的結果。你也可以通過bin/spark-shell向集羣提交任務.

獨立應用

要使用spark api寫一個自己的應用也很簡單，可以基於scala、java、python去寫一些簡單的應用。

/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

注意應用需要定義main()方法。這個程序僅僅是統計文件中包含字符a和b的分別都有多少行。你可以設置YOUR_SPARK_HOME替換自己的文件目錄。不像之前在shell中的例子那樣，我們需要自己初始化sparkContext。

通過SparkConf構造方法創建SparkContext。

應用依賴於spark api，因此需要在程序中配置sbt的配置文件——simple.sbt，它聲明瞭spark的依賴關係。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"

爲了讓sbt正確的工作，還需要創建SimpleApp.scala以及simple.sbt。然後就可以執行打包命令，通過spark-submit運行了：

# Your directory layout should look like this 你的工程目錄應該向下面這樣
$ find .
.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala

# Package a jar containing your application 運行sbt命令進行打包
$ sbt package
...
[info] Packaging {..}/{..}/target/scala-2.11/simple-project_2.11-1.0.jar

# Use spark-submit to run your application 通過spark-submit提交任務jar包
$ YOUR_SPARK_HOME/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/scala-2.11/simple-project_2.11-1.0.jar
...
Lines with a: 46, Lines with b: 23

其他地址

通過上面的例子，就可以運行起來自己的Spark應用了。

最後，Spark在examples目錄中內置了多種語言版本的例子，如scala,java,python,r等等。你可以通過下面的命令運行:

# For Scala and Java, use run-example:
./bin/run-example SparkPi

# For Python examples, use spark-submit directly:
./bin/spark-submit examples/src/main/python/pi.py

# For R examples, use spark-submit directly:
./bin/spark-submit examples/src/main/r/dataframe.R

[大數據之Spark]——快速入門

Spark Shell 交互

基本操作

更多RDD操作

緩存

獨立應用

其他地址

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

想搞懂大數據就看這篇文章就夠了！

Structured Streaming教程(3) —— 與Kafka的集成

Structured Streaming教程(2) —— 常用輸入與輸出

Structured Streaming教程(1) —— 基本概念與使用

[大數據之Spark]——快速入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結