Spark圖處理GraphX學習筆記！

一、什麼是GraphX？

Graphx利用了Spark這樣了一個並行處理框架來實現了圖上的一些可並行化執行的算法。

算法是否能夠並行化與Spark本身無關
算法並行化與否的本身，需要通過數學來證明
已經證明的可並行化算法，利用Spark來實現會是一個錯的選擇，因爲Graphx支持pregel的圖計算模型

二、Graphx包含哪些組件和基本框架？

1、成員變量

graph中重要的成員變量分別爲

vertices
edges
triplets

爲什麼要引入triplets呢，主要是和Pregel這個計算模型相關，在triplets中，同時記錄着edge和vertex. 具體代碼就不羅列了。

2、成員函數

函數分成幾大類

對所有頂點或邊的操作，但不改變圖結構本身，如mapEdges, mapVertices
子圖,類似於集合操作中的filter subGraph
圖的分割，即paritition操作，這個對於Spark計算來說，很關鍵，正是因爲有了不同的Partition,纔有了並行處理的可能, 不同的PartitionStrategy,其收益不同。最容易想到的就是利用Hash來將整個圖分成多個區域。
outerJoinVertices 頂點的外連接操作

三、圖的運算和操作 GraphOps

圖的常用算法是集中抽象到GraphOps這個類中，在Graph裏作了隱式轉換，將Graph轉換爲GraphOps，具體有下列12個算子：

collectNeighborIds
collectNeighbors
collectEdges
joinVertices
filter
pickRandomVertex
pregel
pageRank
staticPageRank
connectedComponents
triangleCount
stronglyConnectedComponents

RDD

RDD是Spark體系的核心，那麼Graphx中引入了哪些新的RDD呢，有倆，分別爲

VertexRDD
EdgeRDD

較之EdgeRdd，VertexRDD更爲重要，其上的操作也很多，主要集中於Vertex之上屬性的合併，說到合併就不得不扯到關係代數和集合論，所以在VertexRdd中能看到許多類似於sql中的術語，如

leftJoin
innerJoin

四、GraphX場景分析

1、圖的存儲和加載

在進行數學計算的時候，圖用線性代數中的矩陣來表示，那麼如何進行存儲呢？

學數據結構的時候，老師肯定說過好多的辦法，不再囉嗦了。

不過在大數據的環境下，如果圖很巨大，表示頂點和邊的數據不足以放在一個文件中怎麼辦？ 用HDFS

加載的時候，一臺機器的內存不足以容下怎麼辦？ 延遲加載，在真正需要數據時，將數據分發到不同機器中，採用級聯方式。

一般來說，我們會將所有與頂點相關的內容保存在一個文件中vertexFile，所有與邊相關的信息保存在另一個文件中edgeFile。

生成某一個具體的圖時，用edge就可以表示圖中頂點的關聯關係，同時圖的結構也表示出來了。

下面是Spark官方示例，用2個Array構造了一個Graph。

val users: RDD[(VertexId, (String, String))] =

sc.parallelize(Array((3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),

(5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))

// Create an RDD for edges

val relationships: RDD[Edge[String]] =

sc.parallelize(Array(Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),

Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))

// Define a default user in case there are relationship with missing user

val defaultUser = ("John Doe", "Missing")

// Build the initial Graph

val graph = Graph(users, relationships, defaultUser)

2、GraphLoader

graphLoader是graphx中專門用於圖的加載和生成，最重要的函數就是edgeListFile。

//以頂點劃分，分成4個分區

val graph = GraphLoader.edgeListFile(sc,"hdfs://192.168.0.10:9000/input/graph/web-Google.txt",minEdgePartitions = 4)

五、GraphX應用舉例

一行代碼：

val rank = graph.pageRank(0.01).vertices

用RDD實現：

完整代碼

// Connect to the Spark clusterval 
sc = new SparkContext("spark://master.amplab.org", "research")
// Load my user data and parse into tuples of user id and attribute list
val users = (sc.textFile("graphx/data/users.txt")
  .map(line => line.split(","))
  .map( parts => (parts.head.toLong, parts.tail) ))
  // Parse the edge data which is already in userId -> userId format
  val followerGraph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt")
  // Attach the user attributes
  val graph = followerGraph.outerJoinVertices(users) { 
   case (uid, deg, Some(attrList)) => attrList  
   // Some users may not have attributes so we set them as empty
    case (uid, deg, None) => Array.empty[String]
    }
// Restrict the graph to users with usernames and names
val subgraph = graph.subgraph(vpred = (vid, attr) => attr.size == 2)
// Compute the PageRank

// Get the attributes of the top pagerank users
val userInfoWithPageRank = subgraph.outerJoinVertices(pagerankGraph.vertices) { 
 case (uid, attrList, Some(pr)) => (pr, attrList.toList) 
  case (uid, attrList, None) => (0.0, attrList.toList)
}

println(userInfoWithPageRank.vertices.top(5)(Ordering.by(_._2._1)).mkString("\n"))

Spark圖處理GraphX學習筆記！

1、成員變量

2、成員函數

三、圖的運算和操作 GraphOps

RDD

四、GraphX場景分析

1、圖的存儲和加載

2、GraphLoader

完整代碼

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Spark開源框架精彩學習資源分享——DT大數據夢工廠王家林

Spark的枚舉類型實例！scala的枚舉。

Spark方面的大牛博客地址收集！

如何在Spark集羣的work節點上啓動多個Executor?

快被Maven折騰瘋了！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結