作爲研究生一枚,研究生的日子完全沒有自己想象的那麼美好,研一第一個大作業就是利用spark對美國公路網數據的分析。從環境搭建到接下來的分析,“無知”的感覺真可怕。。。步入正題:(記錄這個只是爲了能幫那些想要對spark入門的童鞋,也爲了能記錄自己每一步艱辛的學習經歷)
1.spark環境搭建:
以下是在網上找到的比較可靠的搭建環境的頁面:
http://www.aboutyun.com/thread-8160-1-1.html
http://www.aboutyun.com/thread-12242-1-1.html
http://www.cnblogs.com/eastjade/p/4777974.html
spark官網:
http://spark.apache.org/examples.html
http://spark.apache.org/docs/latest/api/java/index.html
http://spark.apache.org/docs/latest/mllib-linear-methods.html
https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.graphx.GraphLoader$
因爲我們主要用了spark的graphx,所以查了一些關於graphx的資料:
http://www.aboutyun.com/thread-11601-1-1.html 等一系列的文章
http://www.dataguru.cn/thread-478144-1-1.html
http://www.mamicode.com/info-detail-1039308.html
關於spark的其他知識:
http://blog.jobbole.com/92559/
http://www.search-hadoop.com/m/JW1q5Arcq21&subj=GraphX+ShortestPaths+backwards+
http://blog.csdn.net/zy_zhengyang/article/details/46853541
http://www.iteblog.com/archives/1240
關於算法(社區發現):
http://www.doc88.com/p-3874248967712.html
用到的可視化工具是Tableau和gephi
https://www.udemy.com/gephi/learn/#/lecture/89791 這個是gephi的視頻教程