原创 [轉]deepin系統添加開機運行命令、軟件自啓動方法

https://wiki.deepin.org/wiki/%E8%87%AA%E5%90%AF%E5%8A%A8%E7%A8%8B%E5%BA%8F#.E4.BD.BF.E7.94.A8systemd.E6.89.A7.E8.A1.8Cr

原创 spark高級數據分析系列之第三章音樂推薦和 Audioscrobbler 數據集

3.1數據集和整體思路數據集本章實現的是歌曲推薦,使用的是ALS算法,ALS是spark.mllib中唯一的推薦算法,因爲只有ALS算法可以進行並行運算。使用數據集在這裏,裏面包含該三個文件:表一:user_artist_data.txt

原创 Spark快速大數據分析系列值第六章Spark編程進階

共享變量 累加器廣播變量累加器 提供了將工作節點中的值聚合到驅動器程序中的簡單語法 例子:計算空行數 val sc = new SparkContext(...) val file = sc.textFile("file.txt") va

原创 spark submit參數及調試

原文:http://www.cnblogs.com/haoyy/p/6893943.htmlspark submit參數介紹你可以通過spark-submit --help或者spark-shell --help來查看這些參數。使用格式:

原创 Spark運行架構

原文網址:http://www.cnblogs.com/shishanyuan/p/4721326.html1.術語定義lApplication:Spark Application的概念和Hadoop MapReduce中的類似,指的是用

原创 Spark快速大數據分析系列之第四章鍵值對操作

動機 鍵值對形式的RDD提供了新的強大的操作接口鍵值對形式的RDD具有一個重要特性:分區。一些情況下可以顯著提升性能創建Pair RDD 讀取外部數據時:如果外部數據本身是鍵值對形式的,讀取回來的RDD也是鍵值對形式個普通的 RDD 轉爲

原创 spark高級數據分析系列之第二章用 Scala 和 Spark 進行數據分析

2.1數據科學家的Scala spark是用scala語言編寫的,使用scala語言進行大數據開發的好處有 1、性能開銷小 減少不同環境下傳遞代碼和數據的錯誤和性能開銷 2、能用上最新的版本和最好的功能 Spark的新功能毫無

原创 Spark快速大數據分析之第二章Spark 下載與入門

2.1Spark下載與安裝 JDK的安裝 JDK的版本最好是1.8以上,使用的是ubuntu系統 安裝源         sudo add-apt-repository ppa:webupd8team/java sudo apt-

原创 第一個kaggle項目Digit Recognizer

爲了這個寒假沒那麼頹廢,也爲考研的面試積累一點資本,所以在kaggle上面參加一下比賽來提高自己的水平。 kaggle的註冊一直驗證不了,後來用yahoo的郵箱就ok了。 第一個項目是一個練習項目:Digit Recognizer。主要是

原创 Python安裝其它庫的步驟和問題解決方案彙總

本文引用地址:http://blog.sciencenet.cn/blog-437026-813199.html 此文來自科學網何亮博客,轉載請註明出處。 度娘了下,已經有總結性經驗帖子,可見: http://www.crifan.co

原创 Spark快速大數據分析之第三章RDD編程

RDD基礎 RDD包含兩種操作: 轉化操作:由一個 RDD 生成一個新的 RDD,採取惰性求值策略:不會馬上進行運算,直到下一個行動操作纔會運算 行動操作:對 RDD 計算出一個結果,並把結果返回到驅動器程序中,或把結果存儲到外部存儲系