原创 R 連接Sprak

sparklyr: R interface for Apache Spark Connect to Spark from R. The sparklyr package provides a  complete dplyr 

原创 spark mllib機器學習之六 ALS

協同過濾採用音樂推薦的數據 http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz   package com.agm.practice im

原创 eclipse spark源碼編譯部署

1.安裝Scala 2.安裝sbt 3.安裝Scala IDE   http://scala-ide.org/download/current.html (要注意eclipse和Scala IDE的版本匹配問題,網頁上有說明) 4

原创 scala 定義Queue 對象時提示沒有權限

代碼:     import scala.collection.immutable.Queue     val q = new Queue[Int] 錯誤提示: constructor Queue in class Queue canno

原创 Hadoop集羣安裝配置教程_Hadoop2.6.0_Ubuntu/CentOS

本教程講述如何配置 Hadoop 集羣,默認讀者已經掌握了 Hadoop 的單機僞分佈式配置, 本教程適合於原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要參考了官方安裝教程,步驟詳細,

原创 spark連接mysql

引入mysql的jar包 package com.agm.database import java.sql.DriverManager import org.apache.spark.SparkContext import org.a

原创 spark mllib機器學習之七 TFIDF

package com.agm.FeatureExtractors import org.apache.spark.ml.feature.{ Has

原创 spark入門實例 wordCount

數據格式: 撒地方 213 薩芬 123 657 jhkjhk 薩芬 123 gjh 123 意圖以 2354 薩芬 123 package com.agm.words import org.apache.spark.SparkCon

原创 spark mllib機器學習之三 FPGrowth

數據格式: 蘋果 梨 香蕉 梨 牛奶 土豆 蘋果 香蕉 狗 狗 土豆 土豆 牛奶 鹽 鹽 梨 狗 蘋果 梨 狗 package com.agm.guanlian import org.apache.spark.mllib.fpm.FPG

原创 spark mllib機器學習之五 LinearRegressionWithSGD

數據格式: 8,1 5 2 125,90 30 5 0,0 0 0 92,22 50 20 999,333 333 333 50,12 26 12 60,25 25 10 8,1 5 2 867,537 97 233 672,55 216

原创 spark RDD操作map與flatmap的區別

以前總是分不清楚spark中flatmap和map的區別,現在弄明白了,總結分享給大家,先看看flatmap和map的定義。 map()是將函數用於RDD中的每個元素,將返回值構成新的RDD。 flatmap()是將函數應用於RDD中的每

原创 python 調用spark

1. 下載安裝 spark 2. 下載安裝python 3. 創建環境變量 spark_home  D:\Spark\spark-2.0.1-bin-hadoop2.6 4. 將路徑D:\Spark\spark-2.0.1-bin-had

原创 spark mllib機器學習之四 kmeans

數據格式: *****,114.766907,35.218128,14,*****,*** ****,114.969452,35.323708,30,0***,*** *****,114.879410,35.267296,80,***,

原创 Hadoop安裝教程_單機/僞分佈式配置_Hadoop2.6.0/Ubuntu14.04

當開始着手實踐 Hadoop 時,安裝 Hadoop 往往會成爲新手的一道門檻。儘管安裝其實很簡單,書上有寫到,官方網站也有 Hadoop 安裝配置教程,但由於對 Linux 環境不熟悉,書上跟官網上簡略的安裝步驟新手往往 Hold

原创 C# 父窗體調用子窗體後關閉自身

採用線程進行實現:     Thread t = new Thread(new ThreadStart(delegate { Application.Run(new Form1()); }));             t.Start()