原创 SparkML之聚類(二)高斯混合模型(GMMs)

1、閒聊 在講高斯混合模型,我們先拋開一切,來一些推導。推導前,假設你認可兩個統計學基礎的兩個定理 (1)大數定理(2)中心極限定理 聯合實際情況就是說,假如我們坐在廣州地鐵1號線的某個地方進行蹲點1天,記錄下地鐵全部女性的身高。這一天

原创 SparkStreaming之foreachRDD

首先我們來對官網的描述瞭解一下。 DStream中的foreachRDD是一個非常強大函數,它允許你把數據發送給外部系統。因爲輸出操作實際上是允許外部系統消費轉換後的數據,它們觸發的實際操作是DStream轉換。所以要掌握它,對它要有深入

原创 SparkStreaming之DStream operations

Transformations on DStreams            和RDDs一樣,各種轉換允許數據從inputDstream得到之後進行各種改造。DStreams支持各種轉換,他們是基於Spark的RDD的,一些常規的轉

原创 flink掃盲-DataStream中數據源API實驗

文章目錄直接輸入形式fromElementsfromCollectionSocket形式文件形式自定義形式 下面針對DataStream中數據流向API的數據源進行實驗 直接輸入形式 fromElements step1:編寫程序 E

原创 flink掃盲-DataStream中數據流向API理解

文章目錄基本信息數據源x從何而來?直接輸入形式Socket形式文件形式自定義的方式處理規則f(x)有哪些?(transformations)數據y可以存放何處(Data sinks)實驗環境附錄pom.xml文件 搭建環境然後運行完

原创 flink掃盲-實驗環境搭建與入門

flink掃盲-實驗環境搭建與入門寫作緣由flink 入門實驗更多配置信息 寫作緣由 從flink的Github 介紹我們可以得到如下信息: Apache Flink is an open source stream process

原创 spark應用(三)文本分類

一、特徵提取 1、什麼是特徵提取?      對某一模式的組測量值進行變換,以突出該模式具有代表性特徵的一種方法(百度百科)。或者參考多方面的解釋: http://www.igi-global.com/dictionary/featur

原创 scala之case class 和case object

首先我們我們對case class 和case object類型對象進行反編譯 首先來編譯 case class,有如下編譯內容: case class Person(age:Int,name:String) 它會產生兩個文件如下:

原创 Spark應用(一)提取RDD內部信息和信息放入RDD

提取RDD內部信息      對於提取RDD內部信息有的人或許認爲是一件非常簡單的事情,“直接foreach操作不就行了?”。如果RDD不是爲了分佈式式計算。那麼這樣的邏輯就完全可以。 直接在外部頂一個可變量A,然後遍歷RDD,A放入RD

原创 scala之正則表達式(二)內部匹配函數

1、scala解析正則表達式步驟 以下面表達爲例: val dateP1 = new scala.util.matching.Regex("""(\d\d\d\d)-(\d\d)-(\d\d)""", "year", "month",

原创 spark源碼閱讀筆記Dataset(二)Dataset中Actions、function、transformations

package Dataset import org.apache.spark.sql.functions._ import org.apache.spark.sql.{DataFrame, Dataset, SparkSession

原创 SparkSQL和Hive自定義函數對比

一、UDF UDF(User-Defined Function) Hive環境下 1、準備數據 Michael, 29 Andy, 30 Justin, 192、上傳HDFS 3、創建Hive表 CREATE EXTERNAL TA

原创 用Java 實現簡單的推薦系統

例子: package recommender; import java.util.Arrays; /**  * Created by legotime  */ public class recommendTest {    

原创 Spark應用(二) 二次排序

      二次排序就是對按照從左往右,從上往下排好序 數據: c,18,1956 a,20,1356 d,5,1956 f,18,1256 h,3,2956 c,18,2008 y,8,956 a,18,1956 並保存爲mySec.t

原创 spark源碼閱讀筆記Dataset(一)初識Dataset

1、Dataset 是什麼 本質上,Dataset在源碼中是一個類(和RDD不同,Dataset爲非抽象類),其中有三個參數 class Dataset[T] private[sql]( @transient val sparkS