原创 SparkML之迴歸(二)嶺迴歸和Lasso闡述及OLS,梯度下降比較

嶺迴歸(RidgeRegression)它的上一級稱之爲Tikhonov regularization,是以Andrey Tikhonov命名的。 Lasso(least absolute shrinkage and selection

原创 SparkML之分類(四)決策樹

      說起樹,不得不首先提起的二個人就是Leo Breiman和John Ross Quinlan ,他倆在樹這快做了很大的貢獻,如果對他所做工作感興趣的可以訪問參考文獻[1][5] 現在我們拋開一切,從我們最熟悉的分段函數開始,如

原创 SparkML之特徵提取(二)詞項加權之DF-IDF

詞項加權(Term Weighting)的目的是給分詞後的詞語加上權重。重要的詞項給予更高的權重。那麼當我們對文本 進行檢索的時候。比如當我們在淘寶購物,輸入“那本語義分析類的書最好”,那麼我們進行Term Weighting可能 是:“

原创 SparkML之分類(三)支持向量機(SVM)

一、數學原理 支持向量機(SVM)是由Vladimir N. Vapnik和 Alexey Ya. Chervonenkis在1963年提出的。SVM的提出解決了當時在機 器學習領域的“維數災難”,“過學習”等問題。它在機器學習領域可以用

原创 SparkML之聚類(一)Kmeans聚類

------------------------------目錄-------------------------------------------------- Kmeans理論 Matlab實現 Spark源碼分析 Spark源碼

原创 用Java 實現簡單的推薦系統(個人博客地址:www.ryanbing.com )

  package recommender; import java.util.Arrays; /**  * Created by legotime  */ public class recommendTest {     pu

原创 SparkStreaming之窗口函數

WindowOperations(窗口操作)          Spark還提供了窗口的計算,它允許你使用一個滑動窗口應用在數據變換中。下圖說明了該滑動窗口。 如圖所示,每個時間窗口在一個個DStream中劃過,每個DSteam中的RD

原创 SparkR環境搭建

------------------------------------------目錄---------------------------------------------------------- R的安裝 Rstudio的安裝

原创 SparkML之迴歸(一)線性迴歸

----------------------------目錄----------------------------------------------------------------------- 線性迴歸理論 spark源碼 Sp

原创 SparkStreaming之基本數據源輸入

輸入DStreams表示從數據源獲取的原始數據流。Spark Streaming擁有兩類數據源 (1)基本源(Basic sources):這些源在StreamingContext API中直接可用。例如文件系統、套接字連接、 Akka

原创 SparkML之分類(一)貝葉斯分類

1.1、貝葉斯定理 貝葉斯定理:用來描述兩個條件概率之間的關係。比如P(A/B)和P(B/A),那麼可以推導:  ,我們下圖進行進行說明:                                      假設:,那麼有,  

原创 SparkML之推薦算法(一)ALS

ALS(alternating least squares ):交替最小二乘法 --------------------------------------------------------------------- 原理應用 Matl

原创 SparkML之分類(二)logistics迴歸

前面已經陳述過logistic的理論的了,在此就不贅述了(http://blog.csdn.net/legotime/article/details/51312393) Logistic 函數(分類時有個名字叫Sigmoid函數)如下:

原创 SparkML之迴歸(三)保序迴歸

在寫這篇博客的時候,翻閱了一些互聯網上的資料,發現文獻[1]寫的比較系統。所以推薦大家讀讀文獻[1].但是出現了一些錯誤,所以我在此簡述一些。如果推理不過去了。可以看看我的簡述。 -----------------------------

原创 SparkML之特徵提取(一)主成分分析(PCA)

主成分分析(Principal Component Analysis,PCA), 將多個變量通過線性變換以選出較少個數重要變量的一種多 元統計分析方法. ------------------------------------------