原创 SparkML之迴歸(二)嶺迴歸和Lasso闡述及OLS,梯度下降比較
嶺迴歸(RidgeRegression)它的上一級稱之爲Tikhonov regularization,是以Andrey Tikhonov命名的。 Lasso(least absolute shrinkage and selection
原创 SparkML之分類(四)決策樹
說起樹,不得不首先提起的二個人就是Leo Breiman和John Ross Quinlan ,他倆在樹這快做了很大的貢獻,如果對他所做工作感興趣的可以訪問參考文獻[1][5] 現在我們拋開一切,從我們最熟悉的分段函數開始,如
原创 SparkML之特徵提取(二)詞項加權之DF-IDF
詞項加權(Term Weighting)的目的是給分詞後的詞語加上權重。重要的詞項給予更高的權重。那麼當我們對文本 進行檢索的時候。比如當我們在淘寶購物,輸入“那本語義分析類的書最好”,那麼我們進行Term Weighting可能 是:“
原创 SparkML之分類(三)支持向量機(SVM)
一、數學原理 支持向量機(SVM)是由Vladimir N. Vapnik和 Alexey Ya. Chervonenkis在1963年提出的。SVM的提出解決了當時在機 器學習領域的“維數災難”,“過學習”等問題。它在機器學習領域可以用
原创 SparkML之聚類(一)Kmeans聚類
------------------------------目錄-------------------------------------------------- Kmeans理論 Matlab實現 Spark源碼分析 Spark源碼
原创 用Java 實現簡單的推薦系統(個人博客地址:www.ryanbing.com )
package recommender; import java.util.Arrays; /** * Created by legotime */ public class recommendTest { pu
原创 SparkStreaming之窗口函數
WindowOperations(窗口操作) Spark還提供了窗口的計算,它允許你使用一個滑動窗口應用在數據變換中。下圖說明了該滑動窗口。 如圖所示,每個時間窗口在一個個DStream中劃過,每個DSteam中的RD
原创 SparkR環境搭建
------------------------------------------目錄---------------------------------------------------------- R的安裝 Rstudio的安裝
原创 SparkML之迴歸(一)線性迴歸
----------------------------目錄----------------------------------------------------------------------- 線性迴歸理論 spark源碼 Sp
原创 SparkStreaming之基本數據源輸入
輸入DStreams表示從數據源獲取的原始數據流。Spark Streaming擁有兩類數據源 (1)基本源(Basic sources):這些源在StreamingContext API中直接可用。例如文件系統、套接字連接、 Akka
原创 SparkML之分類(一)貝葉斯分類
1.1、貝葉斯定理 貝葉斯定理:用來描述兩個條件概率之間的關係。比如P(A/B)和P(B/A),那麼可以推導: ,我們下圖進行進行說明: 假設:,那麼有,
原创 SparkML之推薦算法(一)ALS
ALS(alternating least squares ):交替最小二乘法 --------------------------------------------------------------------- 原理應用 Matl
原创 SparkML之分類(二)logistics迴歸
前面已經陳述過logistic的理論的了,在此就不贅述了(http://blog.csdn.net/legotime/article/details/51312393) Logistic 函數(分類時有個名字叫Sigmoid函數)如下:
原创 SparkML之迴歸(三)保序迴歸
在寫這篇博客的時候,翻閱了一些互聯網上的資料,發現文獻[1]寫的比較系統。所以推薦大家讀讀文獻[1].但是出現了一些錯誤,所以我在此簡述一些。如果推理不過去了。可以看看我的簡述。 -----------------------------
原创 SparkML之特徵提取(一)主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA), 將多個變量通過線性變換以選出較少個數重要變量的一種多 元統計分析方法. ------------------------------------------