原创 手擼機器學習算法 - 邏輯迴歸

系列文章目錄: 感知機 線性迴歸 非線性問題 多項式迴歸 嶺迴歸 邏輯迴歸 算法介紹 今天我們一起來學習使用非常廣泛的分類算法:邏輯迴歸,是的,你沒有看錯,雖然它名字裏有迴歸,但是它確實是個分類算法,作爲除了感知機以外,最最最簡單的分類

原创 手擼機器學習算法 - 嶺迴歸

系列文章目錄: 感知機 線性迴歸 非線性問題 多項式迴歸 嶺迴歸 算法介紹 今天我們來一起學習一個除了線性迴歸、多項式迴歸外最最最簡單的迴歸算法:嶺迴歸,如果用等式來介紹嶺迴歸,那麼就是:\(嶺迴歸 = 多項式迴歸 + 懲罰項\),\(

原创 手擼機器學習算法 - 多項式迴歸

系列文章目錄: 感知機 線性迴歸 非線性問題 多項式迴歸 嶺迴歸 算法介紹 今天我們來一起學習一個除了線性迴歸外最最最簡單的迴歸算法:多項式迴歸; 從線性迴歸到多項式迴歸 首先我們一起來學習下多項式迴歸,事實上與線性迴歸相比,沒有增加任

原创 手擼機器學習算法 - 非線性問題

系列文章目錄: 感知機 線性迴歸 非線性問題 算法介紹 前面兩篇分別介紹了分類與迴歸問題中各自最簡單的算法,有一點相同的是它們都是線性的,而實際工作中遇到的基本都是非線性問題,而能夠處理非線性問題是機器學習有實用價值的基礎; 首先,非線

原创 手擼機器學習算法 - 線性迴歸

系列文章目錄: 感知機 線性迴歸 如果說感知機是最最最簡單的分類算法,那麼線性迴歸就是最最最簡單的迴歸算法,所以這一篇我們就一起來快活的用兩種姿勢手擼線性迴歸吧; 算法介紹 線性迴歸通過超平面擬合數據點,經驗誤差一般使用MSE(均平方誤

原创 手擼機器學習算法 - 感知機

感知機(Perceptron)是最最最簡單的機器學習算法(分類),同時也是深度學習中神經元的基礎組件; 算法介紹 感知機與邏輯迴歸、SVM類似的是同樣是構建一個分割超平面來實現對數據點的分類,不同點在於超平面的查找過程更加的簡單粗暴,簡單介

原创 《Python深度學習》 Part 1

全部內容來源於《Python深度學習》,以練習爲主,理論知識較少,摻雜有一些個人的理解,雖然不算很準確,但是勝在簡單易懂,這本書是目前看到最適合沒有深度學習經驗的同學們入門的書籍了,不妨試試,該書作者:Francois Chollet,即K

原创 Apache Pig

What is Pig Apache Pig是MapReduce的一個抽象,它是一個工具/平臺(所以說它並不完全是一門語言),用於分析較大數據集,並將其表示爲數據流; Pig通常與Hadoop一起使用,使用Pig進行數據處理、分析時,需要使

原创 分佈式機器學習:如何快速從Python棧過渡到Scala棧

首先介紹下我的情況和需求,如果你跟我類似,那麼這篇文章將很有幫助; 我之前的技術棧主要是Java、Python,機器學習方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等,因爲工作需要使用spark

原创 最簡單入門深度學習

該篇文檔基於kaggle course,通過簡單的理論介紹、程序代碼、運行圖以及動畫等來幫助大家入門深度學習,既然是入門,所以沒有太多模型推導以及高級技巧相關,都是深度學習中最基礎的內容,希望大家看過之後可以自己動手基於Tensorflow

原创 機器學習可解釋性系列 - 是什麼&爲什麼&怎麼做

機器學習可解釋性分析 可解釋性通常是指使用人類可以理解的方式,基於當前的業務,針對模型的結果進行總結分析; 一般來說,計算機通常無法解釋它自身的預測結果,此時就需要一定的人工參與來完成可解釋性工作; 目錄: 是什麼:什麼叫可解釋性; 爲什

原创 Spark 頻繁模式挖掘

Spark - Frequent Pattern Mining 官方文檔:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html 挖掘頻繁項、項集、子序列或者其

原创 Spark Parquet詳解

Spark - Parquet 概述 Apache Parquet屬於Hadoop生態圈的一種新型列式存儲格式,既然屬於Hadoop生態圈,因此也兼容大多圈內計算框架(Hadoop、Spark),另外Parquet是平臺、語言無關的,這使得

原创 Spark 模型選擇和調參

Spark - ML Tuning 官方文檔:https://spark.apache.org/docs/2.2.0/ml-tuning.html 這一章節主要講述如何通過使用MLlib的工具來調試模型算法和pipeline,內置的交叉驗證

原创 Spark中的聚類算法

Spark - Clustering 官方文檔:https://spark.apache.org/docs/2.2.0/ml-clustering.html 這部分介紹MLlib中的聚類算法; 目錄: K-means: 輸入列; 輸出列