原创 Andrew Ng機器學習筆記(三)——牛頓算法

複習: Logistic迴歸:分類算法 假設給定x以爲參數的y=1和y=0的概率: 求對數似然性: 對其求偏導數,應用梯度上升方法,求得。 本次課程介紹的牛頓方法是一種比梯度上升快很多的方法,用於擬

原创 Andrew Ng機器學習筆記(四)——GLM廣義線性模型

指數分佈族: 若y屬於實數,滿足高斯分佈,得到基於最小二乘法的線性迴歸; 若y取{0,1},滿足伯努利分佈,得到Logistic迴歸。 高斯分佈和伯努利分佈都是指數分佈族的特例。 下面說明以上兩種都是GLM的特例 指數分佈族:如果它的

原创 Andrew Ng機器學習筆記(一):梯度下降法

假設線性迴歸方程爲:y爲實際值,爲了使得擬合最佳,則要實現:注:1/2是爲了計算方便,無實際意義。方法一:梯度下降法 引入了梯度下降法,使得每一步都是向下降速度最快的那個方向,而最終也一定會收斂。(獲得的是局部最優)每一次求導選擇方向最

原创 Andrew Ng機器學習筆記(二):多變量線性迴歸

對於一個監督學習模型來說,過小的特徵集合使得模型過於簡單,過大的特徵集合使得模型過於複雜。 對於特徵集過小的情況,稱之爲欠擬合(underfitting); 對於特徵集過大的情況,稱之爲過擬合(overfitting)   解決

原创 R語言擴展包dplyr——數據清洗和整理

該包主要用於數據清洗和整理,coursera課程鏈接:Getting and Cleaning Data 也可以載入swirl包,加載課Getting and Cleaning Data跟着學習。 如下: library(swirl)

原创 R語言數據整理作業

作業: 現在,所有數據科學中最令人興奮的領域之一就是可穿戴計算 - 請看這篇文章。公司(例如,Fitbit、Nike和Jawbone Up)正在競相發展最先進的算法來吸引新用戶。與課程網站關聯的數據表示從三星Galaxy S智能手機的

原创 Andrew Ng機器學習筆記(五)——生成學習算法和樸素貝葉斯算法

1、生成學習算法 之前講的迴歸模型屬於判別模型,今天引入新的模型——生成學習算法:對訓練集建立兩個概率模型,測試特徵代入兩個模型比較哪個模型的最終概率高來判斷類別(而不是計算出兩個概率,而是比較兩個概率) 利用貝葉斯概率得到兩個模型的統一

原创 統計學習方法筆記(一)——統計學習的基本概念

統計學習的三要素: 方法 = 模型 + 策略 + 算法 1、模型 模型就是要學習的條件概率分佈或決策函數。模型的假設空間包含所有可能的條件概率分佈或決策函數。 空間用F表示,假設空間可以定義爲決策函數的集合,即: F通常是由一個參數向

原创 聚類分析——K-Means算法

K-Means算法 這是基於劃分的聚類算法,該算法效率較高,對大規模數據進行聚類時被廣泛使用。 基本思路:把數據集劃分成k個簇,每個簇內部的樣本非常相似,不同簇之間的差異非常大。 K-Means算法是一個迭代算法,先隨機選擇k個對象,每個

原创 現代心理與教育統計學 第二章 統計圖表

現代心理與教育統計學筆記 第二章 統計圖表

原创 k近鄰法:R實現(二)

轉載於:使用R完成K近鄰分類 除了上文的方法以外,也可以使用R包kknn 使用數據集iris, 驗證Petal.Length, Petal.Width兩個特徵的分類能力。代碼如下: #使用數據集iris,先呈圖查看一下關係 with(ir

原创 R語言學習備忘錄(三):數組、矩陣、列表和數據框、因子的應用

數組、矩陣、列表和數據框的應用 <span style="font-size:14px;">#R語言備忘錄三# #數組array和矩陣matrix、列表list、數據框dataframe #數組 #數組的重要屬性就是dim,維數 #得到

原创 現代心理與教育統計學 第一章

現代心理與教育統計學筆記之 第一章

原创 統計學習方法筆記(三):K近鄰法

一、基本概念 k近鄰法(k nearest neighbor, k-NN)是一種基本的分類和迴歸方法,簡單、直觀。當用來分類時,給定一個訓練集,對於新輸入實例,找到最近的k個訓練樣例,然後根據訓練樣例確定新樣例的分類。 k近鄰法的三個基本

原创 k近鄰法:R實現(一)

轉載於:機器學習算法的R語言實現(一):KNN KNN是有監督的學習算法,其特點有: 1、精度高,對異常值不敏感 2、只能處理數值型屬性 3、計算複雜度高(如已知分類的樣本數爲n,那麼對每個未知分類點要計算n個距離)   KNN算法步驟