台部落Eunice

複習： Logistic迴歸：分類算法假設給定x以爲參數的y=1和y=0的概率：求對數似然性：對其求偏導數，應用梯度上升方法，求得。本次課程介紹的牛頓方法是一種比梯度上升快很多的方法，用於擬

2020-02-23 23:33:35

指數分佈族：若y屬於實數，滿足高斯分佈，得到基於最小二乘法的線性迴歸；若y取{0,1}，滿足伯努利分佈，得到Logistic迴歸。高斯分佈和伯努利分佈都是指數分佈族的特例。下面說明以上兩種都是GLM的特例指數分佈族：如果它的

2020-02-23 23:33:35

假設線性迴歸方程爲：y爲實際值，爲了使得擬合最佳，則要實現：注：1/2是爲了計算方便，無實際意義。方法一：梯度下降法引入了梯度下降法，使得每一步都是向下降速度最快的那個方向，而最終也一定會收斂。（獲得的是局部最優）每一次求導選擇方向最

2020-02-23 23:33:35

對於一個監督學習模型來說，過小的特徵集合使得模型過於簡單，過大的特徵集合使得模型過於複雜。對於特徵集過小的情況，稱之爲欠擬合（underfitting）；對於特徵集過大的情況，稱之爲過擬合（overfitting）解決

2020-02-23 23:33:35

該包主要用於數據清洗和整理，coursera課程鏈接：Getting and Cleaning Data 也可以載入swirl包，加載課Getting and Cleaning Data跟着學習。如下： library(swirl)

2018-08-30 19:52:08

作業：現在，所有數據科學中最令人興奮的領域之一就是可穿戴計算 - 請看這篇文章。公司（例如，Fitbit、Nike和Jawbone Up）正在競相發展最先進的算法來吸引新用戶。與課程網站關聯的數據表示從三星Galaxy S智能手機的

2018-08-30 19:52:08

1、生成學習算法之前講的迴歸模型屬於判別模型，今天引入新的模型——生成學習算法：對訓練集建立兩個概率模型，測試特徵代入兩個模型比較哪個模型的最終概率高來判斷類別（而不是計算出兩個概率，而是比較兩個概率）利用貝葉斯概率得到兩個模型的統一

2018-08-30 19:52:07

統計學習的三要素：方法 = 模型 + 策略 + 算法 1、模型模型就是要學習的條件概率分佈或決策函數。模型的假設空間包含所有可能的條件概率分佈或決策函數。空間用F表示，假設空間可以定義爲決策函數的集合，即： F通常是由一個參數向

2018-08-30 19:52:07

K-Means算法這是基於劃分的聚類算法，該算法效率較高，對大規模數據進行聚類時被廣泛使用。基本思路：把數據集劃分成k個簇，每個簇內部的樣本非常相似，不同簇之間的差異非常大。 K-Means算法是一個迭代算法，先隨機選擇k個對象，每個

2018-08-30 19:52:07

現代心理與教育統計學筆記第二章統計圖表

2018-08-30 19:52:07

轉載於：使用R完成K近鄰分類除了上文的方法以外，也可以使用R包kknn 使用數據集iris，驗證Petal.Length, Petal.Width兩個特徵的分類能力。代碼如下： #使用數據集iris，先呈圖查看一下關係 with(ir

2018-08-30 19:52:05

數組、矩陣、列表和數據框的應用 <span style="font-size:14px;">#R語言備忘錄三# #數組array和矩陣matrix、列表list、數據框dataframe #數組 #數組的重要屬性就是dim，維數 #得到

2018-08-30 19:52:04

現代心理與教育統計學筆記之第一章

2018-08-30 19:52:04

一、基本概念 k近鄰法(k nearest neighbor, k-NN)是一種基本的分類和迴歸方法，簡單、直觀。當用來分類時，給定一個訓練集，對於新輸入實例，找到最近的k個訓練樣例，然後根據訓練樣例確定新樣例的分類。 k近鄰法的三個基本

2018-08-30 19:52:03

轉載於：機器學習算法的R語言實現（一）：KNN KNN是有監督的學習算法，其特點有： 1、精度高，對異常值不敏感 2、只能處理數值型屬性 3、計算複雜度高（如已知分類的樣本數爲n，那麼對每個未知分類點要計算n個距離） KNN算法步驟

2018-08-30 19:52:03