台部落鲁鲁酱1996

1.有監督和無監督 2.誤差極其來源（1）系統誤差和隨機誤差（2）因變量誤差（3）自變量誤差 3.數據劃分和再抽樣數據劃分：將一部分數據預留出來用於模型測試，只用另外的部分數據進行模型

2020-06-26 19:34:52

裝袋法優勢： 1.有效降低了預測的方差 2.具有更好的預測效能 3.可以提供內在的預測效能估計裝袋法侷限： 1.計算量 2.解釋性差如何用R建立裝袋樹？先得到自變量和因變量 > library(caret) >

2020-06-26 19:34:52

打開anaconda prompt (base) C:\Users\LLJiang>python Python 2.7.14 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03

2020-06-26 19:34:52

數據讀寫對離散變量，我們會觀測變量各個層級觀測的頻數，或者使用兩個變量的交叉表格，對離散變量繪製條形圖等；對連續變量，我們會看某個變量的均值，標準差，分位數等此外，summary(),str(),describe(()等

2020-06-26 19:34:52

1.迴歸算法(Regression) a.一般最小二乘迴歸（Ordinary Least Squares） b.邏輯迴歸(Logistic Regression) c.自適應樣條迴歸（Multivariate Adaptiv

2020-06-26 19:34:52

邏輯迴歸 1.普通邏輯迴歸在邏輯迴歸中，當變量個數相對觀測較大時，很容易發生完全分離或者準完全分離的現象，這時候沒有唯一的極大似然估計，因此參數估計的方差極大。 > dat=read.csv("https://raw.gith

2020-06-26 19:34:52

步驟1：準備，使用python導入數據創建kNN.py文件，代碼如下：注意格式！注意格式！注意格式！ #numpy爲科學計算包 from numpy import * #operator爲運算符模塊，提供排序操作的函數 im

2020-02-21 15:33:23

迴歸樹過程：例：有10名學生，他們的身高分佈如下： R1：女生（7）：156，167，165，163，160，170，160 R2：男生（3）：172，180，176 那麼，落入R1的樣本均值爲163，落入R2的樣

2020-02-21 15:33:13

> library(lattice) Warning message: 程輯包‘lattice’是用R版本3.4.3 來建造的 > library(caret) 載入需要的程輯包：ggplot2 Warning messages

2020-02-21 15:33:12

已經好久沒有寫博客了，今天來複習一下簡單的建模流程以kaggle比賽的房價預測爲例：(具體數據這裏不給出，只說一下思路）裏面所提供的數據較爲乾淨，我們只需對數據進行簡單的清洗（較爲乾淨含義爲，我們不需要自己手工提取相應變量字段等內容，如，

2020-02-21 15:33:12

普通線性迴歸 1.最小二乘線性模型 > dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.

2020-02-21 15:33:12

本文來源於《北美數據科學家的私房課》樹模型中幾個重要定義詞分類樹（預測離散型結果的樹），迴歸樹（預測連續型結果的樹），分裂點，根節點，葉節點，節點的度，樹的度，修剪，樹枝（子樹),親節點和子節點。（本人烏鴉之作，大家瞭解分

2020-02-21 15:33:12

glmnet包可以對一系列調優參數值同時計算參數估計。該包可以用於線性迴歸，也可以擬合廣義線性模型，如邏輯迴歸，多項式迴歸，泊松迴歸，cox迴歸。初始glmnet > install.packages("glmnet") t

2020-02-21 15:33:12

處理高度相關變量算法： 1.計算自變量的相關係數矩陣 2.找出相關係數絕對值最大的那對自變量（a和b) 3.計算a和其他自變量相關係數的均值，對b也做同樣操作 4.若a的平均相關係數更大，則將a移除，否則移除b 5，重複2

2020-02-21 15:33:12

1.特徵構建（藝術成分最高）特徵構建指的是從原始數據中人工地構建新的特徵它需要我們從原始數據中找出一些具有物理意義的特徵 2.特徵提取它是一項用不同變量的組合代替原變量的技術它的目的是自動地構建新的特徵，將原始特徵轉換

2020-02-21 15:33:12