原创 R筆記之基礎建模技術

1.有監督和無監督 2.誤差極其來源 (1)系統誤差和隨機誤差 (2) 因變量誤差 (3) 自變量誤差 3.數據劃分和再抽樣 數據劃分:將一部分數據預留出來用於模型測試,只用另外的部分數據進行模型

原创 R語言筆記之裝袋樹和隨機森林

裝袋法優勢: 1.有效降低了預測的方差 2.具有更好的預測效能 3.可以提供內在的預測效能估計 裝袋法侷限: 1.計算量 2.解釋性差 如何用R建立裝袋樹? 先得到自變量和因變量 > library(caret) >

原创 Numpy 函數庫基礎

打開anaconda prompt (base) C:\Users\LLJiang>python Python 2.7.14 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03

原创 R語言之數據操作

數據讀寫 對離散變量,我們會觀測變量各個層級觀測的頻數,或者使用兩個變量的交叉表格,對離散變量繪製條形圖等; 對連續變量,我們會看某個變量的均值,標準差,分位數等 此外,summary(),str(),describe(()等

原创 R語言筆記之數據科學算法總結

1.迴歸算法(Regression) a.一般最小二乘迴歸(Ordinary Least Squares) b.邏輯迴歸(Logistic Regression) c.自適應樣條迴歸(Multivariate Adaptiv

原创 R語言筆記之廣義線性模型壓縮方法2

邏輯迴歸 1.普通邏輯迴歸 在邏輯迴歸中,當變量個數相對觀測較大時,很容易發生完全分離或者準完全分離的現象,這時候沒有唯一的極大似然估計,因此參數估計的方差極大。 > dat=read.csv("https://raw.gith

原创 k-近鄰算法(預)

步驟1:準備,使用python導入數據 創建kNN.py文件,代碼如下: 注意格式!注意格式!注意格式! #numpy爲科學計算包 from numpy import * #operator爲運算符模塊,提供排序操作的函數 im

原创 R語言筆記之樹模型(迴歸樹和決策樹)

迴歸樹過程: 例:有10名學生,他們的身高分佈如下: R1: 女生(7):156,167,165,163,160,170,160 R2: 男生(3):172,180,176 那麼,落入R1的樣本均值爲163,落入R2的樣

原创 R語言筆記之線性迴歸及其衍生(續)

> library(lattice) Warning message: 程輯包‘lattice’是用R版本3.4.3 來建造的 > library(caret) 載入需要的程輯包:ggplot2 Warning messages

原创 R語言筆記——回顧小結(數據清洗,建模簡單流程)

已經好久沒有寫博客了,今天來複習一下簡單的建模流程以kaggle比賽的房價預測爲例:(具體數據這裏不給出,只說一下思路)裏面所提供的數據較爲乾淨,我們只需對數據進行簡單的清洗(較爲乾淨含義爲,我們不需要自己手工提取相應變量字段等內容,如,

原创 R語言筆記之線性迴歸及其衍生

普通線性迴歸 1.最小二乘線性模型 > dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.

原创 R語言筆記之樹模型

本文來源於《北美數據科學家的私房課》 樹模型中幾個重要定義詞 分類樹(預測離散型結果的樹),迴歸樹(預測連續型結果的樹),分裂點,根節點,葉節點,節點的度,樹的度,修剪,樹枝(子樹),親節點和子節點。 (本人烏鴉之作,大家瞭解分

原创 R語言筆記之廣義線性模型壓縮方法1

glmnet包可以對一系列調優參數值同時計算參數估計。 該包可以用於線性迴歸,也可以擬合廣義線性模型,如邏輯迴歸,多項式迴歸,泊松迴歸,cox迴歸。 初始glmnet > install.packages("glmnet") t

原创 R語言之數據預處理(下)

處理高度相關變量算法: 1.計算自變量的相關係數矩陣 2.找出相關係數絕對值最大的那對自變量(a和b) 3.計算a和其他自變量相關係數的均值,對b也做同樣操作 4.若a的平均相關係數更大,則將a移除,否則移除b 5,重複2

原创 R語言筆記之特徵工程

1.特徵構建(藝術成分最高) 特徵構建指的是從原始數據中人工地構建新的特徵 它需要我們從原始數據中找出一些具有物理意義的特徵 2.特徵提取 它是一項用不同變量的組合代替原變量的技術 它的目的是自動地構建新的特徵,將原始特徵轉換