原创 R語言-數據框取列

R中數據框取列的方式具體來說有三種: $+列名 [列名向量] [,+列名] 其中第一種和第三種結果是一樣的,都是將 某個列給分離了出來,成爲一個向量。 而第二種方式結果的class爲“data.frame”,因此你不能將其看

原创 ID3決策樹(Java實現)

說明 參考文章-歸納決策樹ID3(Java實現),完成代碼編寫。 在原代碼的基礎上補充了預測函數,實現利用模型對新數據進行分類預測。 作者對ID3決策樹的介紹-ID3決策樹 決策樹採用xml文件保存,使用Dom4J類庫,點擊下

原创 生存分析(2)

接上篇文章生存分析(1),本文將進一步介紹生存分析中有關生存率的具體算法及其應用 Kaplan-Meier法(K-M法、乘積極限法) Kaplan-Meier法由Kaplan和Meier於1958年提出,直接用概率乘法定理估計生存

原创 R語言-生存分析

有關生存分析的相關知識,請自行前往“算法與模型”類博客進行學習。 (http://blog.csdn.net/xiaohukun/article/details/77679134) 一、下載並加載包 進行生存分析使用的是surv

原创 生存分析(3)

之前的一篇文章,我們比較細緻的講解了一下K-M法與壽命表法這兩種非參數的研究方法。實現了對數據的一個初步應用,並能夠完成單因素分析,接下來將介紹一下生存分析中最常用的模型—Cox比例風險迴歸模型,這是一種含參數的模型,能夠實現對數

原创 ID3決策樹

知識準備:信息熵 熵是無序性(或不確定性)的度量指標。加入事件A的全概率劃分是(A1,A2,…An),每部分發生的概率是(p1,p2,…pn),那信息熵定義爲: entropy(p1,p2,…,pn)=−p1log2p1−p2l

原创 CART決策樹

參考: http://www.cnblogs.com/yonghao/p/5135386.html http://blog.sina.com.cn/s/blog_5d6632e70101gh79.html 概述: CART

原创 ID3決策樹(R實現)

說明 1.參考文章:R語言實現決策樹ID3算法 2.補充了分類預測的函數部分 3.採用數據框模擬xml文件的方式存儲決策樹 代碼 訓練集(train_data) outlook temperature humidity

原创 生存分析(1)

一、基本概念和名詞解釋 1.生存分析(survival analysis) 是研究生存現象和響應時間數據及其統計規律的一門學科。 是將事件的結果(終點事件)和出現這一結果所經歷的時間結合起來分析的一種統計分析方法。 生存分析與

原创 R語言-RC系統

本文參考R語言基於RC的面向對象編程 想要學習S4相關內容的,請看R語言-S4系統 RC對象系統從底層上改變了原有S3和S4對象系統的設計,去掉了泛型函數,真正地以類爲基礎實現面向對象的特徵。 1.RC對象系統介紹 RC是Re

原创 R語言-S3系統

本文參考R語言基於S3的面向對象編程 R的面向對象編程提供了3種底層對象類型,一種是S3類型,一種是S4類型還有一種是RC類型。 S3對象簡單、具有動態性、結構化特徵不明顯;S4對象結構化、
功能強大;RC對象是2.12版本後使

原创 R語言-S4系統

本文參考R語言基於S4的面向對象編程 想要學習S3相關內容的,請看R語言-S3系統 S4對象系統具有明顯的結構化特徵,更適合面向對象的程序設計。 1.S4對象介紹 S4對象系統是一種標準的R語言面向對象實現方式,S4對象有明確的

原创 EXCEL數據行數達上線,讀取發生錯誤

當用EXCEL作爲數據存儲目標,從數據庫導出數據時由於EXCEl的設置最多隻能導入65533條數據。導入之後用編輯軟件查看和編輯改文件沒有問題,但是使用分析軟件讀取時卻可能發生錯誤。 例如,使用R讀取時,會報如下錯誤: E

原创 R語言-循環方式

1.for循環 R語言當中的for循環語法表述如下: for(value in that){ this } #that應該是一個對象集合 需要注意的是,value對象是會存儲到當前的活動環境中的,如果此前有同名對象則會

原创 R語言-數據庫連接與使用

1. 配置ODBC數據源 本文以MySQL數據庫爲例進行連接,其它數據庫連接方式大同小異 (1)下載 mysql ODBC (2)添加數據源 打開【控制面板】-【管理工具】-【ODBC數據源】,並點擊添加 (3)選擇驅動