在開始之前,先來說說如何定義數據集的行和列,不同領域的大神往往叫法各異。
大神 | 行叫法 | 列叫法 |
統計學家 | 觀測(observation) | 變量(variable) |
數據庫分析師 | 記錄(record) | 字段(field) |
數據挖掘(機器學習)師 | 示例(example) | 屬性(attribute) |
1、幫助函數
函數 | 功能 |
help.start() | 打開幫助文檔首頁 |
help("foo")或?foo | 查看函數foo的幫助(引號可以省略) |
help.search("foo")或??foo | 以foo爲關鍵詞搜索本地幫助文檔 |
example("foo") | 函數foo的使用示例(引號可以省略) |
RSiteSearch("foo") | 以foo爲關鍵詞搜索在線文檔和郵件列表存檔 |
apropos("foo", mode="function") | 列出名稱中含有foo的所有可用函數 |
data() | 列出當前已加載包中所含的所有可用示例數據集 |
vignette() | 列出當前已安裝包中所有可用的vignette文檔 |
vignette("foo") | 爲主題foo顯示指定的vignette文檔 |
2、簡單函數集合
varname<-
c()——可將其參數組合成一個向量或列表
mean()、sd()、cov()、cor(a,b)、plot(a,b)——均值、標準差、方差、協方差、散點圖
data.frame(var1,var2,var3,...)——數據框,其中varn<-c(),數值型不用引號,字符串要引號
attach()——可將數據框添加到R的搜索路徑中,##這裏要注意,attach函數只能用於串列、數據框等
detach()——將數據框從搜索路徑中移除
3、因子的使用
變量可歸結爲名義型(類別)、有序型或連續型變量,名義型沒有順序之分,有序型表示一種順序關係而非數量關係,連續型可以呈現爲某個範圍內的任意值並同時表示了順序和數量。
類別(名義型)變量和有序類別變量在R中稱爲因子,因子在R中非常重要,因爲它決定了數據的分析方式以及如何進行視覺呈現。
對於字符型向量,因子的水平默認依字母順序創建。不過有時差強人意,這時可以自己定義順序,通過指定levels選項來覆蓋默認排序。例如:
status<-factor(status,order=TRUE,levels=c("Poor","Improve","Excellent")
各水平的賦值將爲1=Poor、2=Improved、3=Excellent
4、列表list
列表(list)是R的數據類型中最爲複雜的一種。一般來說,列表就是一些對象(或成分,component)的有序集合。列表允許你整合若干(可能無關的)對象到單個對象名下。