R語言數據挖掘實戰系列(2)

R語言數據挖掘實戰系列(2)

二、R語言簡介

R語言是一種爲統計計算和圖形顯示而設計的語言環境,具有免費、多平臺支持,同時可以從各種類型的數據源中導入數據,具有較高的開放性以及高水準的製圖功能。R是一個體系龐大的應用軟件,主要包括核心的R標準包和各專業領域的其他包。R在數據分析、數據挖掘領域具有特別優勢。

R安裝

R可在其主頁(https://www.r-project.org/)上獲得,根據所選擇的平臺進行下載安裝。安裝完成之後啓動R。爲了方便使用R,可使用免費的圖形界面編輯器RStudio,可從https://www.rstudio.com/下載安裝。

R使用入門

R軟件界面與其他編程軟件相類似,是由一些菜單和快捷按鈕組成。

wKioL1kqi6yh-s80AAD2FRlR4sM711.jpg-wh_50

“文件”菜單可以實現:輸入R代碼、建立新的程序腳本、打開程序腳本、顯示文件、載入工作空間、保存工作空間、載入歷史、保存歷史、改變當前目錄、打印、保存到文件以及退出功能;“編輯”菜單可以實現複製、粘貼、清楚控制檯和數據編輯等功能;“查看”菜單可以選擇是否顯示工具欄;“其他”菜單可以實現中斷目前計算、緩衝輸出及列出目標對象等功能;“程序包”菜單可以實現載入程序包,設置CRAN鏡像、安裝以及更新程序包等功能;“窗口”菜單可以選擇將所有窗口層疊或平鋪;“幫助”菜單提供R的常見問答和幫助途徑。

工具欄從左至右依次爲打開程序腳本、載入映像、保存映像、複製、粘貼、複製和粘貼、終止目前計算以及打印的操作。

命令窗口中“>”是命令提示符,表示R處於準備編輯的狀態,用戶可以直接在命令提示符後輸入命令語句,按“Enter”鍵執行。

RStudio介紹

RStudio窗口如下,由代碼編輯、命令控制檯、資源欄和其他欄組合而成。

wKioL1kqjmjj0soJAAJx6R7SI1o234.jpg-wh_50

R常用操作

(1)help

功能:提供R函數和R文件的在線式幫助。

在命令窗口輸入help(函數名),或?函數名,按“Enter”鍵執行,或者在R的幫助(Help)菜單下的Search Help彈出框輸入函數名,都可以打開幫助瀏覽器。

使用幫助中主要包括6個部分內容:Description(函數說明)部分描述函數的主要功能;Usage(用法)部分給出了函數的調用方法;Arguments(參數)部分給出了輸入參數的詳細解釋,包括輸入參數的取值範圍、數據格式等;Detail(詳情)部分給出了和該函數相關的信息;See Also(其他)部分則提供了與該函數相關的其他函數的鏈接;Examples(例子)部分給出了函數的常用例子,用戶可以直接運行示例程序得到結果,得到對該函數的一個直觀的印象。有些函數的幫助文檔還包括:Value(輸出參數)部分給出了輸出參數的詳細描述;Reference(參考文獻)部分給出了有關學者對該函數的研究文獻。

(2)Ctrl+L

功能:清除命令窗口中的所有顯示內容。

(3)rm(list=ls())

功能:清除R工作空間中的內存變量。一般利用rm(list=ls())命令與gc()命令,清除內存變量並釋放內存空間。

(4)install.packages、library

功能:install.packages()用來下載和安裝程序包;library()函數不僅可以顯示庫中有哪些包,還可以載入所下載的包,進而在會話中使用包。

(5)getwd()、setwd()

功能:獲取或設置當前工作目錄的位置。

(6)save、load

功能:save將R工作空間中的指定對象保存到執行的文件中;load從磁盤文件讀取一個工作空間到當前會話中。

(7)read.table、write.table、read.csv、write.csv

功能:read.table、read.csv讀取EXCEL、TXT或CSV文件到當前工作空間;write.table、write.csv把當前工作空間的數據寫入到EXCEL、TXT或者CSV文件中。

(8)odbcConnect、sqlFetch、sqlQuery

功能:odbcConnect建立一個到ODBC數據庫的連接;sqlFetch讀取ODBC數據庫中的某個表到R的一個數據框中;sqlQuery相ODBC數據庫提交一個查詢並返回結果。

(9)source、sink

功能:source(“filename”)可在當前會話中執行一個腳本;sink("filename")將輸出重定向到文件filename中。

(10)plot

功能:畫圖,可以設置參數進行定製的圖像繪製。

R數據分析包

R包主要包含的類別有空間數據分析類、機器學習與統計學習類、多元統計類、藥物動力學數據分析類、計量經濟類、金融分析類、並行計算類、數據庫訪問類。

功能函數及加載包
分類nnet()需要加載BP神經網絡nnet包;randomForest()需要加載隨機森林randomForest包;svm()需要加載e1071包;tree()需要加載CART決策樹tree包等
聚類hclust()函數、kmeans()函數
關聯規則apriori()需要加載arules包
時間序列arima()需要加載forecast、tseries包


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章