R語言如何多線程
相對於python或者perl來說,R給我的感覺是速度不是太快,有時候部分程序是可以用多線程進行並行運算的。
這裏介紹一個包parallel
。
方法1: parallel
包
-
parallel
包的常見函數
函數 | 作用 |
---|---|
detectCores() | 檢查當前的可用核數 |
clusterExport() | 配置當前環境 |
makeCluster() | 分配核數 |
stopCluster() | 關閉集羣 |
parLapply() | lapply()函數的並行版本 |
這裏說一下parLapply()
這個函數,這個函數相當於R
內置的lapply()
函數,這個函數據說速度快於for
循環
# 使用lapply()
square <- function(x){
x^2
}
# 結果會返回一個列表(因爲列表能包納各種數據結構)
lapply(c(1, 2, 3, 4, 5), square)
# 使用for
for(i in c(1, 2, 3, 4, 5)){
square(i)
}
parLapply()
函數與lapply()
函數一樣的用法,只不過多了一個多核的參數,另外它也是返回的一個列表list()
。至於爲什麼返回的是列表,之前的我的文章中提到過R語言函數如何返回多個值
- 有關並行
在有時候的並行很簡單,就是同一套操作流程,只是輸入的文件或者數據不同
文件1 文件2 文件3
或 或 或
數據1 數據2 數據3
| | |
+----+ | +----+
| | |
v v v
+------------+
| 一套 |
| 處理 | function
| 方式 |
+------------+
| | |
+---+ | +----+
| | |
v v v
結果1 結果2 結果3
那這個時候就可以把這一套的功能寫爲一個函數。對於後一步需要前一步的結果在分析,那麼這樣進行多線程就不行了,那麼就比較複雜。
有時候數據量大,用for
循環感覺虧了,一個人幹活其他人圍觀這種,使用並行吧,哈哈~
開始使用
- 首先可以查看一下機器的核數
detectCores()
[1] 16
這裏可以看到核數是16
- 之後設置使用多少個核
# 這裏初始化8個核
cl <- makeCluster(8)
- 申明一個函數,這個函數被用於多線程的時候執行的步驟
注意:在執行的過程中,先前導入的外部的包是沒有用的,也就是隻有在執行的過程中導入纔有用。也就是說需要在parLapply()執行的函數中導入那些需要的包纔有用,另外最好不將數據以返回值返還,最好存爲文件
test_funciton <- function(file){
# 導入某某包
library(packages)
# 讀取
raw.data <- read.table(file)
data <- somefunction(raw.data)
# 存爲文件
write.csv(data, "out.csv")
}
- 導入需要的包
除了上述在函數體中加載包之外,也可以在事先用parallel
的專門的函數進行加載
clusterExport(cl, library(packages))
- 開始多線程
parLapply(cl, c(file1, file2, file3), test_funciton)
- 歸還核和內存給系統
運行完畢之後,需要釋放,不然會一直佔據資源
stopCluster(cl)
但是在有的時候可能因爲數據量過大,雖然線程數合適,但是內存爆滿錯誤,這個時候R中兩種常用並行方法——1. parallel中提到了解決辦法,下面的話引用自這篇博客
使用更少的線程進行並行
如果你的電腦內存非常小,有一個簡單的方法確定你的最大使用線程:
max cores = memory.limit() / memory.size()
將大量的並行分小部分進行
在代碼中多使用
rm()
刪除沒用的變量,使用gc()
回收內存空間另外也可以採用snowfall包
其他
如果你打開資源管理器查看,你會發現在多線程過程中其中R出現了多個
R --slave --no-restore -e parallel:::.slaveRSOCK() --args MASTER=localhiost PORT=11288 OUT=/dev/null
這個不就是之前看到的命令行嗎,難道是將函數作爲一個R腳本然後執行相應的數據?
方法2:使用bash
腳本結合R
語言命令行
實際上,在將上述的功能整合爲一個function
,其實也可以將整個過程寫爲一個R
腳本,在之前的一篇文章中我介紹了R語言接受命令行參數的三種方式,參照這篇文章將輸入的文件放在命令行上作爲R
腳本的參數傳輸進去,當然了,這樣的處理可能侷限於文件,對於讀取到內存中的數據就不能使用了。
比如寫一個簡單的R腳本吧test.r
,這個就是做一下列表的轉置。
# 讀入命令行參數
args <- commandArgs(trailingOnly = TRUE)
# 按照順序第一個是文件
file_path <- args[1]
# 第二個是輸出文件路徑
out_path <- args[2]
data <- read.table(file_path)
data.T <- t(data)
write.table(out_path, data.T)
下面用bash
進行多線程
file_list=("file1" "file2" "file3")
parallel -j 3 "
Rscript test.r {1}
" ::: ${file_list[@]}