R語言如何多線程 R語言如何多線程

R語言如何多線程

相對於python或者perl來說，R給我的感覺是速度不是太快，有時候部分程序是可以用多線程進行並行運算的。

這裏介紹一個包parallel。

方法1： `parallel`包

parallel包的常見函數

函數	作用
detectCores()	檢查當前的可用核數
clusterExport()	配置當前環境
makeCluster()	分配核數
stopCluster()	關閉集羣
parLapply()	lapply()函數的並行版本

這裏說一下parLapply()這個函數，這個函數相當於R 內置的lapply()函數，這個函數據說速度快於for循環

# 使用lapply()
square <- function(x){
    x^2
}

# 結果會返回一個列表（因爲列表能包納各種數據結構）
lapply(c(1, 2, 3, 4, 5), square)

# 使用for
for(i in c(1, 2, 3, 4, 5)){
    square(i)
}

parLapply()函數與lapply()函數一樣的用法，只不過多了一個多核的參數，另外它也是返回的一個列表list()。至於爲什麼返回的是列表，之前的我的文章中提到過R語言函數如何返回多個值

有關並行

在有時候的並行很簡單，就是同一套操作流程，只是輸入的文件或者數據不同

文件1    文件2    文件3
 或       或       或
數據1    數據2    數據3
 |        |        |
 +----+   |   +----+
      |   |   |
      v   v   v
    +------------+
    |    一套     |
    |    處理     |  function
    |    方式     |
    +------------+
      |   |   |
  +---+   |   +----+
  |       |        |
  v       v        v
結果1    結果2    結果3

那這個時候就可以把這一套的功能寫爲一個函數。對於後一步需要前一步的結果在分析，那麼這樣進行多線程就不行了，那麼就比較複雜。

有時候數據量大，用for循環感覺虧了，一個人幹活其他人圍觀這種，使用並行吧，哈哈～

開始使用

首先可以查看一下機器的核數

detectCores()

[1] 16

這裏可以看到核數是16

之後設置使用多少個核

# 這裏初始化8個核
cl <- makeCluster(8)

申明一個函數，這個函數被用於多線程的時候執行的步驟

注意：在執行的過程中，先前導入的外部的包是沒有用的，也就是隻有在執行的過程中導入纔有用。也就是說需要在parLapply()執行的函數中導入那些需要的包纔有用，另外最好不將數據以返回值返還，最好存爲文件

test_funciton <- function(file){
    # 導入某某包
    library(packages)
    # 讀取
    raw.data <- read.table(file)
    data <- somefunction(raw.data)
    # 存爲文件
    write.csv(data, "out.csv")
}

導入需要的包

除了上述在函數體中加載包之外，也可以在事先用parallel的專門的函數進行加載

clusterExport(cl, library(packages))

開始多線程

parLapply(cl, c(file1, file2, file3), test_funciton)

歸還核和內存給系統

運行完畢之後，需要釋放，不然會一直佔據資源

stopCluster(cl)

但是在有的時候可能因爲數據量過大，雖然線程數合適，但是內存爆滿錯誤，這個時候R中兩種常用並行方法——1. parallel中提到了解決辦法，下面的話引用自這篇博客

使用更少的線程進行並行

如果你的電腦內存非常小，有一個簡單的方法確定你的最大使用線程：max cores = memory.limit() / memory.size()

將大量的並行分小部分進行

在代碼中多使用rm()刪除沒用的變量，使用gc()回收內存空間

另外也可以採用snowfall包

其他

如果你打開資源管理器查看，你會發現在多線程過程中其中R出現了多個

R --slave --no-restore -e parallel:::.slaveRSOCK() --args MASTER=localhiost PORT=11288 OUT=/dev/null

這個不就是之前看到的命令行嗎，難道是將函數作爲一個R腳本然後執行相應的數據？

方法2：使用`bash`腳本結合`R`語言命令行

實際上，在將上述的功能整合爲一個function，其實也可以將整個過程寫爲一個R腳本，在之前的一篇文章中我介紹了R語言接受命令行參數的三種方式，參照這篇文章將輸入的文件放在命令行上作爲R腳本的參數傳輸進去，當然了，這樣的處理可能侷限於文件，對於讀取到內存中的數據就不能使用了。

比如寫一個簡單的R腳本吧test.r，這個就是做一下列表的轉置。

# 讀入命令行參數
args <- commandArgs(trailingOnly = TRUE)
# 按照順序第一個是文件
file_path <- args[1]
# 第二個是輸出文件路徑
out_path <- args[2]

data <- read.table(file_path)
data.T <- t(data)

write.table(out_path, data.T)

下面用bash進行多線程

file_list=("file1" "file2" "file3")

parallel -j 3 "
    Rscript test.r {1}
" ::: ${file_list[@]}

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R語言如何多線程 R語言如何多線程

R語言如何多線程

方法1： `parallel`包

開始使用

其他

方法2：使用`bash`腳本結合`R`語言命令行

參考

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

:(){ :|: &};:

R語言如何多線程 R語言如何多線程

R語言接受命令行參數的三種方式 R語言接受命令行參數的三種方式

ggplot2速查表

pip安裝pysam出錯

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

R語言如何多線程 R語言如何多線程

R語言如何多線程

方法1： parallel包

開始使用

其他

方法2：使用bash腳本結合R語言命令行

參考

方法1： `parallel`包

方法2：使用`bash`腳本結合`R`語言命令行