dplyr分組後返回多值的處理

原創

xwydq

2020-02-26 05:28

（1）dplyr包使用do來處理分組彙總函數返回多值的問題

（2）lapply函數與dplyr的效率比較

lapply函數使用之前需要對原始數據拆分爲list的結構（使用split函數），而拆分的過程當數據量稍大時速度很慢

# 計算分組下一個變量的分位數
df <- data.frame(group=sample(c("A", "B"), 100, replace=T),
                 value=rnorm(100, 2, 5))
df %>%
  group_by(group) %>%
  do(setNames(data.frame(t(quantile(.$value,
                                    probs=seq(0, 1, 0.1)))), 
              paste0("Q", seq(0, 100, by=10))))
# Source: local data frame [2 x 12]
# Groups: group
# 
# group     Q0    Q10    Q20     Q30    Q40   Q50   Q60   Q70   Q80   Q90  Q100
# 1     A -13.46 -4.185 -2.881 -0.7118 1.4251 1.934 3.292 4.478 6.212 10.25 12.98
# 2     B -11.41 -4.900 -3.105 -0.9380 0.7811 1.431 2.158 2.884 4.002  6.39 11.73


# 擴展一個向量的所有組合的函數expand.grid
expandFun <- function(x){
  expand.grid(col1=x, col2=x)
}

expandFun(LETTERS[1:4])
# col1 col2
# 1     A    A
# 2     B    A
# 3     C    A
# 4     D    A
# 5     A    B
# 6     B    B
# 7     C    B
# 8     D    B
# 9     A    C
# 10    B    C
# 11    C    C
# 12    D    C
# 13    A    D
# 14    B    D
# 15    C    D
# 16    D    D


########
# 實驗：分組實施該函數
# 實驗數據
by_species <- iris %>% 
  mutate(Sample=sample(LETTERS[1:4], size=150, replace = T)) %>%
  group_by(Species) %>%
  select(Species, Sample) %>%
  unique() %>%
  group_by(Species)
# Source: local data frame [12 x 2]
# Groups: Species
# 
# Species Sample
# 1      setosa      D
# 2      setosa      B
# 3      setosa      A
# 4      setosa      C
# 5  versicolor      B
# 6  versicolor      D
# 7  versicolor      A
# 8  versicolor      C
# 9   virginica      C
# 10  virginica      B
# 11  virginica      A
# 12  virginica      D

# 以Species字段分組對Sample字段擴展
df_by <- as.data.frame(by_species)
df_by %>% split(f=df_by$Species) %>%
  lapply(FUN=function(x){
    expandFun(x$Sample)})
# $setosa
# col1 col2
# 1     D    D
# 2     B    D
# 3     A    D
# 4     C    D
# 5     D    B
# 6     B    B
# 7     A    B
# 8     C    B
# 9     D    A
# 10    B    A
# 11    A    A
# 12    C    A
# 13    D    C
# 14    B    C
# 15    A    C
# 16    C    C
# 
# $versicolor
# col1 col2
# 1     B    B
# 2     D    B
# 3     A    B
# 4     C    B
# 5     B    D
# 6     D    D
# 7     A    D
# 8     C    D
# 9     B    A
# 10    D    A
# 11    A    A
# 12    C    A
# 13    B    C
# 14    D    C
# 15    A    C
# 16    C    C
# 
# $virginica
# col1 col2
# 1     C    C
# 2     B    C
# 3     A    C
# 4     D    C
# 5     C    B
# 6     B    B
# 7     A    B
# 8     D    B
# 9     C    A
# 10    B    A
# 11    A    A
# 12    D    A
# 13    C    D
# 14    B    D
# 15    A    D
# 16    D    D

system.time(df_by %>% split(f=df_by$Species) %>%
              lapply(FUN=function(x){
                expandFun(x$Sample)}))
# 用戶 系統 流逝
# 0.02 0.00 0.02

## 使用dplyr包的do函數,需要將返回的結果直接保存爲data.frame,並且效率更高
by_species %>%
  group_by(Species) %>%
  do(data.frame(expandFun(.$Sample)))
# Source: local data frame [48 x 3]
# Groups: Species
# 
# Species col1 col2
# 1      setosa    D    D
# 2      setosa    B    D
# 3      setosa    A    D
# 4      setosa    C    D
# 5      setosa    D    B
# 6      setosa    B    B
# 7      setosa    A    B
# 8      setosa    C    B
# 9      setosa    D    A
# 10     setosa    B    A
# 11     setosa    A    A
# 12     setosa    C    A
# 13     setosa    D    C
# 14     setosa    B    C
# 15     setosa    A    C
# 16     setosa    C    C
# 17 versicolor    B    B
# 18 versicolor    D    B
# 19 versicolor    A    B
# 20 versicolor    C    B
# 21 versicolor    B    D
# 22 versicolor    D    D
# 23 versicolor    A    D
# 24 versicolor    C    D
# 25 versicolor    B    A
# 26 versicolor    D    A
# 27 versicolor    A    A
# 28 versicolor    C    A
# 29 versicolor    B    C
# 30 versicolor    D    C
# 31 versicolor    A    C
# 32 versicolor    C    C
# 33  virginica    C    C
# 34  virginica    B    C
# 35  virginica    A    C
# 36  virginica    D    C
# 37  virginica    C    B
# 38  virginica    B    B
# 39  virginica    A    B
# 40  virginica    D    B
# 41  virginica    C    A
# 42  virginica    B    A
# 43  virginica    A    A
# 44  virginica    D    A
# 45  virginica    C    D
# 46  virginica    B    D
# 47  virginica    A    D
# 48  virginica    D    D

system.time(by_species %>%
              group_by(Species) %>%
              do(data.frame(expandFun(.$Sample))))
# 用戶 系統 流逝
# 0    0    0 <pre code_snippet_id="644766" snippet_file_name="blog_20150415_2_3591916" name="code" class="plain" style="font-size: 13.3333339691162px;"><pre code_snippet_id="644766" snippet_file_name="blog_20150415_1_1427398" name="code" class="plain" style="font-size: 13.3333339691162px;"># <span style="font-size: 13.3333339691162px; font-family: Arial, Helvetica, sans-serif;">當數據量較大時速度的差別明顯</span>

參考：

參考1

參考2

類似問題data.table也可以實現且性能也較好

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

dplyr分組後返回多值的處理

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

一個docker容器暴露多個端口

leetcode 60 排列序列

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Linux-權限管理-chattr與lsattr命令

mahout學習(二)--基於Mahout的電影推薦系統

CentOS install Python 2.7.6 and 3.3.3

hadoop學習--MapReduce初級案例

rstudio-server使用github版本控制

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結