【目的】 Rで高速に大規模データのクロス集計をしたい
【方法】 tallyとspredを使う
【補足】 library(dplyr)とlibrary(tidyr)が必要
df.cross <- df.data %>%
group_by(x, y) %>%
tally %>%
spread(y, n)
#データが無い場合はNAとなるため必要に応じて0にする
df.cross[is.na(df.cross)] <- 0
◇参照URL
クロス集計~公式:dplyr + tidyr = (xtabs|(f)table)
http://d.hatena.ne.jp/teramonagi/20150312/1426109245
0 件のコメント:
コメントを投稿
注: コメントを投稿できるのは、このブログのメンバーだけです。