2016年8月23日火曜日

R 高速に大規模データのクロス集計をおこなう(tally, spread)

【目的】 Rで高速に大規模データのクロス集計をしたい
【方法】 tallyとspredを使う
【補足】 library(dplyr)とlibrary(tidyr)が必要

df.cross <- df.data %>%
  group_by(x, y) %>%
  tally %>%
  spread(y, n)

#データが無い場合はNAとなるため必要に応じて0にする
df.cross[is.na(df.cross)] <- 0

◇参照URL
クロス集計~公式:dplyr + tidyr = (xtabs|(f)table)
http://d.hatena.ne.jp/teramonagi/20150312/1426109245

0 件のコメント :

コメントを投稿