やりたいこと
複数のヒストグラムを重ねて表示させて、その傾向の違いを1つのグラフで確認する。
今回はJリーグデータサイトより、北海道コンサドーレのホームゲームのデータを抽出し、スタジアムの違い(札幌ドーム/札幌厚別)による入場者数のヒストグラムを同時表示する。
1.ヒストグラムを重ねて表示
ggplotを使用する。
library("tidyverse")
#文字化け対応のおまじない
theme_bw(base_family = "HiraKakuProN-W3") #ggplot
#もとデータ
DF_sapporo <- read.table( "gamedata_sapporo.csv",
sep = ",", #カンマ区切りのファイル
header = TRUE, #1行目はヘッダー(列名)
stringsAsFactors = FALSE) #文字列を文字列型で取込む
#スタジアムで色分けしてヒストグラムを描く
ggplot(DF_sapporo)+ #データフレームの指定
geom_histogram( aes(x =入場者数, #描画の対象となる変数
fill=スタジアム), #塗り分けの対象となる変数
position="identity", #重ねて描くという指定
alpha=0.5, #透明度の指定
binwidth=1000 ) #階級の幅(例では1cm刻み)
以下のヒストグラムが出てくる。札幌ドームの方が札幌厚別より入場者数が多い傾向が明らかにわかる。
2.密度プロットを重ねて表示
密度プロットは以下のようになる。
#スタジアムで色分けして密度プロットを描く
ggplot(DF_sapporo)+ #データフレームの指定
geom_density( aes(x =入場者数, #描画の対象となる変数
color = スタジアム,
fill = スタジアム) ,
alpha=0.3) #色分けの対象となる変数
以上