【R/RStudio】複数のヒストグラムを重ねて表示する

勉強系(Python/Excel/統計学/その他)

やりたいこと

複数のヒストグラムを重ねて表示させて、その傾向の違いを1つのグラフで確認する。

今回はJリーグデータサイトより、北海道コンサドーレのホームゲームのデータを抽出し、スタジアムの違い(札幌ドーム/札幌厚別)による入場者数のヒストグラムを同時表示する。

1.ヒストグラムを重ねて表示

ggplotを使用する。

library("tidyverse")

#文字化け対応のおまじない
theme_bw(base_family = "HiraKakuProN-W3") #ggplot

#もとデータ
DF_sapporo <- read.table( "gamedata_sapporo.csv", 
                  sep = ",",                #カンマ区切りのファイル
                  header = TRUE,            #1行目はヘッダー(列名)
                  stringsAsFactors = FALSE) #文字列を文字列型で取込む

#スタジアムで色分けしてヒストグラムを描く
ggplot(DF_sapporo)+                          #データフレームの指定
  geom_histogram( aes(x   =入場者数,     #描画の対象となる変数
                      fill=スタジアム),    #塗り分けの対象となる変数
                  position="identity", #重ねて描くという指定
                  alpha=0.5,           #透明度の指定
                  binwidth=1000 )         #階級の幅(例では1cm刻み)

以下のヒストグラムが出てくる。札幌ドームの方が札幌厚別より入場者数が多い傾向が明らかにわかる。

2.密度プロットを重ねて表示

密度プロットは以下のようになる。

#スタジアムで色分けして密度プロットを描く
ggplot(DF_sapporo)+                          #データフレームの指定
  geom_density( aes(x    =入場者数,      #描画の対象となる変数
                    color = スタジアム,
                    fill = スタジアム) ,
                alpha=0.3)   #色分けの対象となる変数

 以上

タイトルとURLをコピーしました