「コンサドーレは夏に弱い」とよく言われるが(*)、本当に夏に弱いのかを検証してみる。
(*)「コンサドーレ 夏 弱い」でTwitterを検索してみたら実はそんなに言われていなかったのだが、とりあえず夏に弱いことにする。最近の札幌はクソ暑いらしいけど。
前提条件
まず以下のような前提を設定する。
■A群:2-6月、10-12月(1998-2021)
■B群:7-9月のJ1・J2リーグ戦(1998-2021)
A群が夏以外の試合、B群が夏の間の試合ということになる。
試合データはJリーグデータサイトより取得した。アウトプットが表形式なのですぐ表計算ソフトに貼り付けられてたいへん便利である。
また、むかしのレギュレーションでは勝利時の勝ち点が2ポイントだけだというものあったが、今回の集計では「勝ち→3pt、引き分け→1pt、負け→0pt」という現代のルールに統一する。

純粋な平均勝ち点の比較
集計を行った結果、A群(夏以外)とB群(夏期間)の平均勝ち点は以下のようになった。
データ群 | 試合数 | 平均勝ち点 |
A群 | 591 | 1.401 |
B群 | 332 | 1.314 |
予想通り(?)夏期間(B群)のほうが平均勝ち点が低いという結果が出た。
この結果を踏まえて、この差が有意であるものかを統計的に検証する。
2標本のノンパラメトリック検定
当たり前のことであるが、評価に使用うパラメタでの勝ち点は3,1,0の3種類しかとらないので正規分布には従わない。ので、ノンパラメトリック検定(Wilconxon検定)で評価する。
帰無仮説
帰無仮説H0:A群とB群の平均は等しい
対立仮説H1:A群とB群の平均には有意水準α=0.05の片側検定で差がある
Rでの評価
標準偏差とかから手作業で丹念込めて計算するのはしんどいので、Rで検定を実装する。といっても実質2stepで完了する。
matchdata_AB <- read.csv("matchdata_AB.csv", fileEncoding="utf-8")
head(matchdata_AB, n = 3)
wilcox.test(formula = points ~ type, data = matchdata_AB, alternative = "greater")

評価結果
出力の通り、p値は0.1359となり0.05より大きい値が出た。
よって H0:A群とB群の平均は等しい は棄却されず、「コンサドーレは夏に弱くない」という仮説が否定されないことになる。
結論
コンサドーレは言うほど夏に弱くない。(Twitterの民意は正しい)

使用したファイル
Jリーグデータサイトから得た試合データから勝ち点を算出したのち、A群とB群をtype列、勝ち点をpoints列にmatchdata_B.csvへまとめている。
おわり