【2位解法】Nishika開催「Jリーグプレイヤーの出場時間予測」の振り返り。 - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

データサイエンスコンペティションサイトのNishikaで開催されたJリーグプレイヤーの出場時間予測に参加し、２位の成績を残せました！

今回は、PublicLBの６位から、PrivateLBでの２位の初めてのShakeUpでの入賞でした。ShakeUpしたということは、汎用性能が出てないともとれるので、モデル精度的には望ましくないかもしれないですが、心情的にはとてもうれしいです！

f:id:kanriyou_h004:20201019184613p:plain

スポーツコンペは、プレイしている選手たちを想像しながら取り組めるので、とても楽しく参加することができました。

では、振り返って参りたいと思います。

今回のコンペは、複数のファイルのデータを結合しながら取り組むコンペティションでした。

時系列データとしてもとらえることができたかもしれませんが、単純に結合したテーブルデータとして前処理したデータを複数のモデルに学習・予測させてアンサンブルをとるという手法をとりました。

その代わり、データの前処理については、いつも以上に力を入れて取り組みました。

（実際一番、精度がアップしたのは前処理を入れたときでした。）

f:id:kanriyou_h004:20201019210637p:plain

Score推移は以下の通りで、特徴量追加でぐっと下がっりました。

それ以降、クロスバリデーションなどいろいろ試したのですが、時系列データに近いということもあり、うまく分割できず思うようにスコアが伸びませんでした。

終盤で他のコンペで利用したハイパーパラメータをモデルに適用することで最後の一押しの精度向上ができました。

f:id:kanriyou_h004:20201019213803p:plain

前処理については、最初はいつもの通り、欠測補完とターゲットエンコーディング程度の学習データで実施していたのですが、それでは不十分と思い、以下のような前処理を行って特徴量を追加しました。

【eventデータ】　　　　　　　　　

データ種類	処理内容
出場記録	選手毎にフル出場, 途中出場, 途中退場,途中出場途中退場, 出場停止,ベンチ入りの回数を集計し、試合数で割って正規化したデータを年度ごとのファイルに保存しました。

【trainデータ】

データ種類	処理内容
選手名、登録ボジション、国籍	sklearnの LabelEncoderで、数値化。国籍については、Nullの場合は日本として補完。
チーム名、過去シーズン在籍チーム	辞書を作成し、数値化。また、過去のシーズン在籍チームについては、'・'の有無で、チーム移籍有無を表す特徴量として追加。
生年月日	年を抽出して誕生年の特徴量を追加。
ユース出身	０または１で数値化。
過去シーズン出場試合数、得点数、出場時間	欠測[-]を-1で補完。
過去シーズン所属リーグ	欠測[-]を０で補完。
推定年俸	欠測[na]を中央値で補完。