【２位解法】SIGNATE開催CDLEハッカソン2020予測性能部門「画像データに基づく気象予測」の振り返り。 - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

今回は、PublicLB、PrivateLBともに２位で、Shakeなしでした。初めての時系列データコンペで、初めての衛星画像データを使ったコンペでしたが、過去のフォーラム等を参考にさせていただきながら、なんとかやり切ることができました！

この夏は、並行して複数のコンペに取り組んでいたのですが、最も力を注いでいたコンペで、結果を残すことができ、一生忘れられない夏になりました。

f:id:kanriyou_h004:20200904185232p:plain

今回のコンペは、G検定、E資格取得者が入会できるCDLEの会員のみが参加できるクローズドのコンペでした。

有資格者の方々が参戦する中で、結果を残すことができたのは、私にとても大きな自信に繋がりました。

では、振り返って参りたいと思います。

今回は、初めての時系列データかつ衛星画像データからの予測画像データ作成ということで、何から手をつけて良いかわからず途方にくれていました。

そんな中、「昨年開催時のフォーラムページには、当時の参加者の解法が記載されています。これらの情報を参考にしてさらなる高性能なアルゴリズムを開発しましょう。」という案内があり、フォーラムページと、入賞者レポートを徹底的に読み込みました。

その中で、温度や湿度など気象情報も画像データの１chとして入力に取り込んだり、風の向きを正負に分けて別chの入力としたりして３位を獲得されていたashenOneさんの解法を参考にさせていただきながら取り組みました。

ashenOneさんの解法からの変更点は以下のとおりです。

f:id:kanriyou_h004:20200904194631p:plain

効果がでたのは、１−SSIMを損失関数にしたのと、アンサンブルを実施した際に、算術平均ではなく幾何平均をとったことでした。

全体構成図としては以下のとおりです。

【俺人解法構成図】

f:id:kanriyou_h004:20200905200614p:plain

スタッキングや、加重平均なども試みましたが、なかなか良い精度が出ず、最終的に上記の構成となりました。

前処理についてはashenOneさんの解法を参考にさせていただき、以下のような処理を行いました。

衛星画像のデータと、気象情報のデータをいかに組み合わせるかというところがポイントでした。

また、画像データについては、1/4,1/6,1/8の異なるサイズを入力することでデータのバリエーションを作りました。

【衛星画像データ】

種類	処理内容
欠測補完	衛星画像の欠測には２パターンありました。１つは、特定の時間帯の衛星画像がないパターンで、もう１つは、衛星画像はあるけれども、画像の一部がないパターンでした。これらの欠測補完は、単純に前後の画像の値の平均値で補完しました。
縮小	画像サイズを１/4、1/6、1/8に縮小して、24時間分を１日分のデータとして保存。 1/10、1/12、1/15の縮小サイズも作成したが、アンサンブルした際にMAEは向上したものの、SSIMが下がってしまったので、採用しませんでした。

種類

処理内容

欠測補完

衛星画像の欠測には２パターンありました。

１つは、特定の時間帯の衛星画像がないパターンで、もう１つは、衛星画像はあるけれども、画像の一部がないパターンでした。

これらの欠測補完は、単純に前後の画像の値の平均値で補完しました。

縮小

画像サイズを１/4、1/6、1/8に縮小して、24時間分を１日分のデータとして保存。

1/10、1/12、1/15の縮小サイズも作成したが、アンサンブルした際にMAEは向上したものの、SSIMが下がってしまったので、採用しませんでした。

【気象データ】

種類	処理内容
「気温」、「湿度」、「海面気温」	区分ごとの最大値・最小値を取得して、最小値０、最大値１となるように正規化。気象データは、３時間ごとのデータしかなかったので、前後のデータから線形に変化した前提で、間の時間のデータを補完。
「東西風」、「南北風」、「鉛直風」	区分ごとの最大値・最小値を取得して、最小値０、最大値１となるように正規化。気温とは異なり、正負があるので、正と負に分けて保存。気象データは、３時間ごとのデータしかなかったので、前後のデータから線形に変化した前提で、間の時間のデータを補完。

種類

処理内容

「気温」、「湿度」、「海面気温」

区分ごとの最大値・最小値を取得して、最小値０、最大値１となるように正規化。

気象データは、３時間ごとのデータしかなかったので、前後のデータから線形に変化した前提で、間の時間のデータを補完。

「東西風」、「南北風」、「鉛直風」

区分ごとの最大値・最小値を取得して、最小値０、最大値１となるように正規化。

気温とは異なり、正負があるので、正と負に分けて保存。

気象データは、３時間ごとのデータしかなかったので、前後のデータから線形に変化した前提で、間の時間のデータを補完。