衛星データ分析サイトのSolafuneで現在開催されている「夜間光データから土地価格を予測」コンペで現時点で公開されている情報をまとめてみました。
Solafuneでは、KaggleのDiscussionやSIGNATEのフォーラムのような情報共有の場はなく、各自のメディアを利用して自由に公開できるルールとなっています。
このため、公開情報が散在しているので、現時点で私が認識している公開情報をまとめてみました。
現在コンペに取り組み中の皆さんも、これからコンペに参加される皆さんも、参考にしていただければと思います。
もちろん、私も参考にさせていただきます!
【目次】
1.[solafune] 夜間光データから土地価格を予測 BaseLine(mst8823さん公開情報)
masato8823 (@mst_8823) | Twitterさんが公開してくださっているベースラインです。
ベースラインとは思えない、ハイスコアなコードを公開してくださっています。
特徴量の生成から、特徴量の重要度の検討、クロスバリデーションの実施、今後の検討すべき事項など、とても示唆に富んだ資料です。
2.Solafune 夜間光コンペ Baseline(xgb,lgb,cat)(tuboさん資料)
tubo (@213tubo) | Twitterさんが公開してくださっているベースラインです。
欠損値の確認や、時系列データの過不足の確認、テストデータと訓練データのplaceIDの重複がないことの確認など、データの分析を実施されています。
また、XGboost、LightGBM、CatBoostの複数モデルで予測したあとridge回帰でStackingする手法がとても参考になりました。
3.Solafune 夜間光コンペ StratifiedGroupKfold(回帰)(tuboさん資料)
こちらもtubo (@213tubo) | Twitterさんが公開してくださっている情報になります。
GroupKfoldによる分割と、tratifiedGroupKfoldによる分割の比較が行われています。
それぞれの特徴がコメントされています。
4.[solafune] 夜間光データから土地価格を予測ベースモデル(cha_kabuさん資料)
ちゃかぶ (@cha_kabu) | Twitterさんが公開してくださっているベースモデルです。
コンペサイトに記載されたデータの引用元の考察から始まり、pandas-profilingを利用せずに自力でデータの分析などを実施され、データ分析の結果をもとに特徴量の作成を実施されています。
学習・予測の内容について、「何を実施している」だけでなく、対数変換をする理由や、GroupKFoldにする理由など、「なぜ実施している」まで言及されていて、今後のコンペにも役立つ情報が満載です。
5.【solafune】「夜間光データから土地価格を予測」のLSTMベースライン(daikiclimate(sylk)さん資料)
daikiclimate (Dai) · GitHubさんが公開してくださっているベースラインです。
2時間で作ったとおっしゃっているコードが掲載されています。
LSTMを利用して系列データが処理されています。
このコードを参考にいろいろな工夫ができそうです。
6.おわりに
このSolafuneで開催されている「夜間光データから土地価格を予測」コンペは、目的変数も含めてカラムが5列しかないテーブルデータなので、非常に参戦しやすいコンペだと思います。
また、参加者の議論や情報共有も活発で、とても勉強になります。
私も皆さんの情報を参考にして、引き続き頑張ります。
【過去の記事】