【9位解法】Solafune開催「夜間光データから土地価格を予測」の振り返り。 - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

アジア初の衛星データ解析コンテストプラットフォーム「Solafune 」で開催された「夜間光データから土地価格を予測」に参加し、9位の成績を残せました！

賞金獲得はなりませんでしたが、前回開催の「衛星画像から空港利用者数を予測」の２位受賞に続き、連続でのToP10入でした。

今回のコンペは、使えるデータが実質２カラム分しかなく、特徴量の活用が非常に難しいコンペでした。全体的にShakeが発生していたのもこのあたりが影響しているのかなぁと思いました。

f:id:kanriyou_h004:20210408192910p:plain

f:id:kanriyou_h004:20210408192833p:plain

では、振り返って参りたいと思います。

今回のコンペは、テーブルコンペなのですが、与えられた生の特徴量が少ないため、特徴量をいかに増やすかが考えどころでした。

あとは、CVの工夫と、２段のStacking、加重平均で構築していきました。

f:id:kanriyou_h004:20210408193239p:plain

前処理については、以下の通りで実施いたしました。
（この処理は、cha_kabuさんのベースモデルを参考にしました。）

【四則演算等】　　　　　　　　　

前処理	処理内容
Area	その地域の合計の光量が「SumLight」で、平均の光量が「MeanLight」であることから、「SumLight ÷ MeanLight」が、その地域の面積であるとみなし、特徴量としました。
MeanLightが６３となった回数	MeanLightは「６３」が上限値となっていて頭打ちとなっていたので、上限値の「６３」を超えた回数を特徴量としました。

【統計情報】

前処理	処理内容
PlaceIDをキーとした統計情報	PlaceIDをキーとして、min,max,median,mean,std,max-min,q75-q25を特徴量として追加しました。
Yearをキーとした統計情報	Yearをキーとして、min,max,median,mean,std,max-min,q75-q25を特徴量として追加しました。

【その他】

前処理	処理内容
同一PlaceID内の年ごとの差分	同一のPlaceID内で、年毎のMeanLighetの差分,年毎のSumLighetの差分を特徴量として追加しました。
同一PlaceID内の年ごとの差分	同一のPlaceID内で、年毎のMeanLighetをShiftした値,年毎のSumLighetをSiftした値を特徴量として追加しました。
同一PlaceID内の相関係数	同一のPlaceID内で、MeanLighet,SumLighet,Areaと年の相関係数を特徴量として追加しました。
ピボットテーブルを用いた特徴量	pandasのpivot_tableを使って、特徴量を水増ししたうえで、sklearn.decompositionのPCAを利用して、特徴量の選択を実施しました。