俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

俺って、おバカさんなので、とっても優秀な人工知能を作って代わりに頑張ってもらうことにしました。世界の端っこでおバカな俺が夢の達成に向けてチマチマ頑張る、そんな小さなお話です。現在はG検定、E資格に合格し、KaggleやProbSpaceのコンペに参画しながら、Pythonや機械学習、統計学、Dockerなどの勉強中です。学習したことをブログにアウトプットすることで、自分の身に着けていきたいと思います。まだまだ道半ばですが、お時間がありましたら見て行ってください。

2020年10月~11月の振り返り(入賞ラッシュから、さらなる積み上げへ)

今年の10月~11月は、これまでの積み上げが、結果として現れ始めるとともに、あらたな取り組みを開始した2ヶ月でもありました。

CDLEハッカソンでの初のオンライン表彰式や、最後数分まで、首位争いに参加したSolafuneの衛星データコンペなど、エキサイティングな出来事ばかりでした。

では、振り返っていきたいと思います。

【目次】

 1.Nishika Jリーグプレイヤーの出場時間予測 2位入賞(2020年10月14日終了)

10月の入賞の1つめは、データサイエンスコンペティションサイトのNishikaで開催されたJリーグプレイヤーの出場時間予測の2位入賞となります。

 

f:id:kanriyou_h004:20201209113416p:plain

こちらは、前処理として過去の試合出場実績など、複数のファイルのデータを結合しながら、各選手の出場時間を予測するという課題でした。

バラバラに散らばったデータを集計したりしながら特徴量を作成していくプロセスがとても勉強になりました。

また、チーム名、選手名など実際のデータを使ったコンペだったので、機械学習の学びもさることながら、サッカー観戦が好きな私にとっては、とても楽しめるコンペでした。

詳細は、以下に投稿しましたので、ご参照ください。

oregin-ai.hatenablog.com

2.CDLEハッカソン2020表彰式 予測性能部門 「画像データに基づく気象予測」優秀賞受賞(2020年10月17日)

2つ目は、すでに順位は2位で確定していたCDLEハッカソン2020予測性能部門 「画像データに基づく気象予測」(SIGNATE開催)の表彰式が執り行われ、優秀賞をいただくことができました。

また、チームで参加していたアイデア部門でも、企業賞をいただくことができました。

f:id:kanriyou_h004:20200926175529p:plain

こちらは、衛星ひまわりから得られた画像データをもとに、未来の雲画像を予測するという課題でした。

入力としては、画像データだけでなく、気温、水温、風、などの諸元データもあり、どのように活用していくか、工夫しどころ満載のコンペでした。

出力としては、画像データということで、ある意味画像生成の要素も含まれていて、いろいろと勉強となりました。

また、衛星のデータを扱うということで、宇宙のロマンを感じながら取り組めた、とてもよいコンペでした。

このコンペの解法は以下でも紹介していますので、ご参照ください。

oregin-ai.hatenablog.comまた、1位の解法を、@pometa0507さんが公開してくださっています。

lotti.info

3.Probspace 対戦ゲームムデータ分析甲子園  9位入賞(2020年10月19日終了)

 3つ目は、データ分析プラットフォームProbspaceで開催された対戦ゲームムデータ分析甲子園(通称:スプラトゥーンコンペ、イカコンペ)の9位入賞でした。

f:id:kanriyou_h004:20201209114528p:plain

このコンペは、スプラトゥーンというNintendo Switchのゲームの勝敗を、武器やステージなどのデータから推測するという課題でした。

私はこのゲームをプレイしたことがなく、ドメイン知識が全くなかったので、Python機械学習クックブック [ Chris Albon ]を使って、掲載されている手法をいろいろ勉強するつもりで参加しました。

f:id:kanriyou_h004:20201020023926j:plain

結果としては、9位に入賞することができましたが、PublicLBで4位であったところが、PrivateLBでは9位となり、いわゆるShakeDownを起こしてしまいました。

汎用性の確保が重要だとあらためて認識したコンペとなりました。

このコンペの解法は以下でも紹介していますので、ご参照ください。

oregin-ai.hatenablog.com

4.Solafune 衛星画像から空港利用者数を予測 2位入賞(2020年11月30日終了)

4つ目は、アジア初の衛星データ解析コンテストプラットフォーム「Solafune 」で開催された「衛星画像から空港利用者数を予測」の2位入賞でした。

f:id:kanriyou_h004:20201209115432p:plain

このコンペは、衛星から得られた空港の画像から、空港の利用者数を予測するという課題でした。画像処理系の課題は、分類が多かったので、利用者数を予測する回帰の課題は、新鮮でした。

画像処理関係についてはSIGNATEの雲画像予測コンペ、回帰にあたってのアンサンブルやスタッキングについては、ProbSpaceの不動産コンペNishikaのサッカー出場時間予測コンペで培ったノウハウをフル活用して取り組みました。

ある意味、今年の私の積み上げの総決算というべきコンペとなりました。

また、CDLEハッカソン2020に引き続き、衛星データを扱ったコンペへの参加となりました。容易に宇宙からのデータを扱うことができて、宇宙が身近になってきていることが肌で感じられました。

このコンペの解法は以下でも紹介していますので、ご参照ください。

oregin-ai.hatenablog.com

5.SIGNATE AI Quest 第一ターム(2020年11月28日終了)

つづいては、さらなる積み上げとしての取り組みの1つ目になります。
8月に募集が開始された経済産業省が実施しているAI Quest 2020|SIGNATEに応募し、アセスメントに参加した結果、受講資格が得られました。

f:id:kanriyou_h004:20201209120340p:plain

守秘義務があり、詳細は記載できませんが、要件定義あり、コンペ形式でのAI開発あり、経営層向けのプレゼンありで、実業務に即した、かなり濃厚な講座でした。

なんとか、第一タームをクリアすることができたので、12月からの第二タームも取り組んでまいります。

signate.jp

6.社会人のためのデータサイエンス演習 (2020年11月29日終了)

f:id:kanriyou_h004:20201209121309p:plain

 

 さらなる積み上げとしての取り組みの2つ目は、総務省統計局提供の「社会人のためのデータサイエンス演習」を受講しました。

こちらは、いわゆる機械学習というわけではないのですが、エクセルを使った統計的な集計方法や、データをどのように確認・評価していくかについて、実際に手を動かしながら学習できる講座でした。

約2ヶ月間、動画で学習→演習課題に取り組むを繰り返し、とても有意義な時間を過ごすことができました。しかも無料なので、とてもお財布に優しい講座でした。

gacco.org

7.おわりに

以上が、10月~11月の振り返りになります。

いろいろ盛りだくさんの2ヶ月でした。

現在、ProbSpaceのスパム判定コンペと、KaggleのRFCXコンペ(鳥蛙コンペ)、AIQuest第二タームに取り組み中です。

引き続き、インプット、アウトプットを両立しながら進めてまいりたいと思います!

 

【これまでの道のり】

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

f:id:kanriyou_h004:20201209122737p:plain