俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

俺って、おバカさんなので、とっても優秀な人工知能を作って代わりに頑張ってもらうことにしました。世界の端っこでおバカな俺が夢の達成に向けてチマチマ頑張る、そんな小さなお話です。現在はG検定、E資格に合格し、KaggleやProbSpaceのコンペに参画しながら、Pythonや機械学習、統計学、Dockerなどの勉強中です。学習したことをブログにアウトプットすることで、自分の身に着けていきたいと思います。まだまだ道半ばですが、お時間がありましたら見て行ってください。

Python

【1位解法】ProbSpace開催「プロ野球データ分析チャレンジ 」の振り返り。

データ分析好きが集まる交流プラットフォーム「ProbSpace」で開催された「次の一投の行方を予測! プロ野球データ分析チャレンジ」に参加し、1位の成績を残せました! 現在、オープンレビュー中のため、賞金獲得は未確定ですが、解法について公開させていた…

【9位解法】Solafune開催「夜間光データから土地価格を予測」の振り返り。

アジア初の衛星データ解析コンテストプラットフォーム「Solafune 」で開催された「夜間光データから土地価格を予測」に参加し、9位の成績を残せました! 賞金獲得はなりませんでしたが、前回開催の「衛星画像から空港利用者数を予測」の2位受賞に続き、連続…

Solafune 夜間光コンペの公開情報まとめ(2021年2月27日)

衛星データ分析サイトのSolafuneで現在開催されている「夜間光データから土地価格を予測」コンペで現時点で公開されている情報をまとめてみました。 Solafuneでは、KaggleのDiscussionやSIGNATEのフォーラムのような情報共有の場はなく、各自のメディアを利…

2020年の振り返り(機械学習の積み上げ~データ分析コンペに挑戦・入賞~)

2020年は、昨年から取り組み始めた機械学習の積み上げの成果を試すため、いろいろなデータ分析サイトのコンペティションに挑戦しました。 日々の積み上げの結果が実を結び、複数のコンペティションで入賞することができました。 いろいろと環境が激変し、大…

Kaggleの取り組みスケジュールを「ypad」でアナログ管理する。

今回は、私が毎年愛用している「ypad」についてご紹介したいと思います。 特に今年は、KaggleやSIGNATEなどのデータ分析コンペでのスケジュール管理にとても役に立ったので具体例を交えながら記載したいと思います。 KaggleやSIGNATEなどのデータ分析コンペ…

【10位解法】ProbSpace開催「スパムメール判別」コンペの振り返り。

データ分析プラットフォームProbspaceの「スパムメール判別」コンペに参加し、10位に入賞しました! 今回は、初めて本格的に自然言語処理に挑戦したコンペとなりました。 セキュリティに関するドメイン知識はあったのですが、様子が違って、なかなか活かすこ…

2020年10月~11月の振り返り(入賞ラッシュから、さらなる積み上げへ)

今年の10月~11月は、これまでの積み上げが、結果として現れ始めるとともに、あらたな取り組みを開始した2ヶ月でもありました。 CDLEハッカソンでの初のオンライン表彰式や、最後数分まで、首位争いに参加したSolafuneの衛星データコンペなど、エキサイティ…

【2位解法】Solafune開催「衛星画像から空港利用者数を予測」の振り返り。

アジア初の衛星データ解析コンテストプラットフォーム「Solafune 」で開催された「衛星画像から空港利用者数を予測」に参加し、2位の成績を残せました! SIGNATEの雲画像予測コンペ、Nishikaのサッカー出場時間予測コンペに続き、またもや、僅差での2位と…

【2位解法】Nishika開催「Jリーグプレイヤーの出場時間予測」の振り返り。

データサイエンスコンペティションサイトのNishikaで開催されたJリーグプレイヤーの出場時間予測に参加し、2位の成績を残せました! 今回は、PublicLBの6位から、PrivateLBでの2位の初めてのShakeUpでの入賞でした。ShakeUpしたということは、汎用性能が…

【9位解法】ProbSpace開催「対戦ゲームデータ分析甲子園」(スプラトゥーンコンペ)の振り返り

データ分析プラットフォームProbspaceの対戦ゲームムデータ分析甲子園(通称:スプラトゥーンコンペ、イカコンペ)のに参加し、9位に入賞しました! 今回もPublicLBでは4位だったのですが、Shake downしてしまい、汎用性をもったモデルの構築の難しさを改…

Kaggle鳥コンペの上位者に学ぶ(鳥コンペ反省会資料を読む)

今回は、KaggleのPublicスコアで初めてコンペ終了まで銅メダル圏内に残ることができました。しかしながら、Privateスコアでは一気に下がり、268位と大きくShakeDownすることになりました。 その原因の一つとして、現在の私のアプローチは、自身の知りうるデ…

2020年8月~9月の振り返り(ProbSpace不動産コンペからSIGNATE3連戦、そしてkaggle鳥コンペへ)

今年の8月~9月は、とても濃い2カ月だったので、自身の記録としてまとめていきたいと思います。 ProbSpaceで初のチームマージあり、8月末締め切りのSIGNATE関連の3つのコンペあり、そしてkaggleの鳥コンペでの苦い経験ありのジェットコースターのような…

【2位解法】SIGNATE開催CDLEハッカソン2020予測性能部門 「画像データに基づく気象予測」の振り返り。

SIGNATEで開催されたCDLEハッカソン2020の予測性能部門 「画像データに基づく気象予測」(SIGNATE開催)に参加し、2位の成績を残せました! 今回は、PublicLB、PrivateLBともに2位で、Shakeなしでした。初めての時系列データコンペで、初めての衛星画像デー…

機械学習初心者がデータ分析コンペサイトProbSpaceで総合ランク1位に到達するまでの道のり

機械学習について全くの専門外で初心者だった私がコンペサイトProbspaceのRe:不動産取引価格予測コンペで3位入賞、YouTube動画視聴回数予測コンペで9位入賞するなど、累計で金2銀1銅1を獲得することができ、総合ランクで1位に到達することができました…

ProbSpaceのRe:不動産取引価格予測コンペの振り返り(3位入賞!)

データ分析プラットフォームProbspaceのRe:不動産取引価格予測コンペに参加し、3位に入賞しました! PublicLBでは、1位だっただけに、非常に悔しい結果でしたが、初めてチームを組ませていただいて、順位としてもこれまでの最高順位となることができ、とて…

機械学習初心者がコンペサイトProbSpaceで金銀銅を獲得し総合4位に到達するまでの道のり

機械学習について全くの専門外で初心者だった私が先日コンペサイトProbspaceのYouTube動画視聴回数予測コンペで9位入賞し、累計で金銀銅を獲得することができ、総合で4位に到達することができました。 これまでたどってきた道のりを振り返って、良かった点…

TensorFlowで機械学習に挑戦(Pythonによるスクレイピング&機械学習テクニック)

今回は、Dockerで構築したTensorFlowの環境で、機械学習(深層学習)に挑戦しました。 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章を参考にさせていただきながら、取り組んで…

TensorFlowで簡単な計算を実行する(Pythonによるスクレイピング&機械学習テクニック)

今回は、DockerでTensorFlowが実行できる環境を構築し、簡単な計算を実行しました。 (TensorFlowを使った機械学習(深層学習)は次回以降に実践していきたいと思います。) TensorFlowは、機械学習の一分野である深層学習を実施するにあたり、大規模な数値…

グリッドサーチでハイパーパラメータを調整する(Pythonによるスクレイピング&機械学習テクニック)

今回は、グリッドサーチでハイパーパラメータを調整しました。 これまで、学習モデルは、特に引数を指定しないか、特定の値のみ指定して学習をおこなっていました。この「引数」は、学習時に更新されていくパラメータとは区別して、「ハイパーパラメータ」と…

クロスバリデーションでモデルの妥当性を検証する(Pythonによるスクレイピング&機械学習テクニック)

今回は、クロスバリデーションという手法でモデルの妥当性を検証しました。 学習したデータに対してとても良い精度を出すモデルであっても、予測が必要な新たなデータに対する精度が非常に低い、いわゆる「過学習」という状態になることが良くあります。こう…

ランダムフォレストでキノコを分類する(Pythonによるスクレイピング&機械学習テクニック)

今回は、Webからキノコに関するデータをダウンロードして、ランダムフォレストで分類を行いました。 これまでは、数学的に境界を決定して分類するSVM(サポートベクターマシン)という学習モデルを使ってきましたが、今回は、「ランダムフォレスト」という多…

SVMで言語を判定する(Pythonによるスクレイピング&機械学習テクニック)

今回は、Webから取得したテキストファイルを読み込ませて、それが何語で書かれたテキストなのかを判定しました。 機械学習の一大テーマである自然言語処理の復習です。(そこまで大掛かりなことをやっているわけではないですが・・・。) 今回も Pythonによ…

SVM(サポートベクターマシン)の解説&構築に挑戦!

前回、次は「自然言語」と予告いたしましたが、これまでscikit-learnのライブラリを使っていたSVM(サポートベクターマシン)について、自分なりの理解で解説と、ライブラリを使わない実装に挑戦していきたいと思います! scikit-learn を使ったSVMについて…

SVMでMNISTのデータを画像分類する(Pythonによるスクレイピング&機械学習テクニック)

今回は、前回CSVに変換したMNISTの手書き文字画像を、0〜9に分類しました。 機械学習の一大テーマである画像分類の復習です。 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章…

MNISTのデータをCSVに変換する(Pythonによるスクレイピング&機械学習テクニック)

今回は、前回ダウンロードしてきたMNISTのデータをCSVに変換しました。 今までバイナリデータをちゃんと扱ったことがなかったので、とても勉強になりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ ク…

MNIST(手書き数字データ)のダウンロード/解凍を自動化する(Pythonによるスクレイピング&機械学習テクニック)

今回は、少しスクレイピングに戻って、画像の文字認識に使うためのMNIST(手書き数字データ)をダウンロードして解凍できるようになりました。機械学習では、圧縮されたデータをダウンロードして処理することもあるので、自動化できるのは非常に効率的です。…

scikit-learnのSVMを使ってアヤメの品種を分類する(Pythonによるスクレイピング&機械学習テクニック)

今回は、scikit-learnのSVMを使って、アヤメの品種を分類できるようになりました。花びらの長さや幅などの特徴量から品種を分類するということで、本格的に機械学習となってまいりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scra…

scikit-learnのSVMを使った入門編としてXOR演算を学習させる(Pythonによるスクレイピング&機械学習テクニック)

今回は、scikit-learnのSVMを使って、入門編としてXOR演算を学習させました。ついに機械学習の章に入ってきて、テンションも上がります。最近実践中心だったので、基礎からもう一度学び直したいと思います。 Pythonによるスクレイピング&機械学習開発テクニ…

YAMLを解析して要素を出力(Pythonによるスクレイピング&機械学習テクニック)

今回は、yaml で、PythonのデータからYAML形式に変換したり、YAML形式のファイルを解析して要素を出力できるようになりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第3章を参考に…

Ubuntu(20.04 LTS)をインストールしてPython(Anaconda)の開発環境を構築する

今回は、Ubuntu 20.04 LTSをインストールして、Python,Seleniumの開発環境を構築しました。 これまで、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]をDockerを利用して取り組んでいたのです…