参考書
2021年下半期は、上半期に引き続き、機械学習の積み上げの成果を試すため、データ分析サイトのコンペティションなどに参加しました。 この半期は、実データを用いて社会課題の解決に向けたビジネス提案を実施したり、宇宙関連の記事のデータ分析に参加させて…
Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]を参考にさせていただきながら、取り組んだ、スクレイピングと機械学習の記事まとめです。 事前準備編(環境構築) スクレイピング編 機械学習編 …
2021年上半期は、昨年に引き続き、機械学習の積み上げの成果を試すため、いろいろなデータ分析サイトのコンペティションに挑戦しました。 中でも、念願のKaggleでの初メダル獲得や、ProbSpaceでの初優勝など、自分内「初」の記録を残せた半期でした。 いろい…
機械学習について全くの専門外で初心者だった私がコンペサイトProbspaceのRe:不動産取引価格予測コンペで3位入賞、YouTube動画視聴回数予測コンペで9位入賞するなど、累計で金2銀1銅1を獲得することができ、総合ランクで1位に到達することができました…
機械学習について全くの専門外で初心者だった私が先日コンペサイトProbspaceのYouTube動画視聴回数予測コンペで9位入賞し、累計で金銀銅を獲得することができ、総合で4位に到達することができました。 これまでたどってきた道のりを振り返って、良かった点…
これまで投稿してきた、E資格関連の勉強の振り返り記事をまとめました。 今後、受験される皆さんの参考になれれば幸いです! 受験体験記編 応用数学編 深層学習編 E資格復習のつぶやき では、振り返ってまいりたいと思います。 受験体験記編 oregin-ai.haten…
今回は、Dockerで構築したTensorFlowの環境で、機械学習(深層学習)に挑戦しました。 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章を参考にさせていただきながら、取り組んで…
今回は、DockerでTensorFlowが実行できる環境を構築し、簡単な計算を実行しました。 (TensorFlowを使った機械学習(深層学習)は次回以降に実践していきたいと思います。) TensorFlowは、機械学習の一分野である深層学習を実施するにあたり、大規模な数値…
今回は、グリッドサーチでハイパーパラメータを調整しました。 これまで、学習モデルは、特に引数を指定しないか、特定の値のみ指定して学習をおこなっていました。この「引数」は、学習時に更新されていくパラメータとは区別して、「ハイパーパラメータ」と…
今回は、クロスバリデーションという手法でモデルの妥当性を検証しました。 学習したデータに対してとても良い精度を出すモデルであっても、予測が必要な新たなデータに対する精度が非常に低い、いわゆる「過学習」という状態になることが良くあります。こう…
今回は、Webからキノコに関するデータをダウンロードして、ランダムフォレストで分類を行いました。 これまでは、数学的に境界を決定して分類するSVM(サポートベクターマシン)という学習モデルを使ってきましたが、今回は、「ランダムフォレスト」という多…
今回は、Webから取得したテキストファイルを読み込ませて、それが何語で書かれたテキストなのかを判定しました。 機械学習の一大テーマである自然言語処理の復習です。(そこまで大掛かりなことをやっているわけではないですが・・・。) 今回も Pythonによ…
前回、次は「自然言語」と予告いたしましたが、これまでscikit-learnのライブラリを使っていたSVM(サポートベクターマシン)について、自分なりの理解で解説と、ライブラリを使わない実装に挑戦していきたいと思います! scikit-learn を使ったSVMについて…
今回は、前回CSVに変換したMNISTの手書き文字画像を、0〜9に分類しました。 機械学習の一大テーマである画像分類の復習です。 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章…
今回は、前回ダウンロードしてきたMNISTのデータをCSVに変換しました。 今までバイナリデータをちゃんと扱ったことがなかったので、とても勉強になりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ ク…
今回は、少しスクレイピングに戻って、画像の文字認識に使うためのMNIST(手書き数字データ)をダウンロードして解凍できるようになりました。機械学習では、圧縮されたデータをダウンロードして処理することもあるので、自動化できるのは非常に効率的です。…
今回は、scikit-learnのSVMを使って、アヤメの品種を分類できるようになりました。花びらの長さや幅などの特徴量から品種を分類するということで、本格的に機械学習となってまいりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scra…
今回は、scikit-learnのSVMを使って、入門編としてXOR演算を学習させました。ついに機械学習の章に入ってきて、テンションも上がります。最近実践中心だったので、基礎からもう一度学び直したいと思います。 Pythonによるスクレイピング&機械学習開発テクニ…
今回は、yaml で、PythonのデータからYAML形式に変換したり、YAML形式のファイルを解析して要素を出力できるようになりました。 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第3章を参考に…
今回は、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第3章を参考にさせていただきながら、urllib.request+jsonで、Web上から、JSONファイルをダウンロードして解析後、要素を出力できる…
今回は、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第3章を参考にさせていただきながら、urllib.request+BeautifulSoupで、Web上から、XMLファイルをダウンロードして解析後、要素を出…
今回は、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第2章を参考にさせていただきながら、Selenium+PhantomJS(画面なしブラウザ)で、ブログページから記事タイトル一覧を出力できるよ…
今回は、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第2章を参考にさせていただきながら、Selenium+PhantomJS(画面なしブラウザ)で、Webページのスクリーンショットを保存できるように…
今回は、 Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]のAppendixを参考にさせていただきながら、Dockerで機械学習の開発環境を作成してみました。 順を追って振り返ってみたいと思います。 D…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した応用数学の分野のうち、確率統計用語のオッズ比を振り返ります。 オッズ比 1.オッズ比とは何か 2.オッズ比の具体例 オッズ比 1.オッズ比とは何か オッズ比とは、ある事象の起こりやすさ…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した深層学習の分野のうち、ゲート付きRNNのひとつGRU(Gated Reccurent Unit)を振り返ります。 GRU(Gated Reccurent Unit) 1.GRUとは何か 2.GRU全体像 3.リセットゲート(R) 4.仮の出力(…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した深層学習の分野のうち、ゲート付きRNNのひとつLSTM(長短期記憶- Long short-term memory)を振り返ります。 LSTM(長短期記憶- Long short-term memory) 1.LSTMとは何か 2.LSTM全体像 3.…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した応用数学の分野のうち、今回は、情報理論-クロスエントロピーを振り返ります。 深層学習では、以下の4つが既知のものとして登場してきます。 自己情報量 エントロピー カルバック・ライ…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した応用数学の分野のうち、今回は、情報理論-カルバック・ライブラー情報量(KLダイバージェンス)を振り返ります。 深層学習では、以下の4つが既知のものとして登場してきます。 自己情報量…
E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として、今回は、応用数学の分野のうち、情報理論-エントロピーを振り返ります。 深層学習では、以下の4つが既知のものとして登場してきます。 自己情報量 エントロピー カルバック・ライブラー情報量…