グリッドサーチでハイパーパラメータを調整する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python scikit-learn SVM metrics model_selection GridSearchCV pandas 開発環境入門参考書書籍復習

今回は、グリッドサーチでハイパーパラメータを調整しました。これまで、学習モデルは、特に引数を指定しないか、特定の値のみ指定して学習をおこなっていました。この「引数」は、学習時に更新されていくパラメータとは区別して、「ハイパーパラメータ」と…

2020-06-19

クロスバリデーションでモデルの妥当性を検証する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python scikit-learn cross_val_score SVM datasets model_selection 開発環境入門参考書書籍復習

今回は、クロスバリデーションという手法でモデルの妥当性を検証しました。学習したデータに対してとても良い精度を出すモデルであっても、予測が必要な新たなデータに対する精度が非常に低い、いわゆる「過学習」という状態になることが良くあります。こう…

2020-06-13

ランダムフォレストでキノコを分類する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python pandas scikit-learn RandomForestClassifier ランダムフォレスト train_test_split metrics 開発環境入門決定木参考書書籍復習

今回は、Webからキノコに関するデータをダウンロードして、ランダムフォレストで分類を行いました。これまでは、数学的に境界を決定して分類するSVM（サポートベクターマシン）という学習モデルを使ってきましたが、今回は、「ランダムフォレスト」という多…

2020-06-06

SVMで言語を判定する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python scikit-learn metrics glob re JSON SVM 開発環境入門参考書書籍復習自然言語処理

今回は、Webから取得したテキストファイルを読み込ませて、それが何語で書かれたテキストなのかを判定しました。機械学習の一大テーマである自然言語処理の復習です。（そこまで大掛かりなことをやっているわけではないですが・・・。）今回も Pythonによ…

2020-05-31

SVM（サポートベクターマシン）の解説＆構築に挑戦！

機械学習 Python SVM numpy matplotlib 開発環境入門参考書書籍復習マージンラグランジュ未定乗数法サポートベクターマシン

前回、次は「自然言語」と予告いたしましたが、これまでscikit-learnのライブラリを使っていたSVM（サポートベクターマシン）について、自分なりの理解で解説と、ライブラリを使わない実装に挑戦していきたいと思います！ scikit-learn を使ったSVMについて…

2020-05-27

SVMでMNISTのデータを画像分類する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python MNIST scikit-learn metrics SVM スクレイピング開発環境入門参考書書籍復習

今回は、前回CSVに変換したMNISTの手書き文字画像を、０〜９に分類しました。機械学習の一大テーマである画像分類の復習です。今回も Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第４章…

2020-05-23

MNISTのデータをCSVに変換する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python MNIST struct unpack スクレイピング開発環境入門参考書書籍復習

今回は、前回ダウンロードしてきたMNISTのデータをCSVに変換しました。今までバイナリデータをちゃんと扱ったことがなかったので、とても勉強になりました。 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ ク…

2020-05-17

MNIST（手書き数字データ）のダウンロード／解凍を自動化する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 MNIST request gzip Python スクレイピング開発環境入門参考書書籍復習

今回は、少しスクレイピングに戻って、画像の文字認識に使うためのMNIST（手書き数字データ）をダウンロードして解凍できるようになりました。機械学習では、圧縮されたデータをダウンロードして処理することもあるので、自動化できるのは非常に効率的です。…

2020-05-16

scikit-learnのSVMを使ってアヤメの品種を分類する（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 scikit-learn SVM Python datasets iris model_selection train_test_split metrics accuracy_score 開発環境入門参考書書籍復習

今回は、scikit-learnのSVMを使って、アヤメの品種を分類できるようになりました。花びらの長さや幅などの特徴量から品種を分類するということで、本格的に機械学習となってまいりました。 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scra…

2020-05-10

scikit-learnのSVMを使った入門編としてXOR演算を学習させる（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 scikit-learn SVM Python 開発環境参考書書籍復習入門

今回は、scikit-learnのSVMを使って、入門編としてXOR演算を学習させました。ついに機械学習の章に入ってきて、テンションも上がります。最近実践中心だったので、基礎からもう一度学び直したいと思います。 Pythonによるスクレイピング＆機械学習開発テクニ…

2020-05-09

YAMLを解析して要素を出力（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 YAML Python スクレイピング開発環境参考書書籍復習

今回は、yaml で、PythonのデータからYAML形式に変換したり、YAML形式のファイルを解析して要素を出力できるようになりました。 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第３章を参考に…

2020-05-05

Ubuntu(20.04 LTS)をインストールしてPython（Anaconda）の開発環境を構築する

Ubuntu インストール Python Anaconda 機械学習開発環境復習

今回は、Ubuntu 20.04 LTSをインストールして、Python,Seleniumの開発環境を構築しました。これまで、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]をDockerを利用して取り組んでいたのです…

2020-05-04

JSONを解析して要素を出力（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 JSON Python Docker urllib request スクレイピング開発環境参考書書籍復習

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第３章を参考にさせていただきながら、urllib.request+jsonで、Web上から、JSONファイルをダウンロードして解析後、要素を出力できる…

2020-05-02

XMLを解析して要素を出力（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python Docker BeautifulSoup urllib request スクレイピング開発環境参考書書籍復習

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第３章を参考にさせていただきながら、urllib.request+BeautifulSoupで、Web上から、XMLファイルをダウンロードして解析後、要素を出…

2020-04-27

ブログページから記事タイトル一覧を出力（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python Docker Selenium スクレイピング開発環境参考書書籍復習

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第２章を参考にさせていただきながら、Selenium+PhantomJS（画面なしブラウザ）で、ブログページから記事タイトル一覧を出力できるよ…

2020-04-22

ブラウザ（PhantomJS）を経由したスクレイピング（Pythonによるスクレイピング＆機械学習テクニック）

機械学習 Python Docker Selenium 開発環境参考書書籍復習

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第２章を参考にさせていただきながら、Selenium+PhantomJS（画面なしブラウザ）で、Webページのスクリーンショットを保存できるように…

2020-01-18

ProbSpace浮世絵作者予測コンペ振り返り（１０位にランクイン！）

機械学習書籍 Python コンペ ProbSpace 画像分類コンペ

先日、「ProbSpace」というプラットフォームで開催された「浮世絵作者予測」コンペに参戦したので、振り返っていきたいと思います。私にとって、画像分類のコンペは初めてでしたが、E資格の課題が画像分類でしたので、その時に得た知識をフル動員して取り組…

2019-12-30

ProbSpace給与推定コンペ振り返り

機械学習書籍 Python コンペ ProbSpace テーブルコンペ

先日、「ProbSpace」というプラットフォームで開催された「給与推定」コンペに参戦したので、振り返っていきたいと思います。私にとって、初めて公式の結果が確定したコンペとなり、最終順位は参加310チーム中、46位でした。全体の15％以内に入れたので、ま…

2019-09-09

E資格合格しました！（JDLA Deep Learning for ENGINEER 2019 #2）

書籍機械学習 E資格オライリー Python 対策

本日、８月３１日に受験したE資格（JDLA Deep Learning for ENGINEER 2019 #2）の結果発表があり、無事合格しました！約半年間取り組んできた努力が実りました！させてくれた家族と会社の皆さんに感謝です。今後、合格に向けて取り組んできた対策、例題、…

2019-09-01

E資格対策で勉強したこと、参考書など（JDLA Deep Learning for ENGINEER 2019 #2）

書籍機械学習 E資格オライリー Python 対策

E資格（JDLA Deep Learning for ENGINEER 2019 #2）の試験が終わりました。３月にG検定合格した後、E資格対策として取り組んできた勉強と、参考にした書籍などを紹介していきたいと思います。３月 G検定に合格し、E検定受験を決意４月認定講座受講開始ま…

2019-07-14

E資格受験に向けて「ゼロから作るDeep Learning 2 自然言語処理編」で追い込みをかける！

Python オライリー書籍機械学習

受験資格を得るための課題は完了したので、一旦実装はお休みして、知識学習に力を入れています。今は、「ゼロから作るDeep Learning 2 自然言語処理編」を購入して、苦手なRNNやLSTMなど系列データを使ったディープラーニングを学習しています。ゼロから作…

2019-06-30

ep4-3:多項式の次数を上げて近似する。（「実践　機械学習システム」に学ぶ。）

Python オライリー書籍機械学習

オライリージャパン社の「実践機械学習システム」に取り組んでいます。今回は、多項式の次数を上げて近似します。前回の直線で近似した記事は以下の通りです。 oregin-ai.hatenablog.com 実践機械学習システム [ ウィリ・リチャート ] では、順に取り組ん…

2019-06-27

ep4-2:単純な直線で近似する。（「実践　機械学習システム」に学ぶ。）

Python オライリー書籍機械学習

オライリージャパン社の「実践機械学習システム」に取り組んでいます。今回は、「単純な直線で近似する」を学びます。実践機械学習システム [ ウィリ・リチャート ] では、順に取り組んでいきます。 1.まずは、誤差を計算する関数を定義する。 #誤差を定…

2019-06-23

ep4-1: オライリー・ジャパン社「実践　機械学習システム」に学ぶ。

Python オライリー書籍機械学習

「Kaggle」のデータセット「Kickstarter Projects」の取り組みで、かなり苦戦したので、今一度、基礎から学ぶために、オライリージャパン社の「実践機械学習システム」に取り組んでまいります。今回は、データの読み込みと欠損値の処理を学びます。実践機…

2019-06-22

エピソード3-14: AdaBoostのまとめ（KaggleでKickstarter Projectsに挑戦する。）

Kaggle Python

「Kaggle」のデータセット「Kickstarter Projects」に取り組んでいます。前回挑戦した、木モデルのAdaBoostのコードをまとめました。前回の記事は、以下にありますので、ご参照ください。 oregin-ai.hatenablog.com では、さっそくまとめです。 1.まずは、…

2019-06-16

エピソード3-13: AdaBoostに挑戦してみる。Acc６６％→６７．５％（KaggleでKickstarter Projectsに挑戦する。）

Kaggle Python

「Kaggle」のデータセット「Kickstarter Projects」に取り組んでいます。今回は、一度NNモデルから離れて、木モデルのAdaBoostに挑戦します。 NNモデルの記事は、以下にありますので、ご参照ください。 oregin-ai.hatenablog.com では、さっそく取り組んで…

2019-06-09

エピソード3-12: 選択した特徴量を使ってNNモデルの学習率をグリッドサーチする。Acc６２％→６６％（KaggleでKickstarter Projectsに挑戦する。）

Kaggle Python

「Kaggle」のデータセット「Kickstarter Projects」に取り組んで、前回、LassoCVを使った特徴量選択を実施したので、その特徴量を使ってNNモデルを作り学習率をグリッドサーチします。前回の記事は、以下にありますので、ご参照ください。 oregin-ai.hatena…

2019-06-02

エピソード3-11: 正則化L1ノルム（Lasso）を使って特長量選択。（KaggleでKickstarter Projectsに挑戦する。）

Kaggle Python

「Kaggle」のデータセット「Kickstarter Projects」に取り組んで、Leakageにハマってしまいましたが、気を取り直して、再度取り組み開始です。ハマってしまった「Leakage」については、以下にまとめてあるのでご参照ください。 oregin-ai.hatenablog.com さ…