scikit-learnのSVMを使ってアヤメの品種を分類する（Pythonによるスクレイピング＆機械学習テクニック） - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

今回は、scikit-learnのSVMを使って、アヤメの品種を分類できるようになりました。花びらの長さや幅などの特徴量から品種を分類するということで、本格的に機械学習となってまいりました。

Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第４章を参考にさせていただきながら、取り組んでいます。

環境構築については、Dockerを使われる方は、以下をご参照ください。

oregin-ai.hatenablog.com

OSから、Ubuntuを導入して取り組む方は、以下をご参照ください。

oregin-ai.hatenablog.com

では、振り返っていきたいと思います。

scikit-learnのSVMを使ってアヤメの品質を分類する。

scikit-learnのSVMを使ってアヤメの品質を分類する。

1.全体像

コード全体は以下の通りで、「iris-train.py」に保存しました。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import svm,metrics

# (1)アヤメのデータを読み込む
X, y = datasets.load_iris(return_X_y=True)
print('全データ：',X.shape, y.shape)

#(2) 訓練データと検証データにデータを分ける
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4,random_state=0)

print('訓練データ：',X_train.shape, y_train.shape)
print('検証データ：',X_test.shape, y_test.shape)

#(3) データを学習し、予測する
clf = svm.SVC()
clf.fit(X_train, y_train)
pred = clf.predict(X_test)

#(4) 正解率を求める
ac_score = metrics.accuracy_score(y_test, pred)
print('正解率：',ac_score)

では、コードを順番に見ていきます。

2.アヤメのデータを読み込む

scikit-learnには、分類や、回帰などの機械学習のサンプルデータとして、色々なデータが用意されています。

その中で、今回は、アヤメ(iris)のデータを使って品種を分類を実施します。

datasetsをimportしておいて、load_iris()メソッドを使う事で、データを取得できます。引数に、return_X_y=Trueを渡す事で、予測に使うデータと（説明変数X）と、分類のラベル（目的変数y）が取得できます。

X, y = datasets.load_iris(return_X_y=True)
print('全データ：',X.shape, y.shape)

3.訓練データと検証データにデータを分ける

scikit-learnには、データを学習用に使う訓練データと、学習したモデルの精度を測定するための検証データに分割するツールも用意されています。

今回は、sklearn.model_selectionから、train_test_splitをimport して、データを分割します。

train_test_split()メソッドは、説明変数Xと目的変数yを引数として渡して、test_sizeでテストデータの割合を指定して、分割を行います。

また、random_stateに固定の値を指定しておく事で、毎回同じ分割結果を得ることができます。

random_stateを指定しないと、実行毎に分割結果が変わるので、精度が上がった時に、データの分割具合がちょうどよくて精度が上がったのか、良いモデルができたので、精度が上がったのかがわからなくなるので、指定しておく必要があります。（再現性の確保とも呼ばれます。）

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4,random_state=0)

print('訓練データ：',X_train.shape, y_train.shape)
print('検証データ：',X_test.shape, y_test.shape)