ブログページから記事タイトル一覧を出力（Pythonによるスクレイピング＆機械学習テクニック） - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第２章を参考にさせていただきながら、Selenium+PhantomJS（画面なしブラウザ）で、ブログページから記事タイトル一覧を出力できるようになりました。

Docker上に構築した、Selenium+PhntomJSの実行環境を使いました。

Selenium+PhntomJSの実行環境の構築に関しては、以下の記事をご参照ください。

oregin-ai.hatenablog.com

ブログページから記事タイトル一覧を出力する。

ブログページから記事タイトル一覧を出力する。

1.全体像

今回は、ブログのトップページにアクセスして、記事のリストを取得して、タイトルとそのURLを出力するコードを作っていきます。

全体像は以下の通りです。

f:id:kanriyou_h004:20200426180358p:plain — 図1.全体像

以下のコードを、「blog_title_list.py」に保存しました。

from selenium import webdriver

URL = 'https://oregin-ai.hatenablog.com/'

browser = webdriver.PhantomJS()
browser.implicitly_wait(3)

browser.get(URL)
print('トップページにアクセスしました')

kiji_list =

links = browser.find_elements_by_css_selector('h1.entry-title a')

for a in links:
href = a.get_attribute('href')
title = a.text
kiji_list.append((href, title))
print('+ タイトルを{0}件取得しました'.format(len(kiji_list)))

for href, title in kiji_list:
print('- ', '[',title,']:',href)

browser.quit()

では、コードを順番に見ていきます。

2.Seleniumのライブラリをインポート

前回同様、SeleniumからWebサイトを操作するために必要な、webdriverをインポートします。

from selenium import webdriver

3. PhantomJSのインスタンスを作成

インポートされたwebdriverを使って、PhantomJSのインスタンス（実体：browser）を作成します。

implicitly_waitメソッドで、最大３秒待つ設定をします。

browser = webdriver.PhantomJS()
browser.implicitly_wait(3)

4.トップページにアクセス

getメソッドを使って、引数に指定したURLのページにアクセスします。

browser.get(URL)

5.記事のタイトルを取得して出力

記事のタイトルとURLを格納する空のリストを作ります。

kiji_list =

find_elements_by_css_selectorメソッドを使って、タイトルが入った要素をすべて取得します。

記事のタイトルが、「<h1 class="entry-title">　</h1>」に囲まれた中にあり、「<a href="URL" >タイトル</a>」となっているので、”h1.entry-title a"とすることで、「h1タグのentry-titleクラスに含まれる aタグの要素」を取得することができます。