JSONを解析して要素を出力（Pythonによるスクレイピング＆機械学習テクニック） - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

今回は、 Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第３章を参考にさせていただきながら、urllib.request+jsonで、Web上から、JSONファイルをダウンロードして解析後、要素を出力できるようになりました。

Docker上に構築した開発環境で実行しています。

Dockerでの開発環境の構築については、過去記事をご参照ください。

oregin-ai.hatenablog.com

では、振り返っていきたいと思います。

JSONを解析して要素を出力する。

JSONを解析して要素を出力する。

1.JSONとは何か

JSONは、JavaScript Object Notationの略でデータ形式の一種です。「JavaScript」と名前に入っていますが、JavaScript専用ということではなく、pythonでも使えます。

記載方法については、Pythonと似ていて、数値や文字列だけでなく、リスト型や辞書型も使えます。

例：{'価格': {'大根': 122, '人参': 130, '白菜': 240}, '日付': '2020-05-04'}

2.全体像

今回は、XMLファイルの例として、京都市のオープンデータポータルサイトから、JSONファイルをダウンロードして使いました。

URL【https://data.city.kyoto.lg.jp/riyou/api】

この、APIからJSONファイルをダウンロードして、解析を行った後、ランダムに施設名を出力するコードを作っていきます。

コード全体は以下の通りで、「json-asset.py」に保存しました。

import urllib.request as req
import os.path,random
import json

#①JSONファイルをダウンロード
url = 'https://data.city.kyoto.lg.jp/API/action/datastore/search.json?resource_id=f14b57c2-48dd-4aa7-b754-a4f4ac340f2d&limit=20&offset=5&fields=name,address'
savename = 'kyoto.json'
if not os.path.exists(savename):
req.urlretrieve(url, savename)

#➁JSONファイルを解析
s = open(savename, 'r', encoding='utf-8')
data = json.load(s)

#③ランダムに施設名称を出力

records = data['result']['records']
r=random.choice(records)
print(r['name'])

では、コードを順番に見ていきます。

3.JSONファイルをダウンロード

urllib.request（import時にreqに設定）を使って、京都市の京都市の施設情報（平成28年11月9日現在）のJSONファイルをダウンロードして、「kyoto.json」に保存します。

サーバに負荷をかけないように、ダウンロードしたファイルが存在したら新たにダウンロードしないようにします。

url = 'https://data.city.kyoto.lg.jp/API/action/datastore/search.json?resource_id=f14b57c2-48dd-4aa7-b754-a4f4ac340f2d&limit=20&offset=5&fields=name,address'
savename = 'kyoto.json'
if not os.path.exists(savename):
req.urlretrieve(url, savename)

なお、URLに指定している、各パラメータは以下を意味しています。

resource_id （必須）	文字列型	検索するリソースのID番号 [f14b57c2-48dd-4aa7-b754-a4f4ac340f2d]は、京都市の施設情報（平成28年11月9日現在）のリソースのID番号
limit （任意）	整数値型	取得するデータの最大行数。今回は２０行を指定
offset （任意）	整数値型	データ取得を開始する行。今回は５行目を指定
fields （任意）	文字列型	取得するフィールドを指定。今回は「name」、「address」を指定して、設備名称と住所を取得