Python3で日本経済新聞のタイトルを取得する
02 13, 2019
やってみたかったスクレイピング
Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。 そこで一念奮起してPythonを勉強している。
今回やること
日経新聞のホームページからタイトルを取得
書いたスクリプト
import urllib.request, urllib.error
from bs4 import BeautifulSoup
# アクセスするURL
url = "http://www.nikkei.com/"
# URLにアクセスする
html = urllib.request.urlopen(url)
# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")
# タイトル要素を取得する
title_tag = soup.title
# 要素の文字列を取得する
title = title_tag.string
# タイトル要素を出力
print(title_tag)
# タイトルを文字列を出力
print(title)
urllibとは?
urllib は URL を扱う幾つかのモジュールを集めたパッケージです。
-
urllib.request は URL を開いて読むためのモジュールです
-
urllib.error は urllib.request が発生させる例外を持っています
-
urllib.parse は URL をパースするためのモジュールです
-
urllib.robotparser は robots.txt ファイルをパースするためのモジュールです
BeautifulSoupとは?
Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。 htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。
ハマったところ
参考にしたコードがPython2系だったので書き方が結構違った。