Python3で日本経済新聞のタイトルを取得する

02 13, 2019

Home

Python

Python3で日本経済新聞のタイトルを取得する

やってみたかったスクレイピング

Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。そこで一念奮起してPythonを勉強している。

今回やること

日経新聞のホームページからタイトルを取得

書いたスクリプト

import urllib.request, urllib.error
from bs4 import BeautifulSoup

# アクセスするURL
url = "http://www.nikkei.com/"

# URLにアクセスする
html = urllib.request.urlopen(url)

# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")

# タイトル要素を取得する
title_tag = soup.title

# 要素の文字列を取得する
title = title_tag.string

# タイトル要素を出力
print(title_tag)

# タイトルを文字列を出力
print(title)

urllibとは？

urllib は URL を扱う幾つかのモジュールを集めたパッケージです。

urllib.request は URL を開いて読むためのモジュールです
urllib.error は urllib.request が発生させる例外を持っています
urllib.parse は URL をパースするためのモジュールです
urllib.robotparser は robots.txt ファイルをパースするためのモジュールです

BeautifulSoupとは？

Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。 htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。

ハマったところ

参考にしたコードがPython2系だったので書き方が結構違った。

Corylog

GatsbyJS

Python

Books