日曜エンジニアのアプリ制作
未経験からのWebプログラミング
その他の制作

Pythonでスクレイピングする方法【サンプルコード】

Pythonでスクレイピングをする方法をサンプルコードでご紹介します。

 

スクレイピングとは

スクレイピングとは、Webサイトの情報を取得する技術です。

スクレイピングのプログラムを作って、実行すると指定したWebサイトの情報を自動的に取得できるのです。

例えば、Yahooのサイトから新着ニュースの見出しだけを取得することができます。

これを一覧にして見やすく加工すれば、便利なアプリが作れたりするのです。

 

 

スクレイピングの注意点

スクレイピングには注意点があります。

サイトによっては規約の中に「スクレイピングの禁止」を謳っていることがあります。

スクレイピングは、Webサイトにアクセスしてデータを取得するため「相手のサーバーに負担をかけてしまう」からです。

禁止されていないサイトにおいても、スクレイピングの回数は極力減らすことが大切です。

 

 

サンプルコード

それではサンプルコードを2つご紹介します。

  1. 取得したデータを「ターミナルに表示する」プログラム。
  2. 取得したデータを「テキストファイル」にして保存するプログラム。

 

①ターミナルに表示するプログラム

#インターネットにアクセスするためのライブラリをインポート
import requests

#URLを指定する
url = 'https://ymori.com/books/python2nen/test1.html'

#データ取得処理
response = requests.get(url)

#文字化けを防ぐ処理
response.encoding = response.apparent_encoding

#取得した文字列データを表示する処理
print(response.text)

 

②HTMLタグをテキストファイルで保存するプログラム

すべてのHTMLタグを「テキストファイル」として保存するプログラムです。

#インターネットにアクセスするためのライブラリをインポートする
import requests

#URLを指定する
url = 'https://ymori.com/books/python2nen/test1.html'

#データ取得処理
response = requests.get(url)

#文字化けの防止処理
response.encoding = response.apparent_encoding

#保存するファイル名を指定する
filename = 'download.txt'

#ファイルを開く処理
f = open(filename, mode= 'w')

#取得データを書き込む処理
f.write(response.text)

#ファイルを閉じる処理
f.close()

 

 

スクレイピング習得におすすめの本