Pythonでスクレイピングをする方法をサンプルコードでご紹介します。
スポンサーリンク
スクレイピングとは
スクレイピングとは、Webサイトの情報を取得する技術です。
スクレイピングのプログラムを作って、実行すると指定したWebサイトの情報を自動的に取得できるのです。
例えば、Yahooのサイトから新着ニュースの見出しだけを取得することができます。
これを一覧にして見やすく加工すれば、便利なアプリが作れたりするのです。
スクレイピングの注意点
スクレイピングには注意点があります。
サイトによっては規約の中に「スクレイピングの禁止」を謳っていることがあります。
スクレイピングは、Webサイトにアクセスしてデータを取得するため「相手のサーバーに負担をかけてしまう」からです。
禁止されていないサイトにおいても、スクレイピングの回数は極力減らすことが大切です。
サンプルコード
それではサンプルコードを2つご紹介します。
- 取得したデータを「ターミナルに表示する」プログラム。
- 取得したデータを「テキストファイル」にして保存するプログラム。
①ターミナルに表示するプログラム
#インターネットにアクセスするためのライブラリをインポート
import requests
#URLを指定する
url = 'https://ymori.com/books/python2nen/test1.html'
#データ取得処理
response = requests.get(url)
#文字化けを防ぐ処理
response.encoding = response.apparent_encoding
#取得した文字列データを表示する処理
print(response.text)
②HTMLタグをテキストファイルで保存するプログラム
すべてのHTMLタグを「テキストファイル」として保存するプログラムです。
#インターネットにアクセスするためのライブラリをインポートする
import requests
#URLを指定する
url = 'https://ymori.com/books/python2nen/test1.html'
#データ取得処理
response = requests.get(url)
#文字化けの防止処理
response.encoding = response.apparent_encoding
#保存するファイル名を指定する
filename = 'download.txt'
#ファイルを開く処理
f = open(filename, mode= 'w')
#取得データを書き込む処理
f.write(response.text)
#ファイルを閉じる処理
f.close()
スクレイピング習得におすすめの本
スポンサーリンク