【python】指定URLのHTMLを取得⇒テキストファイルに保存する方法！

この記事では、

【指定したurlのHTMLを、テキストファイルに出力する方法】

をご紹介します。

この方法で取得したテキストファイルを分析⇒加工することで記事タイトル一覧や各記事のURLを取得することが可能になります。

（分析⇒加工については別記事で掲載しています。）

それでは早速やっていきます！

※この記事でのプログラミング言語はpythonを使っています。

必要なライブラリ
指定URLのHTMLをテキスト出力するpythonコード
サンプルコードの実行結果
おわりに

必要なライブラリ

この記事では以下のライブラリを使用します。

urllib.request

インストールして使えるようにしておきましょう。

指定URLのHTMLをテキスト出力するpythonコード

早速ですが、指定URLのHTMLを取得するpythonコードをご紹介します。

※URLには私のブログのURLを入れています。


#ライブラリインポート
import urllib.request
import pandas as pd
pd.set_option("display.max_colwidth", None)
#テキストファイルを開く（出力用）
file = open('HTML.txt', 'w', encoding='utf-8')
#urlを指定する
url='https://www.higashisalary.com'
#HTMLを取得する
html=urllib.request.urlopen(url)
html=html.read().decode('utf-8')
#テキストファイルに書き込む
file.write(str(html))
file.close()