この記事では、
【指定したurlのHTMLを、テキストファイルに出力する方法】
をご紹介します。
この方法で取得したテキストファイルを分析⇒加工することで記事タイトル一覧や各記事のURLを取得することが可能になります。
(分析⇒加工については別記事で掲載しています。)
それでは早速やっていきます!
※この記事でのプログラミング言語はpythonを使っています。
必要なライブラリ
この記事では以下のライブラリを使用します。
urllib.request
インストールして使えるようにしておきましょう。
指定URLのHTMLをテキスト出力するpythonコード
早速ですが、指定URLのHTMLを取得するpythonコードをご紹介します。
※URLには私のブログのURLを入れています。
#ライブラリインポート
import urllib.request
import pandas as pd
pd.set_option("display.max_colwidth", None)
#テキストファイルを開く(出力用)
file = open('HTML.txt', 'w', encoding='utf-8')
#urlを指定する
url='https://www.higashisalary.com'
#HTMLを取得する
html=urllib.request.urlopen(url)
html=html.read().decode('utf-8')
#テキストファイルに書き込む
file.write(str(html))
file.close()
サンプルコードの実行結果
最後に先ほど紹介したサンプルコードを実行してみましょう。
以下が出力されたテキストファイルの一部を抜粋したものです。
しっかりとタイトルやリンク先が表示されていますね。
このファイルを解析すればタイトル一覧やそのリンクURL一覧は簡単に取得することが可能です。
(そのへんのやり方はまた次回。)
おわりに
というわけで今回はpythonを使って指定したURLのHTMLをテキストファイルに出力する方法をご紹介しました。
記事中コードをコピーしてURLを書き換えるだけですので非常に簡単ですね。
このように私のブログでは様々なプログラミングスキルを紹介しています。
・もっと革新的なことをやりたい。
・プログラミングについてもっと詳しくなりたい。
こんな思いを持っている人は、ぜひ他の記事も見てみてくださいね。
この記事が役に立ったという方は、ぜひ応援よろしくお願いします。
↓ 応援ボタン
それではまた!
コメント