この記事ではpythonを使って既存のデータからヒストグラム(頻度分布)のグラフを作成する方法をご紹介していきます。
基本的にはデータのcsvファイルとヒストグラム化するときに使用する区間データを入力するだけでOKです。
それではさっそくやっていきましょう。
使用するデータの紹介
今回は以下の年齢データを使用していきます。
※今回はこのデータがdata.csvという名前でプログラム実行フォルダに保存されていることを想定して解説していきます。
これらのデータから20代(20~29歳)、30代(30~39歳)、・・・60代(60~69歳)という区切りで何人ずつ存在しているかの情報を算出し、最後にグラフを作成していきます。
なお、この年齢の区切りとして使用するデータはプログラムに直接書き込む形式にしています。
ヒストグラム(頻度分布)を作成するサンプルコード
それではさっそくですが、ヒストグラム(頻度分布)を作成していきましょう。
以下がそのサンプルコードです。
#ライブラリインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#ヒストグラム化するデータの読み込み
data_file='data.csv'
df=pd.read_csv(data_file)
data=df.values[:,1]
#ヒストグラム化する際に使用する区間データ
age_list=[10,20,30,40,50,60,70]
#ヒストグラムを算出
hist,age=np.histogram(data, bins=age_list)
#グラフか処理
age=age[:len(hist)]
plt.xlabel('age',fontsize=18)
plt.ylabel('number',fontsize=18)
plt.bar(age, hist, width=8.0)
やっていることは非常に簡単で、numpyライブラリに入っているhistogramという関数を使用し、その関数に必要なデータを投げているだけですね。
非常に簡単なので、ぜひ処理をひとつひとつ追いかけてみましょう。
サンプルコードの実行結果
最後に先ほどのプログラムの実行結果のご紹介です。
先ほどのコードを実行すると以下のグラフが出力されました。
問題なくできていそうですね。
おわりに
というわけで今回はpythonを使って、データのヒストグラム(頻度分布)を作成する方法をご紹介しました。
データ分析の際などにぜひご活用ください。
このように、私のブログでは様々なスキルを紹介しています。
今は仕事中で時間がないかもしれませんが、ぜひ通勤時間中などに他の記事も読んでいただけると嬉しいです。
⇒興味をもった方は【ヒガサラ】で検索してみてください。
確実にスキルアップできるはずです。
最後に、この記事が役に立ったという方は、ぜひ応援よろしくお願いします。
↓ 応援ボタン
にほんブログ村
それではまた!
Follow @HigashiSalary
コメント