Pythn Pandas 見本データ — 都道府県別5年間人口推移

公的な機関のいつでも同じところから再ダウンロードできるファイル

意味のわかるデータ

お国のデータ倉庫がある


CSVデータ


エクセル形式データ

DB接続が可能なのに、細かい条件ごとにエクセルファイルが作られている

親切設計なのでしょうが、結果的にゴミだらけで希望の条件にかなったファイルが探せない。

エクセルファイルは人が作ってるんでしょうか???

https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031921674&fileKind=0

都道府県別人口総計2015-2019

エクセルファイルのデータ部分を抽出し、CSVに書き出すpythonプログラム

import pandas as pd

#1 予めダウンロードしたファイルを読み込む
df = pd.read_excel('a00500.xlsx',header=None, index_col=None)

#2 必要な列名だけ抽出する
columns = df.iloc[12,[9,11,12,13,14,15,16]]

#3 #2の空の列名補完
columns[9]='都道府県'
columns[11]='Prefectures'

#4 一時的なDataFrameで作業
_df = df
#5 データ部分を抽出
_df =  df.iloc[19:66,[9,11,12,13,14,15,16]]

#5 列名をセット
_df.columns = columns

#6 出来たデータをCSVとして保存
_df.to_csv('都道府県人口.csv',index = False)
#windowsでエクセルで開く場合はshift_jisエンコードで保存
#_df.to_csv('都道府県人口.csv' ,index = False, encoding = 'shift_jis')

#7 テスト的に読み込んで見る
df_jinko = pd.read_csv('都道府県人口.csv',index_col = '都道府県')

#8 表示
print(df_jinko)

完成

コメント

タイトルとURLをコピーしました