Python 仕事の話

複数のCSVファイルをグラフ化【GUIを使ってユーザーフレンドリーを目指す】

※アフィリエイト広告を利用しています

SHIN

ガジェット好きの凡人会社員
未経験からシステム業務をしてる人
※Pythonでの業務効率化に挑戦中
自分の勉強の為の自由帳ブログ運営

こんにちはSHINです。

データの可視化は、情報を理解しやすくする上で非常に重要です。

この記事では、複数のCSVファイルからデータを取り込み、それらを効果的にグラフ化する方法を紹介します。

さらに、PythonとGUIを組み合わせることで、より使いやすいデータ分析ツールを作成する方法も探ります。

話題のChatGPTを使ったプログラミングをするなら下の書籍がおススメです。

Pythonを本気で学びたい人はUdemyでの勉強がおススメです。私も実際に入ってますし、なによりPythonのコースが豊富です。

これからの必須スキルであるPythonを本気で学んで今後の仕事に活かして生きましょう♪

多彩な講座から自分に合った講座を探そう!

プログラミング言語カテゴリー

はじめに:データ可視化の重要性

データ可視化は、膨大なデータセットから得られる情報を効果的に理解し、伝えるための重要なツールです。

グラフやチャートを使用することで、複雑な数値や関係性を直感的に把握することが可能になります。

特に、ビジネスの意思決定、科学研究、教育などの分野では、データを視覚化することで、より深い洞察を得ることができます。今回は、このデータ可視化をさらに手軽に行うための方法を紹介します。

今回グラフ化したいデータファイルの内容

今回グラフ化したいのは下図のようなよくある日付<datetime>・名称<name>・値<value>・単位<unit>が記入してあるよくあるデータ列のパターンです。

このようなファイルが日付ごとにフォルダに保存されている状態の場合に最適です。

今回のコードの簡単な流れを説明

今回のコードの基本的なポイントは3つです。

ひとつずつ説明していきます。

CSVデータの読み込みと処理

まず最初に、Pythonを使ってCSVファイルからデータを読み込みます。

CSV(Comma-Separated Values)ファイルは、データを保存するための一般的な形式で、表形式のデータをテキストファイルに保存します。

Pythonの標準ライブラリには、CSVファイルを簡単に読み込み、処理するための機能が含まれています。例えば、csv モジュールを用いてデータを読み込み、必要な情報を抽出することができます。

グラフ化の基本:Matplotlibの使用

データを読み込んだ後は、それを視覚化するためにグラフ化します。

これにはPythonのMatplotlibライブラリが最適です。

Matplotlibは、様々な種類のグラフを生成するための強力なツールです。

ライングラフ、バーチャート、散布図など、幅広い種類のグラフを作成することが可能です。Matplotlibを使用することで、データのパターンや傾向を直感的に理解しやすくなります。

GUIの導入:tkinterを使ったインターフェース作成

グラフ化するだけでなく、より使いやすいユーザーインターフェースを提供するために、Pythonのtkinterライブラリを使用します。

tkinterはPythonの標準GUIツールキットであり、簡単にクロスプラットフォームのアプリケーションを作成することができます。

CSVファイルの選択、グラフの種類の選択、グラフの表示など、ユーザーの操作に応じたインタラクティブな機能を簡単に組み込むことが可能です。

これにより、ユーザーはより直感的にデータを探索し、分析することができます。

 

今回のサンプルコード

※コピペでは使えないのであくまで参考にしてください

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from matplotlib import font_manager
from sklearn.linear_model import LinearRegression
import numpy as np
import os
import tkinter as tk
from tkinter import filedialog, messagebox

# 日本語フォントの設定
font_path = 'C:\\Windows\\Fonts\\msgothic.ttc'
font_prop = font_manager.FontProperties(fname=font_path)
plt.rcParams['font.family'] = font_prop.get_name()

# データをロードする関数
def load_data():
    global combined_data
    folder_path = filedialog.askdirectory()
    if not folder_path:  # ユーザーがキャンセルした場合
        return

    # 指定されたフォルダからCSVファイルを読み込み、結合する
    csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]
    data_frames = [pd.read_csv(os.path.join(folder_path, file)) for file in csv_files]
    combined_data = pd.concat(data_frames)
    combined_data['datetime'] = pd.to_datetime(combined_data['datetime'])
    combined_data['datetime_num'] = combined_data['datetime'].map(pd.Timestamp.timestamp)

    # 単位選択用のメニューを更新する
    update_unit_menu()

# 単位選択用のメニューを更新する関数
def update_unit_menu():
    menu = unit_menu["menu"]
    menu.delete(0, "end")
    for unit in combined_data['unit'].unique():
        menu.add_command(label=unit, command=lambda value=unit: unit_var.set(value))
    unit_var.set("単位選択")

# 名前選択用のリストボックスを更新する関数
def update_name_listbox(*args):
    name_listbox.delete(0, tk.END)
    selected_unit = unit_var.get()
    if selected_unit != "単位選択":
        names = combined_data[combined_data['unit'] == selected_unit]['name'].unique()
        for name in names:
            name_listbox.insert(tk.END, name)

# グラフをプロットする関数
def plot_data():
    selected_unit = unit_var.get()
    selected_indexes = name_listbox.curselection()
    selected_names = [name_listbox.get(i) for i in selected_indexes]
    show_regression = regression_var.get()

    # 選択された単位と名前に基づいてデータをフィルタリング
    unit_data = combined_data[combined_data['unit'] == selected_unit]
    unit_data = unit_data[unit_data['name'].isin(selected_names)]

    plt.figure(figsize=(15, 8))

    # 各名前に対してグラフをプロット
    for name in selected_names:
        subset = unit_data[unit_data['name'] == name]
        plt.plot(subset['datetime'], subset['value'], label=name)

        # 線形回帰モデルを表示する場合
        if show_regression:
            X = subset['datetime_num'].values.reshape(-1, 1)
            y = subset['value'].values
            model = LinearRegression().fit(X, y)
            predicted = model.predict(X)
            plt.plot(subset['datetime'], predicted, linestyle='dashed', color=plt.gca().lines[-1].get_color(), label=f'{name} - 予測')

    plt.xlabel('Datetime')
    plt.ylabel('Value')
    plt.title(f'Graph for {selected_unit}')
    plt.legend()
    plt.grid(True)
    plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m-%d'))
    plt.xticks(rotation=45)
    plt.show()

# グラフ表示ボタンがクリックされた時の動作
def on_plot_button_click():
    plot_data()

# GUIのセットアップ
root = tk.Tk()
root.title("グラフ作成ウィンドウ")

# ファイル読み込みボタン
load_data_button = tk.Button(root, text="ファイル読み込み", command=load_data)
load_data_button.pack()

# 単位選択メニュー
unit_var = tk.StringVar(root)
unit_var.set("単位選択")
unit_var.trace('w', update_name_listbox)  # 単位が選択されたら名前リストボックスを更新
unit_menu = tk.OptionMenu(root, unit_var, "単位選択")
unit_menu.pack()

# 名前選択リストボックス(複数選択可能)
name_listbox = tk.Listbox(root, selectmode='multiple', exportselection=0)
name_listbox.pack(side="left", fill="both", expand=True)

# 名前リストボックス用のスクロールバー
scrollbar = tk.Scrollbar(root, orient="vertical")
scrollbar.config(command=name_listbox.yview)
scrollbar.pack(side="right", fill="y")
name_listbox.config(yscrollcommand=scrollbar.set)

# 線形回帰表示オプションのチェックボックス
regression_var = tk.BooleanVar(root)
regression_check = tk.Checkbutton(root, text="トレンドラインを描く", variable=regression_var)
regression_check.pack()

# グラフを表示するボタン
plot_button = tk.Button(root, text="グラフを表示", command=on_plot_button_click)
plot_button.pack()

# GUIの開始
root.mainloop()

このサンプルコードは、Pythonを使用して複数のCSVファイルからデータを読み込み、グラフ化するGUIアプリケーションの作成を示しています。コードの主な構成要素は以下の通りです:

  1. 必要なライブラリのインポート: pandas, matplotlib, sklearnなどのライブラリをインポートしています。これらはデータの読み込み、処理、およびグラフ化に必要です。
  2. 日本語フォントの設定: matplotlibでグラフを日本語で表示するために、日本語フォントを設定しています。
  3. データ読み込み関数 (load_data): ユーザーが選択したディレクトリからCSVファイルを読み込み、それらを結合しています。そして、日付データを適切な形式に変換しています。
  4. GUI要素の設定: tkinterを使用して、ファイル読み込みボタン、単位選択メニュー、名前選択リストボックス、線形回帰表示のチェックボックス、そしてグラフ表示ボタンを設定しています。
  5. グラフプロット関数 (plot_data): 選択されたデータに基づいてグラフをプロットします。ユーザーが選択した単位と名前に応じて、対応するデータをフィルタリングし、Matplotlibを用いてグラフを表示します。オプションで線形回帰モデルに基づくトレンドラインも表示します。
  6. GUIのメインループ: tkinterのメインループを設定し、アプリケーションが動作するようにします。

このコードは、Pythonでのデータ可視化とGUI開発の基本を示しています。ユーザーが直感的に操作できるインターフェースを通じて、複数のCSVファイルからのデータを簡単にグラフ化できるように設計されています。データ科学、ビジネス分析、教育など様々な用途で活用できる有用なツールです。

ぜひお試しください。

まとめ

今回は、複数のCSVファイルを読み込んでグラフ化する方法と、それをGUIで実現する手法について学びました。

この知識を活用して、データ分析をより効果的で使いやすいものに変えていくことができるでしょう。

データの可視化は無限の可能性を秘めています。何か疑問やアイデアがあれば、ぜひコメント欄で共有してください。

話題のChatGPTを使ったプログラミングをするなら下の書籍がおススメです。

Pythonを本気で学びたい人はUdemyでの勉強がおススメです。私も実際に入ってますし、なによりPythonのコースが豊富です。

これからの必須スキルであるPythonを本気で学んで今後の仕事に活かして生きましょう♪

多彩な講座から自分に合った講座を探そう!

プログラミング言語カテゴリー

  • この記事を書いた人

SHIN

ガジェット好きの凡人会社員
未経験からシステム業務をしてる人
※Pythonでの業務効率化に挑戦中
自分の勉強の為の自由帳ブログ運営

-Python, 仕事の話