【AI】Pytorchデビュー！MNISTの画像分類で練習！Kerasとの使い勝手も比較

こんにちは、ヒガシです。

このブログでは、これまでに様々なAIスキルを紹介してきたわけですが、その多くはKeras(Tensorflow)を用いて行ってきました。

というのも私の会社では多くの人がとっかかりやすいKerasで業務を行っており、私もその流れに乗らざるを得なかったためです。

しかしながら昨今のPytorch人気を見ていると、

「これはPytorchも扱えるようになっておかなければ世の中に置いて行かれる」

という危機感を抱くようになってきました。

ということで今回はPytorchの練習がてら定番ではありますがMNISTの手書き文字の分類問題をPytorchで実装していこうと思います。

構築したPytorch環境の紹介
MNISTの画像認識サンプルコード
Kerasと比較しての感想
おわりに

構築したPytorch環境の紹介

今回は以下の環境を構築しました。

Pytorch : 2.2.1+cu118

Python : 3.10.13

環境構築は会社の新入社員サポートでさんざん経験しているので、このあたりはすんなり終わりました。

MNISTの画像認識サンプルコード

それでは前置きはこのくらいにして、さっそくPytorchでのサンプルコードです。

（だいたいのことは把握できているのでChatGPT君にサクッと書いてもらって、ちょっとした手直しした程度だけですが。）

import torch
import torchvision
import torchvision.transforms as transforms
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchsummary import summary
import numpy as np

# デバイスの設定（GPUが利用可能な場合はGPUを、そうでない場合はCPUを使用）
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# データの前処理
transform = transforms.Compose([
            transforms.ToTensor(), # 画像をテンソルに変換
            transforms.Normalize((0.5,), (0.5,)) # データを正規化
            ])

# 訓練データセットの読み込み
trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=0)

# テストデータセットの読み込み
testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=0)

# ニューラルネットワークの定義
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512) # 入力画像サイズ: 28x28, 出力サイズ: 512
        self.fc2 = nn.Linear(512, 512)     # 入力サイズ: 512, 出力サイズ: 512
        self.fc3 = nn.Linear(512, 10)      # 入力サイズ: 512, 出力サイズ: 10 (0~9の数字分類)

    def forward(self, x):
        x = x.view(-1, 28 * 28)   # 画像を1次元に平坦化
        x = F.relu(self.fc1(x))   # ReLU活性化関数を適用
        x = F.relu(self.fc2(x))   # ReLU活性化関数を適用
        x = self.fc3(x)           # 出力層への入力
        return x

net = Net().to(device)
summary(net,(1,28,28))


# 損失関数と最適化手法の定義
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)


# モデルの訓練
nb_epoch = 5
train_loss_list = []
train_acc_list = []
val_loss_list = []
val_acc_list = []
for epoch in range(nb_epoch):
    train_loss = 0
    train_acc = 0
    val_loss = 0
    val_acc = 0
    #train
    net.train()
    for i, (images, labels) in enumerate(trainloader):
        images, labels = images.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = net(images)
        loss = criterion(outputs, labels)
        train_loss += loss.item()
        train_acc += (outputs.max(1)[1] == labels).sum().item()
        loss.backward()
        optimizer.step()

    avg_train_loss = train_loss / len(trainloader.dataset)
    avg_train_acc = train_acc / len(trainloader.dataset)

    #val
    net.eval()
    with torch.no_grad():
        for images, labels in testloader:
            images = images.to(device)
            labels = labels.to(device)
            outputs = net(images)
            loss = criterion(outputs, labels)
            val_loss += loss.item()
            val_acc += (outputs.max(1)[1] == labels).sum().item()
    avg_val_loss = val_loss / len(testloader.dataset)
    avg_val_acc = val_acc / len(testloader.dataset)

    print ('Epoch [{}/{}], loss: {loss:.4f} val_loss: {val_loss:.4f}, val_acc: {val_acc:.4f}' 
                   .format(epoch+1, nb_epoch, i+1, loss=avg_train_loss, val_loss=avg_val_loss, val_acc=avg_val_acc))
    train_loss_list.append(avg_train_loss)
    train_acc_list.append(avg_train_acc)
    val_loss_list.append(avg_val_loss)
    val_acc_list.append(avg_val_acc)

print('Finished Training')

# モデルのテスト
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data[0].to(device), data[1].to(device)
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (100 * correct / total))

#学習履歴の出力
plt.plot(train_loss_list, color='blue' ,label='loss')
plt.plot(val_loss_list, color='orange', label='val_loss')
plt.legend(loc='upper right', fontsize=10)
plt.xlabel('epochs', fontsize=10)
plt.ylabel('loss', fontsize=10)
plt.show()
plt.plot(train_acc_list, color='blue' ,label='acc')
plt.plot(val_acc_list, color='orange', label='val_acc')
plt.legend(loc='lower right', fontsize=10)
plt.xlabel('epochs', fontsize=10)
plt.ylabel('loss', fontsize=10)
plt.show()

これでデータの準備、学習、学習履歴の表示、テストまでをぶっ通しで実行できます。

こんな感じで問題なく学習できました。