こんにちは、ヒガシです。
この記事では、機械学習の教師データに関するお話をしていこうと思います。
私自身、つい先日までは
「機械学習の教師データのデータ数は多ければ多いほど良い!」
という風に考えていたのですが、業務でいろいろとAIを活用していく中で、
「一概にそうとも言えないな。状況次第だ。」
と考えるようになりました。
今回はその内容について簡単にご紹介していこうと思います。
ぜひ最後までご覧ください。
はじめに
あなたがAIを活用していくうえで精度向上に行き詰ったとき、
「とりあえずデータ数を増やそう!」
と闇雲に突っ走るのではなく、この問題の場合はデータ増やすのが良いのか、モデルの改善を進めた方が良いのか、それとも別の方法にした方がよいのか、こういったことを考えるきっかけを作れれば良いなと思ってこの記事を書いています。
「これからAI活用をはじめていきたい」
という方にとっては、この記事の内容は非常に参考になると思います。
とはいえAIはまだまだ発展途中の技術であり、これといった正解はありません。
この記事で話す内容は、あくまで私個人の意見です。
すべての対象にあてはまるとは限りませんので、その点はご留意ください。
前置きが長くなりましたが、本題に入っていきましょう。
以降の項目では、以下の2点についてご紹介していきます。
〇AIの予測精度が悪かった際にまずやるべきこと
〇データ数を増やす際に注意すべきこと
データ数不足が疑われる場合にまずやるべきこと
まずはAIの予測精度が悪かった際にまずやるべきことを解説していきます。
今回は以下のようなデータ群で考えていきましょう。
(あくまでもイメージ図です。)
AIは基本的にデータ点群のもつ情報を点や面でつないでいく作業ですので、この場合は、単純な右肩あがりの直線がでてきそうですね。
とはいえ、右上のあたりはデータ数が少ないことがわかると思います。
仮にあなたが作成したAIの予測精度が右上の領域でのみ悪い場合、それはシンプルにデータ数が少ないことが原因でしょう。
一方、データ数が十分に多い左下の領域で精度が悪い場合、それは選定したモデルの問題や適切な説明因子を選定できていないことが問題であることが考えられます。
つまり、一概にデータ数を増やせばどんな状況でも予測精度が改善するとは限らないというわけですね。
今回は説明の都合上、データがどんな感じに散らばっているかを視覚的に表現していますが、実際のAI活用シーンではデータ数ばかりに目が行き、データの散らばり具合は見落とされることがあります。
そして精度不十分の領域において、他の領域よりもデータが少ないことが確認された場合、次のステップとしてデータ数を増やす工程に入っていきましょう。
データ数の増加の際の注意点
次にデータ数を増やす際に注意すべきことを解説していきます。
ここでも先ほどの例をつかって考えてみましょう。
データ数を増やす際、当然ですが、以下の赤丸近辺のデータを集めなければ意味がありません。
(要するに追加でデータを集める際はランダムに集めるのではなく、狙いを絞って集めましょう、ということですね。)
というわけでここまでが、データ数増加が必要なのはどんな状況か、データを増やす際はどんなことに注意すべきか、という説明でした。
おわりに
というわけで今回は、
〇AIの予測精度が悪い際にまずやるべきこと
〇教師データを増やす際に注意するべきこと
をご紹介しました。
あなたのAI開発において少しでも参考になっていれば幸いです。
最後に、この記事が役に立ったという方は、ぜひ応援よろしくお願いします。
↓ 応援ボタン
にほんブログ村
それではまた!
Follow @HigashiSalary
コメント