はじめに
エンジニア歴1年目の私が、機械学習について調べたことをまとめていきたいと思います。
今回は、以前記述した「これだけは知っておきたい!ビジネス層のためのデータ分析超入門 ② 評価指標」を踏まえたユースケースについて確認していきます。
分類問題で重要なのは、望まれる状況がどのような状態で望まない状況がどのようなものであるかをとらえることです。
どの評価指標を最適化するべきかのひとつの考え方として偽陽性・偽陰性に分類されたクラスの影響度合いを考えるというものがあります。これによって再現率/適合率のどちらを最適化すべきかの判断ができます。
「どの場合にどの指標をみるのか」がざっくり把握できれば幸いです!
ゴール
今回は以下のユースケースについて考えていきたいと思います。
ユースケース一覧
- 緊急のドキュメント探索
- 画像プライバシー保護システム
- スパムフィルタ
- キーワードによるフォト検索
1. 緊急のドキュメント探索
緊急性の高いドキュメントを他よりも優先するシステムを構築したいとします。
ケースとしては、ファイルフォルダーに蓄積されているドキュメントの仕分けなどで、NDAのような重要書類と過去に行われた定例会議の議事録のような緊急性の低い書類の探索とします。
- 偽陽性(FP)
緊急でないドキュメントを緊急であるドキュメントとして分類されること。 - 偽陰性(FN)
緊急であるドキュメントを緊急でないドキュメントとして分類されること。
このようなケースでは、偽陽性(FP)であれば誤って分類されたものは緊急でないと判断して、無視して良いのですが、偽陰性だと重大な問題を見落とすケースにつながってしまう恐れがあります。
そのため、「再現率」を最適化する方が好ましいです。
(取りこぼしなく緊急なドキュメントを緊急なドキュメントと判断するモデル)
2. 画像プライバシー保護システム
登録された画像内の機密情報(クレジットカードの番号など)を検出し、それをぼかすシステムを構築するとします。
- 偽陽性(FP)
ぼかす必要のないものをぼかしてしまう。(画像内のなんらかの数字など) - 偽陰性(FN)
クレジットカード番号がぼかされずに残ってしまう。
このようなケースでは、偽陽性の場合は気になるところはありますがシステム上の弊害はありません。しかし、偽陰性であると、個人情報が盗まれてしまう恐れがあり重大な問題につながってしまいます。
そのため、「再現率」を最適化する方が好ましいと言うことができます。
(取りこぼしなく機密情報をぼかすようにするモデル)
3. スパムフィルタ
スパムメッセージとそうでないものをフィルタリングし、スパムメールを受信フォルダから削除するシステムを構築するとします。
- 偽陽性(FP)
スパムでないメールが誤ってスパム認定され、受信フォルダから削除される。 - 偽陰性(FN)
スパムメールがフィルタリングされずに受信フォルダに残る。
今回のケースでは、これまでのケースの反対になります。
偽陽性の場合、正常なメールがスパムメールと認定され削除されてしまうと、もし削除されてしまったメールが重要であった場合に問題が発生してしまう可能性があります。しかし、偽陰性の場合、多少の不快感は残るものの、ビジネス上の損失には直結しません。
そのため、「適合率」を最適化するのが好ましいです。
(スパムをスパムと正しく認定する割合を高くするモデル)
4.キーワードによるフォト検索
特定のキーワードに対応する最適なストックフォトを見つけるシステムを構築するとします。
例えば、「犬の画像」と検索した際に表示された画像に実際に犬が含まれていれば正常に分類されていると判断します。
偽陽性(FP)
キーワードと無関係な画像(車の画像など)が表示されている。
偽陰性(FN)
画像内に犬が写っているが、検索結果に表示されなかった画像が存在する。
偽陽性については、検索キーワードと関連しない画像が表示されているため好ましい状態ではありません。偽陰性については、キーワードと関連する画像が表示されているため、取りこぼしの画像があったとしても検索システムとしては問題にはなりません。
そのため、「適合率」を最適化する方が好ましいです。
(実施される画像検出が正しく行われるモデル)
さいごに
簡単ではありますが、データ分析評価指標でのユースケースについて解説しました。
ぜひ、参考になれば幸いです。