これだけは知っておきたい!ビジネス層のためのデータ分析超入門 ② 評価指標

はじめに

エンジニア歴1年目の私が、機械学習について調べたことをまとめていきたいと思います。

今回は、私が分からないなりにも「これだけは覚えておきたい!!」と感じた、データ分析を始める上で欠かせない評価指標についてまとめてみました。

私の理解を深めるためにも、今回はシンプルな(※)二項分類を例に解説していきます。

二項分類…属性によって、2つに分類すること(英語か日本語、大文字か小文字など)

ゴール

今回は以下の評価指標ざっくり解説していきます。

解説用語

  1. TP,TN,FP,FNと混同行列
  2. 適合率と再現率
  3. ROC曲線とAUC

1.TP,TN,FP,FNと混同行列

TP,TN,FP,FNとは、二値分類の種類
混同行列とは、二値分類の結果を可視化したもの

TP,TN,FP,FNは、以下の4つになります。(例として車の画像を判別する例で示します)

  • 真陽性(True Positive)
    例)車の画像(Positive)を正しく(True)車の画像である(Positive)と判別した
  • 真陰性(True Negative)
    例)車以外の画像(Negative)を正しく(True)車以外の画像である(Negative)と判別した
  • 偽陽性(False Positive)
    例)車以外の画像(Negative)を間違えて(False)車の画像である(Positive)と判別した
  • 偽陰性(False Negative)
    例)車の画像(Positive)を間違えて(False)車以外の画像である(Negative)と判別した

これらの情報を一つにまとめ、正解・不正解を整理した表を混同行列(confusion matrix)といいます。

ちなみに上記の例を混同行列で表すと以下になります。

正しくは車 正しくは車ではない
予測が車 無題のプレゼンテーション (8).png 無題のプレゼンテーション (7).png
予測が車ではない 無題のプレゼンテーション (9).png 無題のプレゼンテーション (10).png

2.適合率と再現率

適合率とは、出力した結果の内、本当に見つけたいデータの割合はどの程度あるかの指標
再現率とは、網羅性を測る指標

例を出して説明していきます。

車と電車の写真データ群の中から、車の写真を選び出す検索システムAと検索システムBがあるとします。

結果は図のようになりました。

無題のプレゼンテーション (11).png

システムAでは検索でヒットしたのが60件。車以外の電車などの写真をヒットさせる誤りはなんと0でした。しかし、車の写真の取りこぼしが70件発生してしまったようです。

システムBでは検索でヒットしたのが250件。Aとは反対に電車の写真をヒットさせる誤りが90件発生してしまいました。しかし、車の写真の取りこぼしはありませんでした。

この場合、どちらの検索システムのほうが優秀でしょうか??

それは、検索の目的によって異なります。

上記のケースですと、

システムAは、出力した結果の内、本当に見つけたいデータ(車の写真)の割合が高かったので、「適合率が高い」と言え

反対にシステムBは、正解の検索ヒット数が高い(網羅性が高かった)ので、「再現性が高い」と言えます。

3. ROC曲線とAUC

データ分析の中でも、白黒はっきりしない曖昧な結果が出てくることがあると思います。
そんな時に使用する評価指標が、「ROC曲線とAUC」です。

この評価指標は、医療現場における検査や診断薬の性能などで多く使われるものになりますので、医療での検査を例に解説していきます。

下記は、ウイルスに感染しているかをAIが判断するモデルとします。
笑顔の人は健康な状態、目がバッテンで明らか体調の悪そうな人が病気の状態です。
アイコンの下の数字は陽性率を示します。

陽性率が低い人の中にも体調が悪そうな方がいますね。

このウイルスの感染の有無を2項分類したときに、「病気」とAIが判断する確率を陽性率とすると「真陽性率=AIが陽性と判断した中で本当に病気を患っている人の割合」、「偽陽性率=本当に陰性の人をAIが陽性と判断した割合」と定義できます。

無題のプレゼンテーション (12).png

では、陽性率が0.7以上の人を陽性とします。

無題のプレゼンテーション (13).png

このように赤枠で表示することができます。

ROC曲線とは、真陽性率(TP)を縦軸に、偽陽性率(FP)を横軸にした2次元のグラフのこと

この例であるならば、「AIが陽性と判断した中で本当に病気がある人の割合」が縦軸になり、「本当に陰性の人をAIが陽性と判断した割合」が横軸になり、偽陽性率は1/6、真陽性率は1/3となるわけです。

ROC曲線を実際に作成すると以下になります。

2021-05-06_15h45_57.png

曲線中にできた面積(図中の灰色の部分)がAUCになります。

AUCとは、ROC曲線を作成した時に、グラフの曲線より下の部分の面積をAUC(Area Under the Curve)のこと

AUCは0から1までの値をとり、値が1に近いほど優れた精度で分類ができていると言えます。

さいごに

簡単ではありますが、データ分析に関する評価指標について解説しました。

ぜひ、参考になれば幸いです。

この記事を書いた人

aws-recipe-user