今回は天候データをAmazon Machine Learningに流し込み3つの方法(二項分類、多項分類、回帰分析)で天気予測をしてみます。
今回は第4回として1-3回に渡って作成したモデルたちの有用性について確認してみました。
評価について
各モデルの評価で出てきたAUC, F1値, RMSEについて公式ドキュメントを読んでみましょう。
http://docs.aws.amazon.com/machine-learning/latest/dg/evaluating_models.html
ちなみに機械学習など専門用語が多い文章はGoogle翻訳でもかなり読みやすく訳してくれます。
https://translate.google.co.jp/translate?hl=ja&sl=en&tl=ja&u=http%3A%2F%2Fdocs.aws.amazon.com%2Fmachine-learning%2Flatest%2Fdg%2Fevaluating_models.html
アルゴリズム | スコア | 範囲 | 値について | 備考 |
二項分類 | AUC | 0から1 | 1に近いほど良い | 0.5=ランダムと同等 |
多項分類 | F1 Score | 0から1 | 1に近いほど良い | |
回帰分析 | RMSE | 0以上 | 0に近いほど良い |
※どの数値も◯に近いほど良いとありますが、近すぎる場合には正しくない可能性があります。
答え合わせ編
では、今回の結果が良かったかというのを見るには、どのようにしたらいいでしょうか?
実は上記のどの数値も、それぞれの評価方法に対してどの程度かを表しており、本当に利用できるかどうかは値を見て判断する必要があります。
今回は気象庁のデータなので、気象庁の情報と比較してみます。
天候については情報が無いですが、以下に「降水の有無」「気温」についての記載があります。
http://www.data.jma.go.jp/fcd/yoho/kensho/explanation.html
http://www.data.jma.go.jp/fcd/yoho/data/kensho/HPdata1504/szc_1504.html
にあるデータを見ると、降水有無の的中率は地方によってばらつきはありますが概ね80%程度、気温については平均ではなく最高/最低ですが、RMSEは概ね2.0程度となっております。
今回AMLで検証した結果を見ると
降水有無の的中率 75% (気象庁データ 80%)
平均気温予想のRMSE 3.9 (気象庁データ 2.0)
となっておりました。
これが良いか、悪いかという点ですが、実際の天気予報には天気図や様々な観測データから行っているのに対して、今回に用いた属性情報(アトリビュート)は「年月日 日照時間(時間)、平均湿度(%)、平均蒸気圧(hPa)、平均雲量(10分比)、天気概況(夜:18時〜翌日06時)、天気概況(昼:06時〜18時)、平均気温(℃)、最高気温(℃)、最高気温(℃) 時分 、最低気温(℃)、最低気温(℃) 時分、降水量の合計(mm)、1時間降水量の最大(mm)、1時間降水量の最大(mm) 時分、平均風速(m/s)」などだけなので、各項目を予測するには充分なデータで無いとも考えられます。
また、実際に利用する際には上記の数値だけで判断するのではなく、結果の値が求める範囲と思われるかどうかを判断する必要があります。例えば前回の気温予測では、気温が4℃や6℃も定期的に外れるんだと、そもそも使えないのでは?と言った点です。
ただし、モデルが出来て終了ではなく、チューニングなどを行うことで変化する事は充分に確認できました。
次回は最終回として、今回のまとめとなります。
ナレコムクラウドでは機械学習を含めたAIやロボットといった事に興味があるエンジニアを募集しております。未経験の方でも興味がある方はお気軽にお問い合せ下さい。
◯Amazon Machine Learning
第1回
Amazon Machine Learningを理解するために3つの方法で天気予測をしてみた(二項分類編)
第2回
Amazon Machine Learningを理解するために3つの方法で天気予測をしてみた(多項分類編)
第3回
Amazon Machine Learningを理解するために3つの方法で天気予測をしてみた(回帰分析編)