Amazon SageMakerでpythonデータサイエンス入門その3

はじめに

本稿は Amazon SageMakerでPythonデータサイエンス入門 の連載記事になります。
その1. Amazon SageMaker の環境構築、事前準備、基礎分析と可視化について
その2. 線形回帰を用いたお弁当の売り上げ予測
その3. 決定木を用いた銀行の顧客ターゲティング ←本稿
以下の Udemy のコースをベースに記事を作成しています。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門

本稿の内容

・新しいデータの基礎分析
・決定木を用いた銀行の顧客ターゲティング
・パラメータチューニング
本稿を通して、Python を使用した基本的な決定木分析、パラメータのチューニングについて学べます。
※本稿はその1その2を読んだことを前提として進めていきます。

新しいデータの基礎分析

まずは、新しく使うデータの基礎分析を行います。
その1で作成した case2 フォルダーに新しい notebook を作成してください。

モジュールのインポートと設定

データの読み込み

testデータの確認
test の先頭行を確認する。

実行結果

test の行数と列数を確認する。

実行結果

test の欠損地を確認します。

実行結果

test 基礎統計量を確認します。

実行結果

trainデータの確認
trainの先頭行を確認します。

実行結果

trainの行数と列数を確認します。

実行結果

train の基礎統計量を確認します。

実行結果

train の欠損地を確認します。
ここでは各カラムに欠損地がいくつあるか表示して確認します。

実行結果

train で y が1の人数を確認します。

実行結果

marital と y のクロス集計
・集計
度数や割合で、集計したデータを要約することです。
数値ではなく、0、1というラベルデータの分布をみるときに便利です。
・クロス集計
集計したデータの設問を掛け合わせて、集計することです。
・クロス集計には pd.crosstab 関数を使います。
pd.crosstab 関数
()内に( X [” A “], X [” B “])と記述した場合、 A が縦列、 B が横列となります。  オプションで margins=True とすると、総計値のカラムを作成します。

実行結果

train の age をビニングする
・ビニング
数値データをグループ1(0より大きい、10以下)、グループ2(10より大きい、20以下)…のように集約することです。
・ビニングにはpd.cut関数を使います。
pd.cut 関数
()内にビニングしたいデータ、データの区切り方(例えば[0,10,20])の順で書きます。
・どう区切るか決めるために、age の基本統計量を確認します。

実行結果

結果から0,20,30,40,50,60,100で区切ることにします。

ビニング結果を確認します。

実行結果

age_bining と y のクロス集計

実行結果

train の poutcome と y のクロス集計の結果に rate を追加する
train のデータにある数値データと、質的データがいくつあるか調べます。

実行結果

poutcome と y のクロス集計をします。

train の poutcome の各値が1となる割合を計算し、 pout に 新たなカラム rate を追加する。 poutcome の各値の合計値から見た1の割合を求めるので、 pout[1] / pout[” All “] で求められる。

実行結果

train の duration と y のクロス集計の結果に rate を追加する
train の duration の基礎統計量を確認します。

実行結果

duration をビニングします。 区切り方は[-1,100,200,300,400,500,600,700,800,900,1000,5000]とします。

duration_bining と y でクロス集計をします。

実行結果

dura の各値が1となる割合を計算し、 dura に新たなカラム rate を追加します。

実行結果

決定木を用いた銀行の顧客ターゲティング

銀行の顧客ターゲティングを、機械学習の手法である、決定木を用いて行います。
新しいデータの基礎分析とは別の notebook を使用します。
インポートするモジュールが増えているので、別の notebook を使用することをお勧めします。

機械学習(Machine Learning)とは
データからパータンを学習し、パターンを発見したり、その結果を利用して将来を予測することです。
一般的に予測精度が高く、学習結果が複雑なことが多いです。
また、ハイパーパラメータと呼ばれる変数の調整(パラメータチューニング)が重要になります。
機械学習にはいくつかの種類があります。その中でも有名な2つについて説明します。
■教師あり学習
入力の正解となるデータがある機械学習。
学習データと結果になるデータをセットで学習する。
例えば、魚の画像を用意して、魚というラベルを付けます。
この画像は魚、という情報を機械に学習させることになります。
■教師なし学習
入力の正解となるデータがない機械学習。
正解となるラベルがないので、学習データを渡して、データの類似度や規則性に基づいて分類をすることになります。

決定木
質問に対する分岐(基本は2択)を階層的に作っていくことで、判別、回帰を行うモデル。
2択の分岐になるので、人間が理解しやすいです。
しかし、パラメータチューニングを上手にしないと過学習になりやすいです。
決定木モデルの例を以下に示します。
一番上のノードを根節点、途中のノードを決定節点、これ以上分かれないノードを葉節点といいます。

決定木モデルを作成してみよう

モジュールのインポートと設定

データの読み込み

trainの先頭行を確認します。

実行結果

train から説明変数の取り出し
説明変数は y 以外のすべてのカラムとします。
今までのようにカラムを1つ1つ選択するのは大変なので、ilocを使います。
iloc
[]内に[開始行:終了行,開始列:終了列]と書くことで、任意の範囲の行、列を指定できます。 開始から終了まですべてを取り出したい場合は、[:]で取り出せます。

trainXを表示してすべての行が代入されているか、確認します。

実行結果
実行結果が多いので、最後の部分のみ載せます。
27128 rows × 17 columns と表示されていることを確認しましょう。

test から説明変数の取り出し
test の先頭行を確認します。

実行結果

test には y がないので、すべてのカラムが説明変数となります。 すべてのカラムを代入するためにcopy関数を使用します。 単純にtestX = test としないのはプログラム的な観点のためです。

testX の中身を確認します。

実行結果
実行結果が多いので、最後の部分のみ載せます。
18083 rows × 17 columns と表示されていることを確認しましょう。

目的変数の取り出し
y を選択し、変数 y に代入します。

説明変数のダミー変数化。

説明変数がダミー変数化されているか確認します。

実行結果
実行結果が多いので、最後の部分のみ載せます。
27128 rows × 52 columns と表示されていることを確認しましょう。

実行結果
実行結果が多いので、最後の部分のみ載せます。
18083 rows × 52 columns と表示されていることを確認しましょう。

決定木モデルの作成
決定木モデルの箱を用意します。
変数名はclf1としてDecisionTreeClassifier(決定木分析)を代入します。 オプションとして、機械学習のパラメータを書きます。 今回は max_depth = 2 , min_samples_leaf=500 と書きます。

決定木モデルの作成。
fit関数を使用します。 ()の中には、説明変数、目的変数の順に書きます。

実行結果

作成した木の確認
決定木を可視化するために、決定木の図データをdotファイルで書き出します。
その後、dotファイルの中身をコピーしてこちらのサイトに貼り付けて、Generate Graph!を選択してください。
dotファイルの書き出しにはexport_graphviz関数を使います。
export_graphviz(clf1, out_file=”tree.dot”, feature_names=trainX.columns, class_names=[“0″,”1”], filled=True, rounded=True)と書きましょう。

可視化した木の確認。
ノードの見方
1. 分岐の条件
2. ジニ係数(偏り具合を表す)
3. 該当サンプル数
4. 該当サンプルの内訳[0の数、1の数]
5. 条件を満たした場合になんと判断するか(class = 0ということは、口座を開設しないという意味)

予測を行う
今回は1である確率を出す必要があるので、predict_proba関数を使います。
predict_proba関数
各データがそれぞれのクラスに所属する確率を返します。

pred の中身を確認します。

実行結果

左側が0、右側が1の確率です。
testXの1行目の人は、0.41565704の確率で銀行開設しない、逆に言えば0.58434296の確率で銀行を開設する、ということになります。
1となる確率を抜き出し、sample[1]に代入して、ファイル出力する。

SIGNATEに結果を投稿し、確認
こちらからSIGNATEのサイトを開いて、Competitionsを選択。

練習問題を選択。

下にスクロールして、銀行の顧客ターゲティングを選択。

投稿を選択。

ファイルは先ほど作成したsubmit1_bank.csvを選択。
メモにはmax_depth=2、min_samples_leaf=500と書いておきます。

これで投稿完了です。結果が出るまで2、3分待ちましょう。

結果が出ました。
ここでは評価が1に近づくほど精度が良いということになります。
このモデルの精度は0.74ほどなので、まだ精度を上げれます。

決定木のパラメータを変更してみよう

新たなモデルの箱を作成。
モデル名はclf2として、パラメータはmax_depth=4, min_samples_leaf=500として、モデルを作成します。

train と y を使って決定木のモデルを作成します。

実行結果

作成したモデルの可視化
先ほどと同様の手順で、モデルを確認します。

dotファイルの中身をコピーしてこちらのサイトに貼り付けて、Generate Graph!を選択してください。

予測を行います
ここから先の手順は先ほどの手順とほとんど同じなので、コードのみ記述します。

SIGNATEに結果を投稿し、確認
先ほどと同じ手順で SIGNATEにsubmit2_bank.csv を投稿する。
メモにはmax_depth=4、min_samples_leaf=500と書いておきます。

結果が出たら、結果の確認
モデルの精度は84ほどでした。
このようにパラメータを変えるだけで、精度はかなり変わってきます。
パラメータの調整は精度を上げるために、非常に重要ということがわかります。

パラメーターのチューニング

先ほど、パラメータの調整が重要ということがわかったので、さらにパラメータの調整を行います。

パラメータとは
・正確にはハイパーパラメータと呼ばれ、データに合わせて設定しなければならない値。

モデルが複雑になればなるほどパラメータ数は増加する傾向がある。
・先ほどまで設定していたパラメータは次のような意味を持ちます。

このパラメータを注意して調整しないと、過学習を起こしてしまう危険がある。
ここでは、過学習しているかしていないかの判別や最適なパラメータのチューニングを行う方法を紹介します。
データは先ほど使ったデータと同じデータを使用します。
データのチューニングは別の notebook で行います。
同じ notebook で作業を行う方は、モジュールのインポートと設定、データの読み込みを飛ばしてください。

モジュールのインポートと設定

データの読み込み

説明変数と目的変数の取り出し
trainX に説明変数として y 以外のカラムを代入します。
testX に testの全てのカラムが説明変数となるので、copy関数を使って取り出します。
y を選択し、変数 y に代入します。

説明変数をダミー変数化
trainX と testX をダミー変数化します。

決定木モデルの箱を作成
変数名を clf1 として DT() を代入します。 パラメータは、 max_depth=2 、 min_samples_leaf=500 とします。

クロスバリデーションで clf1 の精度を確認
クロスバリデーションとは
学習データをk個に分割し、検証をk回繰り返す。
つまり、k個に分割した学習データのうち、k-1個を学習データ(構築データ)としてモデルを作成し、精度を求め、そのモデルを使って、残り1個のデータ(検証データ)でも、精度を求めます。 この手順を他の組み合わせでも行い、k組の平均精度を算出。
この手順で構築データで作成したモデルと、作成したモデルを使った検証データでの精度に差がなければ、妥当性があるということで、過学習していないと推測できます。 クロスバリデーションには、cross_validate関数を使います。
cross_validate関数

オプションにはclf1、 trainX、 y、 cv=5、 scoring=”roc_auc” 、 n_jobs=-1 、return_train_score=True と書きます。

実行結果
train と test に注目すると、どの分割したデータに対してもおおよそ0.75あたりの精度が出ています。
train と test にもあまり差が発生していないので過学習はしていないと推測できます。

異なるパラメータでも精度を確認します。
パラメータをmax_depth=10, min_samples_leaf=500として、クロスバリデーションをします。

実行結果
精度はおおむね0.88くらいです。
先ほどと比べ、精度がかなり上がっています。
train と test の差も小さいので過学習をしていないと予測できます。

パラメータのチューニングを楽にしよう
今まで、パラメータをいちいち設定しなおして精度の確認をしてきましたが、それを楽にする方法がグリッドサーチです。

グリッドサーチとは
パラメータの範囲を指定し、その範囲をしらみつぶしに調べることで、最適なパラメータを探索することをグリッドサーチといいます。
グリッドサーチ+クロスバリデーションの組み合わせは良くパラメータ探索の方法として利用されます。 グリッドサーチ+クロスバリデーションはGridSearchCV関数を使います。
GridSearchCV関数

グリッドサーチに必要な変数の用意
決定木モデルの箱を用意します。
特にパラメータの設定はいりません。

探索するパラメータの範囲を変数に格納。
max_depth を2から10まで探索します。

range関数を使えば、もう少しスマートに書けます。
どちらを使っても構いませんが、range関数を使うことをお勧めします。
下記のプログラムは上記のプログラムと全くの同義です。

実際にGridSearchCVを使います
gcv にグリッドサーチの結果を代入し、fit関数を用いて、探索をします。

実行結果

グリッドサーチの結果を確認
cv_results_で結果を確認できます。

実行結果

cv_results_の中で重要な2つを確認します。
重要なのは[“mean_train_score”]と[“mean_test_score”]です。 それぞれの結果を変数train_score、test_scoreに代入しましょう。

train_score と test_score の可視化
x軸をmax_depth、y軸をauc(精度)としてグラフを描きます。
何も設定しないとx軸は0からスタートとなり、実際の値とずれてしまうので、調整が必要です。
調整をする為には、plt.xticks([0,1],[2,3])のように書きます。
上記のオプションの意味は何もしない時に0のものを2とし、1のものを3とする、という意味になります。
今回はmax_depthを2~10まで調べたので9点あります。