Amazon SageMaker いじってみた2

Pocket

こんにちは。
たいしゅうです。
前回は、Sagemakerいじってみた1としてベースとなるノートブックインスタンスを作成するところまで紹介しましたが、今回はその続きで、Jupiterノートブックを使って、S3にデータをアップロードする方法を紹介したいと思います。

S3バケット作成

まずは、データを入れるためのS3バケットを作成していきます。
S3バケットを作成するうえで、注意する点が1点あります。
それは、バケット名に「Sagemaker」を含めることです。こうすることでノートブックインスタンスを作成する際に設定をしたデフォルトで設定されているIAMポリシーでSagemakerがS3バケットにアクセスする権限を付与することができます。

Jupiterノートブック作成

前回作成したノートブックインスタンスにJupiterノートブックを作成します。
ノートブックを作成するには、Filesタブの右上New▼をクリックします。下記画像参照


次に、今回はPython3を使うのでプルダウンから「Python3」を選択します。下記画像参照

これで、Python3のコードを書くためのノートブックが作成完了しました。
次に以下のコードをノートブックに入力して、先にセットアップをしているIAMロールを取得します。

—————–コードここから——————-

—————–コードここまで——————-
‘bucket-name’
→ここに先に作成してあるSagemakerが含まれてるバケット名を入力します。

次に以下のコードを実行すると
指定したWEBサイトからMNISTデータセットをダウンロードしてきます。
ダウンロードした圧縮ファイルを解凍し、ファイル内のモデルトレーニング用のデータセット、モデルトレーニング後に検証するためのデータセットのデータセットをノートブックのメモリに読み込みます。

—————–コードここから——————-

—————–コードここまで——————-

次に以下のコードを入力することで
先ほど読み込んだデータセットを調べることができます。
通常この段階で、データセットを調べてデータ加工を実施しますが、今回はデータセット内の画像を表示します。
—————–コードここから——————-

—————–コードここまで——————-

以下のコードでは、データフォーマットを変換し、S3にデータをアップロードします。

—————–コードここまで——————-

ノートブックを使って、S3にアップロードすることができました。
次回は、アップロードをしたデータをトレーニングしていきたいと思います。