【AWS DataSync】オンプレミスからAmazon S3もしくはAmazon EFSへデータを転送するコツ

はじめに

今回はオンプレミスからAWSへのデータ転送に役立つAWS DataSyncをご紹介していきます。
一見、AmazonAIのアドベントカレンダーとは関係ないように思われるかもしれませんが、実はAIを活用する周辺のサービスとしては重要な役割があります。

そもそも、AIサービスを利用するにあたり、膨大なデータが必要です。
また、S3に保存しているデータをAIサービスと連携する、といったケースが一般的だと思いますが、以下の課題があるかと思います。

データは現状社内にあり、AIを活用するためにS3にデータを移動したいが、

  • 転送速度
  • コスト
  • 定期的にデータセットを転送しなくてはならない

そこで役に立つのがAWS DataSyncというわけです。それではさっそくどんなサービスか見ていきましょう。

2018-12-21_12h07_33.png

引用元:[AWS クラウドサービス活用資料集]AWS re:Invent 2018 アップデート速報【NEW!】

本記事の概要

  • AWS DataSyncの概要とユースケース、使用方法、最後に他のAWSデータ転送サービスの紹介までを記載しております
  • 使用方法として、オンプレミスからAmazon S3もしくはAmazon EFSへデータを転送する方法を解説します
  • AWS DataSyncについてざっくり記述してある記事になるため、他のサービスとの比較は行っておりません

AWS DataSync概要

AWS DataSyncとは、オンプレミスからAWS(Amazon S3 / Amazon EFS)へ、AWS(Amazon S3 / Amazon EFS)からオンプレミスへ、データの移動を簡単におこなえるマネージド型のデータ転送サービスです。

AWS DataSyncはオンプレミスにエージェントを導入することで使用可能です。
このエージェントを使用することで

  • 仮想マシンとしてデプロイされ
  • NFSプロトコルを介して既存のストレージに接続し
  • AWS DataSyncサービスとの間でデータの送受信

を行います。

AWS側のストレージはAmazon S3もしくはAmazon EFSを対象として設定が可能です。
また、データ転送に関連する多くのタスク等を設定することで簡単かつ高速なデータ転送による同期が実行されます。

ユースケース

  • データ移行
    • データセンターを閉鎖するか、ストレージアレイを廃止する場合など
  • ハイブリッドワークロードのためのデータ処理
    • 処理のために AWS の内外に移動する必要があるデータをオンプレミスシステムで生成または使用している場合など
  • データ保護
    • 大規模なネットワークアタッチトストレージ (NAS) システムを使用している場合など

料金

リージョン別料金 料金は、DataSync が利用可能なすべての AWS リージョンで同じです。
Amazon S3 または Amazon EFS との間でコピーされたデータ 0.04 USD/転送されたデータ 1 ギガバイト (GB)

※別途Amazon S3やAmazon EFSの料金が発生します。

引用元:AWS DataSync

使用方法

この記事では、オンプレミスからAmazon S3もしくはAmazon EFSへデータを転送する方法について、ご紹介します。
コンソールからAWS DataSyncを開き、[ Get started ]を選択します。
※AWS DataSyncを開始する前に、利用したいリージョンを選択しておきます。
※エージェントをデプロイするためのハードウェア要件は、AWS DataSync ハードウェア要件 を参照してください。
2018-12-21_14h08_02.png

エージェントの作成

オンプレミスからAWS / AWSからオンプレミスへのデータ転送方法を選択し、エージェントを作成していきます。
2018-12-21_14h14_10.png

まずエージェントをダウンロードし、必要事項を入力していきます。
2018-12-21_15h43_10.png

データ転送元の指定

2018-12-21_15h54_39.png

データ転送先の指定

2018-12-21_15h57_01.png

タスクの作成

ここではファイル管理や帯域幅の指定などのオプションを設定することが可能です。
2018-12-21_16h05_37.png

AWS DataSyncの実行

作成したタスクを実行すればすぐにデータ転送が始まります。
2018-12-21_16h12_00.png

さいごに

AWS DataSyncと類似しているサービスがいくつかあるので、用途や価格によってサービスを使い分ける必要がありそうです。
類似サービスについては簡単な比較と各サービスのリンクを下記に記載しておきます。

  • AWS Snowball
    • 大規模なデータ転送を物理的に行うサービス
  • AWS Snowmobile
    • 上述のAWS Snowballより更に大きなデータ転送を行うサービス
  • Kinesis Data Firehose
    • データの移動ではなく、ストリーミングデータを扱うサービス
  • S3 Transfer Acceleration
    • Amazon S3のみを対象としたサービス
  • EFS File Sync
    • Amazon EFSのみを対象としたサービス
  • AWS Storage Gateway
    • AWS DataSyncと違い、タスクでの処理ができない。 Amazon S3、Amazon Glacier、Amazon EBSを対象としたサービス