この記事は、re:Invent2018にて紹介されたサービスの1つであるAWS FSx for Lustre についての概要が、「AWS Training and Certification」にて公開されているのでこちらを翻訳しながら紹介していきたいと思います。
コンテンツへのアクセス方法はこちらに記載しています。
Introduction to AWS FSx for Lustre
Amazon FSx for Lustreとはフルマネージド型のファイルシステムで、機械学習やメディア処理など、ハイパフォーマンスなコンピュータ処理も可能です。また、ハイパフォーマンスはSSDストレージを搭載しているため、高スループット・低レイテンシな環境が用意されています。また、既存のAWSサービスとの連携も可能なため、セキュリティやコンプライアンス面も十分対応しております。
Lustreの特徴について紹介したいと思います。世界のトップ100のコンピュータのうち、60%がこのLustreを取り入れております。
・スケーラブルなファイルシステム
・マルチコンピュータクラスタ
・テラバイト/秒以上のスループット tens of thousands of nodes
・数百ものサーバに数十ペタバイトのストレージ容量を搭載
・テラバイト/秒のスループット
Lustreの一番の特徴はparallel distributed file sysytemです。以下の様な特徴があります。
・高スループット、低レイテンシによる大量のデータ処理が可能
・データをマルチネットワークで保管しているので、数千のPCインスタンスの同時アクセスにも対応
Benefits
Lustre file sysytemを利用することで主に6つのメリットを得ることが出来ます。
・ハイパフォーマンスなファイルシステムを搭載
・S3内の既存のデータセットとのシームレスな統合が可能
・EC2インスタンスとストレージのシェアが可能
・PCIDSSやISOに準拠したセキュリティとコンプライアンス
・CLIやSDK、またはコンソール画面から簡単にLutstre file systemの作成が可能
・従量課金での使用が可能
1つ目のメリットとして、非常にスケーラブルなパフォーマンスを有しているといった特徴があります。
・100+ GiB /秒ものスループット
・数百万IOPS搭載
・大量のデータ処理を高スループット・低レイテンシの環境で実行可能
2つ目はS3との統合です。
・S3内のデータセットとのリンクが簡単に可能
・Lustre file systemに自動的にS3内のデータを提供可能
・S3より取得したデータを解析した後に、その結果をS3へ再び戻すことが可能
3つ目はアプリケーションとの統合です。
・数千のEC2インスタンスの同時アクセスも可能
・Linuxの既存システムを変更せずとも使用可能
・ファイルの管理や読み書きの結果整合性も行う
4つ目はセキュリティです。
・データの暗号化による保護
・セキュリティグループやIAMなど既存のセキュリテイサービスを利用可能
・国際基準のセキュリティとコンプライアンスを備えている
5つ目はフルマネージドな環境であることです。
・ハードウェアのプロビジョニングからセットアップ、マネージまで管理
・データの入出力の動きを管理
・Lustreソフトウェアの設定も管理
6つ目のメリットは、コストメリットという点です。
・従量課金での利用が可能で、最低限の利用といった設定も無い
・S3にて低コストでデータのストレージが可能
・低コストで最適なパフォーマンスを生むよう設定
ユースケース
上記のようなメリットがあるため、Windows FSx for Lustreは、HPCのような大規模なCPU演算が必要な処理や、高スループット・低レイテンシな環境が重要となる機械学習、そして大量のデータと画像処理が必要となるメディア処理・ビデオレンダリング作業などでの利用を想定しております。
おわりに
AWS FSx for Lustreについての紹介は以上です。フルマネージドでありながら非常に高いスループットと低レイテンシ機能を備えているLustreの登場で、今後の機械学習の分野の研究がますます発展していきそうですね!