はじめに
この記事は株式会社ナレッジコミュニケーションが運営する クラウドAI by ナレコム Advent Calendar 2022 の 6日目にあたる記事になります。
今回はAWS が開催する re:Invent 2022 で発表されたデータカタログサービス「Amazon Data Zone」についてどんなサービスなのか調べてみました。
そもそもデータカタログとは
文字通りデータのカタログという意味なのですが、企業が取り扱うデータに対してバリエーションであったりどんなデータがあるのかなどを整理した機能を管理します。
データカタログでは構造化データだけでなく、非構造化データ(画像やセンサーデータなど)も管理の対象となります。
構造化データがメインの業務システムよりは範囲が広く管理されることになります。
データレイクの登場に合わせて、データの理解や取り扱うデータの整理が必須になってきている昨今、データカタログの必要性について注目する企業が増えてきています。
Amazon Data Zoneとは
Amazon Data ZoneはAWSや、オンプレミスだけでなくサードパーティのソースに保存されたデータを管理しデータカタログ化するサービスです。
具体的にはAWSサービスだとAmazon AthenaやAmazon Redshift、Amazon QuickSight、サードパーティ製品だとDatabricksやTableau、SnowflakeともAPI連携できます。
機能は主に以下の3つになるようです。
Amazon DataZone catalog
公開されたデータを検索して、アクセスをリクエストすることでデータの使用を開始。
Amazon DataZone projects
プロジェクトでデータの資産の管理や監視を実行。
Amazon DataZone portal
Web ベースのアプリケーションまたは API を介してビューで可視化。
【参考URL】
https://aws.amazon.com/jp/datazone/
おわりに
会場でもどよめきがあったAWSのデータカタログサービス、ついにきましたね。
フルマネージドサービスということもありAWSでのデータ分析が加速します!
2022/12月時点ではプレビューかつ日本語未対応ですが、活用していきたいですね。