DAIS2024 セッションレポート【 Databricks SQLによるデータウェアハウスのパフォーマンス、スケール、およびセキュリティ】

はじめに

Databricksのイベント「Databricks Data + AI Summit 2024」において、行われたセッションを記事にしています。
本記事では、「DATA WAREHOUSING PERFORMANCE, SCALE AND SECURITY WITH DATABRICKS SQL」というセッションについてまとめ、Databricks SQLが提供するパフォーマンス、スケール、セキュリティのベストプラクティスについて詳しく解説します。

ナレッジコミュニケーションではイベント開催に伴い、「生成AIの最新トレンドと業界別ビジネスインパクト」をコンセプトに最新アップデート情報やセッションレポートをお届けする特設サイトを公開しておりますのでぜひチェックしてください!

特設サイトURL:https://www.knowledgecommunication.jp/product/databricks-data-ai-summit-2024.html

■パフォーマンスの向上

AIエンジンによる最適化

Databricks SQLのAIエンジンは、データから学び、予測最適化を行います。これにより、テーブル、パーティション、データレイアウトの詳細な統計を収集し、ファイルサイズの最適化や不要なデータの削除を自動的に行います。

データ取得とリキッドクラスタリング

データの取得プロセスでは、クラウドストレージからデータを迅速に取得するための計画が立てられます。リキッドクラスタリングと予測I/Oを活用することで、ポイントルックアップを迅速に行うことが可能です。

フォトンエンジン

フォトンエンジンは、インメモリで動作するベクトル化実行エンジンを用いて、クエリの高速化を実現します。GPUなどの最適化技術を利用して、コード変更なしにクエリを高速化できます。

インテリジェントワークロード管理

多数のクエリが発生する場合、インテリジェントなワークロード管理機能が活躍します。サーバーレス機能を利用して、クエリのレイテンシーを保護し、オートスケーリングを行います。

■可観測性の向上

システムテーブルを活用したコスト管理

Databricks SQLには4つのシステムテーブルがあり、これを活用してコストコントロールやリソース管理を行います。特定のクエリのパフォーマンス問題やユーザーエクスペリエンスの監視も行います。長時間稼働しているウェアハウスや週末に稼働しているウェアハウスについてアラートを設定し、異常なリソース使用を通知します。

■セキュリティの強化

アクセスとガバナンス

シングルサインオン(SSO)を設定し、多要素認証(MFA)を有効にすることで、セキュリティを確保しながら簡単にアクセスを提供します。また、アイデンティティを同期させることで、ユーザーとツールのアクセス管理を簡素化します。データへのアクセス制御も行い、行レベルセキュリティやカラムレベルマスキングを実現します。

ネットワークセキュリティ

プライベートリンクやIPアクセスリストを使用して、認証にネットワーク制御を追加します。また、サーバーレスコンピューティングがストレージやインターネットにアクセスする際のセキュリティも確保します。これにより、外部からの不正アクセスを防ぎ、データの安全性を高めます。

コンプライアンス

Databricksは主要な認証を持ち、HIPAAやPCIなどの規制基準を満たすための設定を提供します。これにより、規制データを安全に処理するための対策が簡単に実装できます。コンプライアンスプロファイルを設定することで、必要な基準を自動的に満たすことができ、誤設定を防ぎます。

■Databricks Champion からのコメント

Databricks は Liquid クラスタリングや、Serverless などユーザが煩わしく感じる部分への対応がとても上手だと感じます。オールサーバレス化も発表されたので、セキュリティやコストを監視しつつ、ユーザはクラスタの存在を全く意識せずにエンジニアリングに没頭できることになりそうで非常に楽しみです。

■まとめ

Databricks SQLを活用することで、データウェアハウスのパフォーマンス、可観測性、セキュリティを向上させることができます。以下のポイントを実践することが重要です:

  1. パフォーマンス:予測最適化を有効にし、リキッドクラスタリングを使用し、サーバーレスオートスケーリングを利用する。
  2. 可観測性:システムテーブルを使用してコストとパフォーマンスを監視し、必要なアラートを設定する。
  3. セキュリティ:SSOとMFAを設定し、アイデンティティを同期し、ネットワークセキュリティを強化する。また、コンプライアンス基準を満たす設定を行う。

これらのベストプラクティスを実践することで、効率的で安全なデータウェアハウス運用を実現できます。

この記事を書いた人

aws-recipe-user