この記事について
先日開催された、AWS Summit 2025に参加してきました!
そこで、「AI アプリケーションのためのデータエンジニアリング戦略 – Amazon Bedrock で実現する構造化データ活用」というAWS セッションを聴講してきたので、本記事ではこのセッションの内容である、Amazon Bedrockを活用した構造化データの効果的な活用方法について簡単にまとめたいと思います。
目次
1. セッション概要
2. 生成AI時代におけるデータの重要性
3. 構造化データ活用の課題
4. NL2SQLの難しさ
5. Amazon Bedrock Knowledge Basesによる構造化データ活用
6. AIエージェントとの連携
7. まとめ
参考資料
1. はじめに
このセッションは、生成AIや Retrieval-Augmented Generation(以下、RAG)についてある程度知識がある方を対象に、特に構造化データを生成AIでどう活用するかという点にフォーカスした内容で、以下のような方々に向けたセッションとなっていました。
- すでに生成AIアプリケーションを構築し、機能拡張を検討している方
- データ活用の範囲を拡大したいと考えている方
- 生成AIを利用して社内のデータ活用を推進したい方
セッションを通じて、非構造化データだけでなく構造化データに対して生成AIを適用するための考え方と、Amazon Bedrockを用いた実践的なアプローチについての理解を深めることができました。
2. 生成AI時代におけるデータの重要性
Amazonの長年のAI・ML活用経験から、「自社にしかないデータ」を活用することが、生成AI時代の差別化要因であると強調されました。
現在は誰でもプロンプトを書くことに慣れ、APIを通じて簡単に生成AIを利用できる時代です。
そんな中で企業が差別化を図るには、「自社にしかないデータ」をカスタマイズして活用することが鍵となることが述べられていました。
事例:セゾンテクノロジー社
セッション内では、セゾンテクノロジー社の事例が紹介されました。
同社はファイル転送ツール「HULFT」の開発・販売を手掛けていますが、長年蓄積された膨大なマニュアルやFAQ、問い合わせ履歴などのデータにどのようにして素早くアクセスさせるのか、が課題となっていました。
そこで、Amazon Bedrockを用いたRAGシステムを構築した結果、以下の成果を得られました。
- サポートエンジニアの回答作成時間を最大30%短縮
- Amazon Bedrockを用いたRAGシステムをベースとした「HULFT Square AI アシスタント」を社内全部門に展開し、80%のユーザー満足度と24%の業務効率向上を実現
この事例からも、自社独自のデータと生成AIを組み合わせることの価値があることがわかります。
データ基盤の重要性
生成AIを活用するには、企業内のデータ基盤・データパイプラインが重要です。
従来のデータ基盤に加え、生成AI時代では以下の要素が追加されます。
- 非構造化データへの投資増加
- 生成AIが扱えるようにするためのデータ処理コンポーネント
生成AIの登場によって企業のデータ基盤は変化しますが、多様で高品質な社内データを収集し、アクセス可能にするという根本的な重要性は変わりません。
3. 構造化データ活用の課題
セッションでは、RAGアプリケーションにおける非構造化データと構造化データの違いについて説明がありました。
非構造化データのRAGフロー
一般的な非構造化データ(ドキュメントなど)を活用したRAGの流れは以下の通りです。
- ドキュメントデータをベクトル化(埋め込み生成モデルを使用)
- ベクトルデータをベクトルデータストアに格納
- ユーザーの質問をベクトル化
- 意味的に関連性の高いドキュメントをベクトル検索で取得(セマンティックサーチ)
- 取得したドキュメント内容とユーザー質問をプロンプトに含めてLLMに入力
- 最終的な回答を生成
構造化データの課題
非構造化データであれば、上記のような埋め込みベクトルによるセマンティックサーチが王道的なアプローチになります。
しかし、企業では非構造化データだけでなく、以下のような構造化データも多く保有しています。
- 小売業:商品の注文や売上データ
- 製造業:工場の稼働データ
- 経理システム:財務データ
このような構造化データを生成AIで活用する際には、非構造化データとは異なるアプローチが必要になります。
4. NL2SQLの難しさ
構造化データを生成AIで活用するためには、自然言語をSQL(構造化クエリ言語)に変換する「NL2SQL」のアプローチが有効です。
しかし、以下の課題があります。
-
スキーマ構造の理解:
- どんなテーブルがあるか
- テーブルの構造がどうなっているか
- テーブル間の関連性はどうなっているか
-
データの中身の理解:
- 実際のデータがどのような形式で格納されているか
- 国名か国コードかなど、実データの形式を把握する必要がある
-
SQLの文法や方言の理解:
- 正確なSQLを生成するための文法理解
- データベース製品ごとの方言の違いへの対応
セッションでは、これらの課題を示す具体例がいくつか紹介されました。
例えば、単純に「条件に合った学校数を数えるSQL」を生成した結果と、実際のデータベースで動作する正確なSQLの違いや、データの格納形式(国名vs国コード)による問題などが示されました。
また、実装や試行錯誤を行う手間やコストが必要になってしまう問題にも触れられていました。
5. Amazon Bedrock Knowledge Basesによる構造化データ活用
これまでの課題を解決し、構造化データを簡単に活用できるようにするのが「Amazon Bedrock Knowledge Bases」の構造化データ取得機能です。
「Amazon Bedrock Knowledge Bases」は、自然言語クエリをSQLに変換し、構造化データベースからデータを取得する機能を提供しています。
これにより、NL2SQLの課題を軽減し、構造化データの活用が容易になります。
Amazon Bedrock Knowledge Bases の機能概要
この機能は以下のようなフローで動作します。
- ユーザーが自然言語で質問
- Amazon Bedrock Knowledge Basesがデータベースのメタデータを参照
- パーソナライズされたSQLクエリを生成
- 構造化データベースでクエリを実行
- 結果を取得し、LLMで自然言語の回答に変換
Amazon Bedrock Knowledge Bases の仕組み
Amazon Bedrock Knowledge Basesの構造化データ取得機能は以下の特徴を持っています。
- 独自の NL2SQL エンジンを搭載している。
- データベースのメタデータに自動的にアクセスすることができる。
- 過去に実行されたクエリログを分析し、使用しているクエリエンジンのSQL方言を理解することができる。
- クエリ設定オプションによるカスタマイズ機能がある。
- 会話のセッション管理機能が搭載されており、データベースのやり取りがより自然かつ直感的に実現できる。
デモから見る活用方法
セッション中に実施された 1 つ目のデモでは、「AnyCompany 社」という架空のオンラインショッピングサービスを例にしたデモが紹介されました。
デモには以下のポイントがありました。
- チャット形式で自然言語による問い合わせが可能
- 「2025年5月に最も売れた商品は何ですか?」という質問に対して、適切なSQLを自動生成
- 会話のコンテキストを理解し、「それの在庫はどれくらいありますか?」という質問にも対応
- データ書き換えや削除などの危険なクエリは自動的にブロック
さらに、クエリ設定のオプションを使ってカスタマイズすることも可能です:
- テーブルや列に対して明示的な説明文を追加
- SQL生成の対象テーブルの指定
- よくある質問と対応するSQLクエリのセットを事前登録
データの書き換えや削除に関するクエリを入力した場合に関しては、以下のような表示が出ることもデモで確認することができました。
6. AIエージェントとの連携
Amazon Bedrock Knowledge Basesをさらに発展させた使い方として、AIエージェントとの連携について 2 つ目のデモとして紹介されました。
Amazon Bedrock Agentsの概要
Amazon Bedrock Agentsは、複雑なタスクを理解し、オーケストレーションのためによりシンプルなタスクに分解できる自律型エージェントを構築できます。Knowledge Basesと連携することで、構造化データと非構造化データの両方を活用した柔軟なデータ活用のワークフローを構築可能です。
以下のような特徴があります。
- 数ステップで複雑なタスクをこなすエージェントを構築可能
- Amazon Bedrock Knowledge Basesと統合済み
- 簡単なセットアップですぐに利用開始可能
複数のナレッジベースの連携
デモでは、構造化データと非構造化データの両方を活用するために、複数のナレッジベースを連携させるAIエージェントの例が紹介されました。
- 「2025年5月に最も売れた商品は?」という質問 → 構造化データのナレッジベースを呼び出し
- 「返品ポリシーについて教えて」という質問 → 非構造化データのナレッジベースを呼び出し
このように質問内容に応じて適切なナレッジベースを自動的に選択し、回答を生成するエージェントを簡単に構築できます。
7. まとめ
セッションの要点をまとめると、以下のようになっています。
- 生成AI時代の競争優位性は、企業内のすべてのデータを効果的に活用できるかにかかっている。
- 構造化・非構造化を問わず、データの価値を引き出すには企業のデータ基盤が重要。
- 構造化データの生成AI活用には、NL2SQLが鍵となる技術だが、様々な課題がある。
- Amazon Bedrock Knowledge Basesの構造化データ取得機能を使えば、実装の負担を軽減しながら、これらの課題を解決できる。
- Amazon Bedrock Agentsと連携することで、より柔軟なデータ活用のワークフローを構築可能。
データの種類を問わず、企業が持つデータの価値を最大化するために、Amazon Bedrockの活用は大きな可能性を秘めています。
参考資料
- セゾンテクノロジー、Amazon Bedrock を活用して高精度かつハルシネーションがない HULFT Square のアシスタント機能を開発。80% のユーザー満足度と 24% の業務効率向上を実現
- Enterprise-grade natural language to SQL generation using LLMs: Balancing accuracy, latency, and scale
- Amazon Bedrock エージェントとナレッジベースを使用して、完全に自動化されたチャットベースのアシスタントを開発する
© 2025, Amazon Web Service, Inc. or its affiliates. All rights reserved.