はじめに
この記事は株式会社ナレッジコミュニケーションが運営する Advent Calendar 2025 の18日目にあたる記事になります!https://qiita.com/advent-calendar/2025/knowcom-cloudai
2025年11月30日からラスベガスで開催された「AWS re:Invent 2025」。生成AI(GenAI)関連の発表が大きな盛り上がりを見せる中、データ分析・活用基盤の分野でも非常に実践的かつインパクトのあるアップデートが発表されました。
その一つが、AWS Clean Rooms に新たに追加された 「プライバシー強化型合成データ生成(Privacy-enhancing synthetic dataset generation)」 機能です。
企業や組織をまたいだデータ活用において、常に最大の障壁となるのが「プライバシー保護」と「データ精度の維持」のトレードオフです。 「精度の高い機械学習モデルを作りたいが、そのために必要な詳細な生データ(Raw Data)は、セキュリティやコンプライアンスの観点から相手に渡せない」——多くのデータエンジニアやデータサイエンティストが直面してきたこのジレンマに対し、AWSは今回、「元のデータの統計的特徴を維持したまま、架空のデータ(合成データ)を生成する」というアプローチで解決策を提示しました。
本記事では、この新機能が従来の匿名化手法と何が違うのか、そしてどのようにして「機密データを共有せずにMLモデルのトレーニング」を実現しているのか、その概要と仕組みを解説します。それらを通して、この新機能がデータ活用の現場で実際にどれほど有効であり、今後の展開に期待できるものなのかを示したいと思います。
新機能の概要
AI・機械学習のプロジェクトにおいて、モデルの精度を高めるためには、粒度の細かい「行レベル(個人単位)のデータ」が不可欠です。特に、自社データだけでなくパートナー企業が持つデータを掛け合わせることで、顧客行動の予測や不正検知の精度は飛躍的に向上します。
しかし、ここには大きな壁が存在します。個人情報保護における規制強化により、「分析のために生データ(Raw Data)を他社に渡す」ことは、コンプライアンス上、困難になっています。「高精度なモデルを作るには詳細なデータが必要だが、プライバシーを守るためには詳細を隠さなければならない」 といった「データの有用性(Utility)」と「プライバシー(Privacy)」のトレードオフこそが、多くの企業にとってのボトルネックとなっていました。
このジレンマを解消するために、AWS Clean Rooms に追加されたのが 「MLモデルトレーニング用のプライバシー強化型合成データ生成」 です。
そもそも AWS Clean Rooms とは
互いのデータを相手に渡す(コピー・移動する)ことなく、安全な環境下で結合・分析できるサービスです。これまでは主にSQLによる集計分析に使われてきましたが、今回のアップデートで機械学習モデルの学習に本格対応しました。
従来の手法(マスキング・匿名化):
従来の手法では、元データの名前や住所を隠すだけでした。行データ自体は実在の人物のものであるため、他のデータと照合することで個人が特定されるリスク(再識別リスク)が残り、情報を隠すほどデータの相関関係が崩れ、MLモデルの精度が落ちてしまいます。
**今回の新機能(合成データ): **
元データの統計的なパターン(相関関係や分布)」だけを学習し、それに基づいてゼロから「架空のデータ」を生成します。
つまり、実在しない人物のデータ(プライバシー侵害リスクはほぼゼロ)」でありながら、「データ全体の傾向は本物と同じ(分析精度は高い)という、理想的な学習用データセットを作り出すことができるのです。
これにより、企業はコンプライアンスを遵守したまま、共同で高精度な機械学習モデル(回帰や分類)をトレーニングすることが可能になります。
仕組み
では、実際にAWS Clean Roomsの中でどのような処理が行われているのでしょうか。ここでは、あるECサイト企業(仮)の「顧客データ」を例に、その変換プロセスを追ってみましょう。
まず、企業が持っているオリジナルのデータです。ここには実在する顧客の機微な情報が含まれているため、そのまま社外の分析パートナーに渡すことはできません。
| 顧客ID | 年齢 | 居住地 | 年収 | 過去の購入額 | ターゲット |
|---|---|---|---|---|---|
| A001 (田中) | 35 | 東京都 | 600万 | 5万円 | 買う (1) |
| A002 (佐藤) | 28 | 大阪府 | 450万 | 1万円 | 買わない (0) |
| A003 (鈴木) | 42 | 北海道 | 550万 | 3万円 | 買う (1) |
このまま共有すると、「A001の田中さんは年収600万」という事実が特定されてしまいます。
このデータをAWS Clean Roomsの新機能(合成データ生成)にかけると、以下の3ステップで処理が進みます。
ステップ①:
統計パターンの学習(”人”ではなく”ルール”を覚える) システムは、個々の「田中さん」や「佐藤さん」を記憶するのではなく、データ全体に潜む 「傾向(統計的な相関関係)」 だけを抽出して学習モデルを作成します。
システムの学習イメージ:
「30代・東京在住・年収500万以上の層は、購入確率が高い傾向がある」
「20代で過去の購入額が低い層は、あまり買わない」
「年収と年齢は、ある程度比例して増える相関がある」
ステップ②:
架空の人物の生成(サンプリング) 学習したルール(確率分布)に基づいて、ゼロからサイコロを振るように架空の人物のレコードを生成します。
システムの生成イメージ:
「学習した分布に基づき、1人生成しよう…年齢36歳、神奈川県在住、年収580万という属性が出た」
「この属性の場合、さっきのルールに照らし合わせると『買う』可能性が高いな。ターゲットは『1』に設定しよう」
ステップ③:
プライバシー保護(ノイズ付加と暗記防止) ここで重要なのが、偶然、実在の田中さんと全く同じデータが生成されないようにする、という安全策です。
ノイズの付加: 数値をあえて微小にずらすことで、特定のリスクを拡散させます。
過学習(暗記)の防止: AIが元のデータを丸暗記していないかチェックし、実在のデータと酷似しすぎているレコードは排除または修正します。
処理が完了すると、以下のようなデータセットが出力されます。
| 顧客ID | 年齢 | 居住地 | 年収 | 過去の購入額 | ターゲット |
|---|---|---|---|---|---|
| syn_001 | 36 | 神奈川 | 580万 | 4.8万円 | 買う (1) |
| syn_002 | 29 | 京都府 | 420万 | 1.2万円 | 買わない (0) |
| syn_003 | 41 | 東京都 | 530万 | 3.2万円 | 買う (1) |
このデータのポイントは以下の3点です。
-
実在しない: syn_001 という人物は現実世界には存在しません。
-
傾向は同じ: 「年齢が高めで年収がある人は買う」という元のデータが持っていた統計的特徴(相関)は維持されています。
-
安全: これを誰に見せても、実在の田中さんのプライバシーが漏れることはありません。
この「合成データ」であれば、安全に分析パートナーへ渡すことができます。
-
学習(Training): パートナーは、このフェイクデータを使って「どういう人が商品を買うか」という購買予測AIモデルを学習させます。
-
適用(Inference): 出来上がった学習済みモデル(重みパラメータ)を、ECサイト企業内の本物のデータに対して適用します。
「データの傾向」はコピーされているため、フェイクデータで訓練したAIであっても、本番データに対して高い精度で予測が可能になるのです。
利点・期待される効果
この新機能は、長年「コンプライアンス」の壁によって分断されていた企業間のデータ連携に対し、新たな可能性をもたらすものと考えられます。
これまで、多くの企業が規制やリスクを考慮して断念せざるを得なかったデータ連携ですが、合成データという技術的アプローチが実用化されたことで、以下のような効果が期待できるでしょう。
-
「持ち出し不可」だったデータの価値化 これまで「社外秘」として厳重に保管され、自社内での利用にとどまっていた機密データが、プライバシーリスクを排除した安全な形で、分析やモデル開発のテーブルに乗る可能性を期待できます。
-
モデル精度の向上の可能性 自社データだけでは捉えきれなかった傾向が、パートナーのデータを掛け合わせることで補完される可能性があります。その結果、機械学習モデルの予測精度の向上が期待できます。
こうした効果が特に期待される領域の一つとして、極めて機密性の高いデータを扱う金融業界が挙げられます。
近年、マネーロンダリングやクレジットカードの不正利用は巧妙化しており、複数の金融機関をまたいで行われるケースが増えています。 A銀行とBカード会社が互いの顧客データを持ち寄れば、不正の全体像が見える可能性が高いものの、口座残高や決済履歴といった極めてセンシティブな個人情報を共有することは、法規制や信用の観点から非常にハードルが高いのが現状です。
AWS Clean Rooms の合成データ生成を活用することで、こうした状況にブレイクスルーが生まれるかもしれません。
両社は Clean Rooms 内でデータを突き合わせますが、そこから出力されるのは、実在しない架空の顧客データ(合成データ)です。ここには「どの顧客がいくら使ったか」という事実は含まれませんが、「不正利用をするユーザー特有の取引パターン(金額、頻度、場所などの相関関係)」は維持される仕組みです。そこで金融機関は、この合成データを教師データとして学習させることで、顧客のプライバシーを守りつつ、業界横断的なデータに基づいた「より精度の高い不正検知AIモデル」を構築できる可能性があります。
まとめ
本記事では、AWS re:Invent 2025で発表された「プライバシー強化型合成データ生成」について、その仕組みと可能性を解説してきました。
冒頭で触れた通り、これまでのデータ活用現場では「高精度なモデルを作りたい」というニーズと、「データを渡せない」というコンプライアンスにおけるジレンマが生じていました。しかし、今回紹介した、「実在しないデータであれば、安全かつ有用である」という第三の選択肢は、このジレンマに対する有効なアプローチと考えられます。
より自由なデータ連携が可能になる、そんなワクワクする未来を感じさせてくれる技術であると筆者も感じております。
以上

