大規模言語モデル(LLM)とは、多くの生成AIシステムの基盤であり、チャットボット、コーディングコパイロット、自律型エージェント、およびユーザーやエンタープライズデータと直接対話するその他のアプリケーションの展開を支えています。従来のソフトウェアシステムとは異なり、LLMは固定されたロジックパスや静的な入力で動作しません。LLMは確率的に出力を生成し、プロンプト、取得されたデータ、およびツールコールからコンテキストを引き出し、そして多くの場合、外部システムとリアルタイムで対話します。この柔軟性がLLMを価値あるものにしているものの、それはまた新たなAIセキュリティリスクにもつながっています。
LLMを採用する企業が増えている今、これらのシステムを保護することは、もはやニッチなAIの課題ではなく、企業が抱える中心的な課題となっています。従来のアプリケーションセキュリティは、明確に定義されたインターフェースを持つコードとインフラストラクチャを保護することに重点を置いています。LLMやAIセキュリティは、プロンプトインジェクション、トレーニングデータの漏洩、安全でないモデルへの入出力、および機密情報の意図しない拡散など、追加の脅威対象領域を考慮する必要があります。
しかし、LLMの動作はデータ、コンテキスト、およびランタイムインタラクションによって形成されるため、生成AIシステムを保護するには、従来のソフトウェアセキュリティプラクティスを超える制御が必要です。では、エンタープライズセキュリティチームがビジネスを新たなリスクにさらすことなく、LLMのポテンシャルを引き出すにはどうすればよいでしょうか?
LLMは、内部文書、顧客とのやり取り、ソースコード、および運用コンテキストなど、機密データを扱うエンタープライズアプリケーションにますます組み込まれてきています。これらのシステムを役立つものにするために、企業はしばしばLLMをエンタープライズのデータストアやワークフローに直接接続します。そしてその設計上の選択が特有のリスクを生み出しています。つまり、LLMは指示、データ、および出力を明確に分離せず、指定された実行パスに従うのではなく、動的に応答を生成します。その結果、従来のアプリケーションセキュリティ制御では検知できない方法で、機密情報が漏洩したり、悪用されたりする可能性があります。
最近のインシデントは、これらのリスクがどのように現実世界への影響につながるかを示しています。より高性能なモデルでは、自律性や、ツールおよびシステムへのアクセスを獲得するようになるにつれて、サイバーセキュリティリスクが高まり、誤用や意図しないデータ漏洩の可能性が増大しています。企業で使用されているエンタープライズコパイロットの実際の脆弱性は、これらのリスクがどのように具現化するかを示しており、Microsoft 365 Copilotのゼロクリック問題(「EchoLeak」、CVE-2025-32711)では、巧妙に細工されたメールがユーザーの操作なしに機密データの漏洩を可能にできることが実証されています。
また、学術研究では、モデルが後で取得または処理するコンテンツに隠された指示を埋め込む間接プロンプトインジェクションが、モデルの動作を操作し、意図しないアクションや情報開示への経路を作り出す可能性があることも示されています。これは特に、ツールを使用したりウェブを閲覧したりするエージェントに当てはまります。
LLMは、モデルがどのように入力を解釈し、コンテキストを保持し、データやツールと対話するかによって、従来のアプリケーションの脅威を超えるセキュリティリスクをもたらします。表1は、企業が生成AIシステムを導入する際に理解しておくべき、最も一般的なLLMセキュリティリスクをまとめたものです。
表1. 一般的なLLMセキュリティリスク
リスクの種類 | 説明 | シナリオ例 |
|---|---|---|
プロンプトインジェクション | ユーザー入力を操作して、モデルやAIエージェントの動作を変更する | 攻撃者が安全制御を回避するプロンプトを作成し、モデルにコンテンツフィルターやシステム指示を無視させる。 |
間接プロンプト | モデルが後で処理するコンテンツに隠された指示を埋め込む | 文書やウェブページに隠された指示が含まれており、LLMを騙して要約時に企業の機密データを出力させる。 |
データポイズニング | トレーニングデータやファインチューニングデータを破損させ、結果に偏りを生じさせる | 悪意のある攻撃者が、企業モデルのトレーニングや適応に使用されるデータセットに有害または誤解を招くコンテンツを埋め込む。 |
メモリポイズニング | AIエージェントのメモリに偽のデータを注入して、将来の行動に影響を与える。 | 悪意のある攻撃者が時間をかけてエージェントを操作し、変更された銀行のルーティング情報を「記憶」させ、後でそれを繰り返させる。 |
モデルの盗用 | モデルの重みや動作をリバースエンジニアリングまたは抽出する | 攻撃者がAPIを繰り返しプローブして、独自にファインチューニングしたモデルを再構築する。 |
リソース枯渇 | モデルまたはエージェントのリソースを使い果たして、DoS(サービス拒否)を引き起こす | 自動化されたリクエストがAIを活用したカスタマーサポートシステムに殺到し、実際のユーザーが利用できなくなる。 |
不正アクセス | モデル、基盤となるデータ、またはエージェントの権限へのアクセス権を取得する | 攻撃者がエージェントの権限を悪用して、内部の顧客記録やシステムデータを取得する。 |
コード実行 | モデルの出力を使用して、悪意のあるコードをトリガーする | 生成されたスクリプトやコマンドが自動的に実行され、ダウンストリームシステムで安全でないコードが実行される |
LLMアプリケーションを保護するには、モデルへのアクセス方法、モデルへのデータの入出力方法、そしてその動作を長期にわたり監視する方法に対処する多層的なアプローチが必要です。企業は、LLMを従来のソフトウェアコンポーネントのように扱うのではなく、生成AIシステムの動的でデータ駆動型の性質を反映したセキュリティ制御を行う必要があります。具体的には、以下をご覧ください。
アクセス制御: ロールベースのアクセス、強力な認証、ユーザーガバナンスを適用して、モデルや基盤となるデータと対話できるユーザーを制限し、AIエージェント自体が持つ権限を強力に制御することで、不正アクセスのリスクを低減します。
入力のフィルタリングとサニタイズ: プロンプト、取得したコンテンツ、ツール入力をチェックおよびサニタイズして、プロンプトインジェクションや間接的なプロンプト攻撃への露出を減らします。
出力のモデレーション: 結果がユーザーまたはダウンストリームシステムに返される前に、モデルの出力をスキャンして、機密情報、ポリシー違反、または悪意のあるコンテンツがないか確認します。
安全なモデルホスティング: ネットワークセグメンテーションと最小権限構成を備えた、信頼できる強化された環境でモデルとサポートインフラストラクチャを実行します。
監査とモニタリング: モデルのインタラクション、ツール呼び出し、データアクセスの詳細なログを維持して、異常な動作を検出し、調査をサポートします。
モデルファインチューニングのガバナンス: ファインチューニングのデータセットとプロセスを監視して、データの品質、来歴、セキュリティを検証し、汚染された、または不適切なトレーニングデータの影響を抑制します。
リスクのモニタリング: データ漏洩や業務への影響につながる前に、リスクの高いモデルやAIエージェントのアクティビティを継続的に特定および数値化し、ポリシー違反や異常なパターンにフラグを立てます。
トレーニングデータの整合性は、モデルの安全性に直接影響します。侵害されたデータや機密性の高いデータ、またはガバナンスが不十分なデータは、偏りのある結果、プライバシー侵害、または有害な動作を引き起こすバックドアにつながる可能性があります。トレーニングデータとファインチューニングソースをしっかりと管理しなければ、企業はLLMにすでに存在する脆弱性を増幅させるリスクを負います。
以下で、リスクを軽減するためにトレーニングデータを管理する方法をいくつか紹介します。
機密データや専有データをトレーニングセットから除外する: トレーニング中に内部情報や規制対象情報を公開すると、モデルがそのデータを不注意に記憶し、後で漏洩する可能性が高まります。例えば、多くのAI企業で、公開リポジトリに認証情報が表示された際にAPIキー、モデルアクセストークン、内部トレーニングデータを誤って公開してしまい、開発プロセスの早い段階で、安全でないデータ管理によるリスクが生じてしまうという状況が生じました。
データポイズニングの防止: トレーニングデータセットの意図的または偶発的な破損により、有害な動作やバックドアがモデルに埋め込まれる可能性があります。攻撃者は、トレーニングデータに悪意のあるドキュメントをほんの少し紛れ込ませるだけで、モデルの動作を大幅に変えることができます。
データソースの分類と管理: 構造化されたデータの検出と分類を行うことで、機密情報をインベントリ化し、トレーニングパイプラインへの侵入を防ぎます。データの分類は、チームがどのようなデータがどこに存在し、セキュリティポリシーの下でどのように扱われるべきかを理解するのに役立ちます。
トレーニング前のデータの匿名化とサニタイズ: 匿名化技術を活用し、データセットから直接識別子を削除することで、モデル学習に有用なパターンを維持しながらプライバシーリスクを低減します。
データの品質とリネージの監視: トレーニングデータの来歴と変換履歴を追跡し、ファインチューニングやモデル適応に使用される前に、重複、誤ったラベル付け、または不正なコンテンツなどの問題を検出します。
LLMのセキュリティは、企業が生成AIの利用を拡大する中で、規模拡大の前提条件となっています。エンタープライズシステムや機密データと対話するモデルは、データ漏洩や不正使用からエージェント主導の権限乱用に至るまで、企業が正面から取り組む必要のある新たなリスク経路をもたらします。
Rubrikの広範なデータセキュリティおよびポスチャ管理機能は、LLMアプリケーションに供給されるデータに可視性と制御をもたらすことで、企業がこのエクスポージャーを軽減するのに役立ちます。企業は、LLMが本番環境に統合された際に、脅威を検出し、ポリシーを適用し、影響範囲を制限するためのコンテキストを把握する必要があります。そしてこれは、機密データを特定し、その保存場所を追跡し、アクセス方法を監視することで達成できます。
Rubrik Agent Cloudは、このアプローチをAIエージェント自体に拡張し、エージェントの行動、ツールの使用、データアクセスを一元的に監視します。この可視性により、チームはリスクの高いエージェントのアクティビティを特定し、異常なパターンを発見し、エージェントがエンタープライズシステムとどのように対話するかを管理することができため、LLM導入で最も急増しているリスク分野の1つに対処することができるようになります。
生成AIが進化し続ける中、企業にはそれとともに進化するセキュリティ戦略が必要です。RubrikのAI機能は、強力なデータセキュリティ、ガバナンス、運用レジリエンスを維持すると同時に価値を提供することのできるLLMを活用したシステムの構築をサポートします。