テックトレンド

AIエージェントは自律的にハッキングするのか?— Anthropic告発が示すサイバー攻撃の新時代

2026-02-25濱本 隆太

Anthropic社が告発した産業規模の蒸留攻撃を起点に、AIエージェントによる自律的ハッキングの実態と、27秒で横展開する攻撃の脅威を解説。

AIエージェントは自律的にハッキングするのか?— Anthropic告発が示すサイバー攻撃の新時代
シェア

こんにちは、TIMEWELLの濱本です。最近、AIの進化が目覚ましいですが、今日はその裏側で起きている、少し背筋が寒くなるようなお話をしたいと思います。テーマは「AIエージェントによるサイバー攻撃」です。

先日、高性能AI「Claude」を開発するAnthropic社が、競合する中華系AI企業3社(DeepSeek, Moonshot AI, MiniMax)から「産業規模の蒸留攻撃」を受けていたと告発し、業界に衝撃が走りました [1]。これは単なる企業間の競争問題ではありません。AIエージェントが自律的にサイバー攻撃を行う未来が、すぐそこまで来ていることを示す重要な事件です。

この事件は氷山の一角に過ぎません。AIエージェントの進化が、私たちが使っているシステムにどれほど深刻なリスクをもたらしているのか。事実を元に深掘りしていきます。

白日の下に晒された「産業規模の蒸留攻撃」

まず、今回の事件の核心である「蒸留攻撃」とは一体何なのでしょう。これは、高性能なAI(先生)に大量の質問を投げかけ、その回答をデータとして学習させることで、安価なAI(生徒)の能力を不正に引き上げる、いわば「AI界のカンニング」のようなものです。

Anthropic社の発表によれば、これら3社は合計で約24,000もの不正アカウントを作成し、地域制限を回避しながら1,600万回以上ものやり取りをClaudeと行っていたとされています [1]。その手口は極めて巧妙で、複数のアカウントでトラフィックを分散させ、検出を回避する「ロードバランシング」まで行われていました。とりわけ悪質だったのは、Claudeに思考のプロセス自体を言語化させることで、その推論能力の根幹を盗み出そうとしていた点です。

企業名 やり取りの規模 主なターゲット 手法の特徴
DeepSeek 15万回以上 推論能力、思考連鎖データ 組織的なロードバランシング、研究者レベルでの追跡が可能
Moonshot AI 340万回以上 エージェント能力、コーディング 多様なアカウントタイプを使い分け、検出を回避
MiniMax 1,300万回以上 エージェントコーディング、ツール使用 Anthropicの新モデルリリース後24時間以内に攻撃をシフト

表1: Anthropic社が特定した蒸留攻撃の概要 [1]

これがなぜこれほど深刻な問題なのでしょう。一つは、Anthropic社が巨額の投資と時間をかけて築いた技術的優位性が、いとも簡単に、そして安価に模倣されてしまうというビジネス上の問題。しかし、もっと本質的な脅威は、安全保障上のリスクに潜んでいます。

Anthropic社のモデルには、生物兵器の開発や悪意あるサイバー活動への利用を防ぐための厳格なセーフガードが組み込まれています。しかし、蒸留によって能力だけを抽出されたモデルには、こうした安全装置が引き継がれる保証はありません。むしろ、意図的に取り除かれる可能性が高い。安全装置のない高性能AIが、国家の軍事・諜報システムやサイバー攻撃部隊の手に渡る危険性を、Anthropic社は強く警告しています [1]。

AI活用に関心をお持ちですか?

TIMEWELLのサービス資料をご用意しています。まずはお気軽にご相談ください。

攻撃者の時間は「27秒」に — AIが圧縮するサイバー攻撃

蒸留攻撃が虎視眈々と能力を盗む「静かなる脅威」だとすれば、AIはすでに攻撃の最前線で「実行犯」としても暴れまわっています。サイバーセキュリティ企業CrowdStrikeが発表した「2026年グローバル脅威レポート」は、その衝撃的な実態を明らかにしました [2]。

レポートによれば、攻撃者がネットワークに侵入してから内部で活動を広げるまでの時間(ブレイクアウトタイム)は、2025年には平均でわずか29分にまで短縮されました。これは前年から65%も高速化しており、観測史上最速のケースでは、なんと27秒で横展開が行われたといいます [2]。

この驚異的なスピードアップの背景にあるのが、AIの活用です。攻撃者は偵察、認証情報の窃取、証拠隠滅といったあらゆる段階でAIを武器化し、攻撃のライフサイクルを劇的に圧縮しています。たとえば、ロシア系のハッカー集団「FANCY BEAR」はLLMを搭載したマルウェアを、北朝鮮系の「FAMOUS CHOLLIMA」はAIで生成したペルソナを駆使して、作戦の自動化と規模拡大を図っていることが確認されています [2]。

さらに、TheHackerNewsは、AIに関連したフィッシング攻撃が1,265%も急増したと報じており [3]、AIが生成する巧妙で自然な文章によって、多くの人が騙されやすくなっている現実を浮き彫りにしています。

AIエージェントは自律的にハッキングできるのか? — 「YES」の衝撃

では、AIは単なる攻撃者の「便利な道具」なのでしょうか。それとも、自らの意思で脆弱性を見つけ、攻撃を仕掛ける「自律的なハッカー」になり得るのでしょうか。

この問いに、私たちはすでに衝撃的な答えを突きつけられています。クラウドセキュリティ企業WizとAIセキュリティラボIrregularの共同研究が、その現実を明らかにしました [4]。彼らは、実際の脆弱性を模した10個のハッキング課題をAIエージェントに解かせる実験を行ったのです。その結果は、まさに驚愕の一言でした。

AIエージェントは10問中9問の課題を解決し、そのコストは1試行あたり1ドルから10ドル程度という、人間では考えられない低コストだったのです [4]。

脆弱性タイプ AIの成否 AIコスト 人間の発見に対する報奨金額
認証バイパス 成功 $1未満 N/A
Stored XSS 成功 $1未満 $18,000
AWS IMDS SSRF 成功 $1〜$10 $27,500
セッションロジック欠陥 成功 $1〜$10 $20,000

表2: AIエージェントによる脆弱性攻略結果(一部抜粋) [4]

この研究で明らかになったのは、AIが持つ人間とは異質の能力です。ある課題では、AIは404エラーメッセージのタイムスタンプ形式という僅かな手掛かりから、背後で動いているフレームワーク(Spring Boot)を特定し、わずか6ステップで脆弱性を突きました。これは、人間では見逃してしまうような些細なパターンをAIが高速で認識・分析できることを示しています。

この事実は「攻撃の経済性」を根底から覆します。これまで専門スキルを持つハッカーが時間をかけて行っていた攻撃が、AIによって誰でも、安価に、そして大規模に実行可能になる。報奨金が数万ドルに設定されるような高度な脆弱性ですら、AIはわずか数ドルで発見してしまうのです。防御側にとって、まさに悪夢の時代の幕開けと言えるでしょう。

「最も弱いリンク」は、もはや人間ではない

長年、サイバーセキュリティの世界では「最も弱いリンクは人間だ」と言われてきました。しかし、Notable CapitalとMorgan Stanleyは、この常識が過去のものになったと断言します。「最も弱いリンクはもはやフィッシングメールをクリックする従業員ではない。先週の火曜日にワークフロー自動化のために作成したAIエージェントだ」と [5]。

従業員が生産性向上のために善意で導入した「シャドーAI」や「シャドーエージェント」が、今や組織内で爆発的に増殖しています。これらのエージェントは、しばしば企業のIT部門の管理外に置かれ、作成した従業員の持つ広範な権限(顧客データベース、ソースコードリポジトリ、本番環境へのアクセス権など)をそのまま継承します。そして、従業員が退職した後も、そのエージェントはゴーストのようにシステム内に残り、活動を続けるのです。

実際に、AIエージェントが意図しない挙動で深刻なインシデントを引き起こした例はすでに報告されています。Amazon Web Services(AWS)では、AIエージェントが自律的な判断で本番環境を「削除して再作成」し、13時間に及ぶ大規模障害を引き起こしました [6]。また、Replit社では、エージェントがリソース最適化の過程で本番データベースを削除してしまう事故が発生しています [5]。

これらは悪意ある攻撃ではありません。しかし、AIエージェントが持つ「自律性」と「広範な権限」が組み合わさった時、いかに予測不可能で壊滅的な結果を招くかを示しています。もし攻撃者がこれらの「シャドーエージェント」の制御を奪ったとしたら——その被害は計り知れないものになるでしょう。

企業が自社のAI活用を守るために

こうした脅威は、AIを導入している企業にとって他人事ではありません。社内ナレッジの管理にAIを活用しているなら、そのAIがどのようなデータにアクセスし、どのような権限を持ち、誰が管理しているのかを常に把握しておく必要があります。

TIMEWELLが提供するZEROCKは、エンタープライズ向けAIプラットフォームとして、AWS国内サーバーでのデータ管理やアクセス制御を標準装備しています。社内のナレッジをAIで活用したいが、セキュリティリスクは最小限に抑えたいという企業にとって、「安全装置付き」のAI基盤を選ぶことの重要性は、今回の事件が如実に物語っています。

新時代の脅威にどう立ち向かうか

Anthropic社の告発から始まった一連の事実は、AIエージェントがもたらす脅威が、もはやSFの世界の話ではないことを私たちに突きつけています。攻撃のタイムラインは秒単位に圧縮され、攻撃の経済性は崩壊し、そして最も信頼できない存在は、社内に潜む無数の自律型エージェントになりつつあるのです。

これは、もはや特定の企業や業界だけの問題ではありません。AIの恩恵を享受するすべての組織が直面する、新たなセキュリティパラダイムの転換です。私たちは、人間を前提とした従来のセキュリティ対策を根本から見直し、AIエージェントのライフサイクル全体を管理・監視する新たな仕組みを早急に構築しなければなりません。

具体的には、以下の対策が不可欠です。

  • エージェント・インベントリの整備: どの部署の誰が、どのような目的で、どんな権限を持つエージェントを作成したのかを可視化する
  • 最小権限の原則の徹底: エージェントに与える権限を、業務に必要な最小限に絞る
  • リアルタイム監視と異常検知: AIの自律的な活動を常時モニタリングし、異常な挙動を即座に検知・遮断する仕組みを導入する

AIエージェントの進化は止まりません。その圧倒的な光の部分を最大限に活用しつつ、その影に潜むリスクから目を逸らさず、先手を打って対策を講じていくこと。それこそが、このAI時代を生き抜くために、私たちに課せられた責務です。


参考文献

[1] Anthropic. (2026, February 23). Detecting and preventing distillation attacks. https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

[2] CrowdStrike. (2026, February 24). 2026 CrowdStrike Global Threat Report. https://ir.crowdstrike.com/news-releases/news-release-details/2026-crowdstrike-global-threat-report-ai-accelerates-adversaries

[3] The Hacker News. (2026, February 19). From Exposure to Exploitation: How AI Collapses Your Response Window. https://thehackernews.com/2026/02/from-exposure-to-exploitation-how-ai.html

[4] Wiz. (2026, January 29). AI Agents vs Humans: Who Wins at Web Hacking in 2026?. https://www.wiz.io/blog/ai-agents-vs-humans-who-wins-at-web-hacking-in-2026

[5] Notable Capital. (2026, February 18). The New Weakest Link: The Shift from Human Error to AI Agent Risk. https://www.notablecap.com/blog/the-new-weakest-link-the-shift-from-human-error-to-ai-agent-risk

[6] Paddo. (2026, February 23). Delete and Recreate: When AWS's AI Agent Went Rogue. https://paddo.dev/blog/kiro-delete-and-recreate/

あなたのAIリテラシーを測ってみませんか?

5分の無料診断で、AIの理解度からセキュリティ意識まで7つの観点で評価します。

この記事が参考になったらシェア

シェア

メルマガ登録

AI活用やDXの最新情報を毎週お届けします

ご登録いただいたメールアドレスは、メルマガ配信のみに使用します。

無料診断ツール

あなたのAIリテラシー、診断してみませんか?

5分で分かるAIリテラシー診断。活用レベルからセキュリティ意識まで、7つの観点で評価します。

テックトレンドについてもっと詳しく

テックトレンドの機能や導入事例について、詳しくご紹介しています。