テックトレンド

Stripeの「Minions」が見せた、自律型エージェントのリアル

2026-02-24濱本 隆太

Stripeが公開した自律型コーディングエージェント「Minions」の全貌と、Google・Microsoft・OpenAI・Anthropicなど各社のAIエージェント最前線を徹底解説。週1,000件以上のPRを無人で生成する仕組みとは。

Stripeの「Minions」が見せた、自律型エージェントのリアル
シェア

こんにちは、TIMEWELLの濱本です。今日はテック関連のサービスご紹介です。

テーマは「自律型AIエージェント」。ここ1年ほどで、ソフトウェア開発の世界は完全に景色が変わりました。AIがコードを補完してくれる時代はもう終わりつつあります。今起きているのは、開発者が指示を出したら、AIが自分でタスクを計画し、コードを書き、テストを走らせ、失敗したら自分で直す。そこまでやってくれるエージェントの登場です。

この流れを象徴する出来事が、2026年2月にありました。決済プラットフォームの巨人Stripeが、社内で運用している自律型コーディングエージェント「Minions」の詳細をブログで公開したのです。週に1,000件以上のプルリクエストが、人間の手を一切借りずにAIだけで生成されている。この事実は、私を含め多くのエンジニアに衝撃を与えました。

そこで気になったのが、「Stripe以外はどうなのか」ということ。Google、Microsoft、Amazon、OpenAI、Anthropicといった大手から、Cognition AIのようなスタートアップまで、片っ端から調べてみました。かなりの長文になりますが、お付き合いいただけると嬉しいです。

Stripeの「Minions」が見せた、自律型エージェントのリアル

Stripeが2026年2月9日に公開したブログ記事のタイトルは「Minions: Stripe's one-shot, end-to-end coding agents」。直訳すれば「一発完了型のエンドツーエンド・コーディングエージェント」です。

Minionsは完全無人で動きます。開発者がSlackのスレッドで「このバグを直して」とメンションするだけで、エージェントが自律的に作業を開始し、最終的にはCI(継続的インテグレーション)のテストをすべてパスしたプルリクエストを提出してくれる。その間、人間は何もしなくていい。これがStripeで毎日起きている光景だというのだから驚きます。

数字で言えば、毎週1,000件以上のプルリクエストがMinionsによって自動生成され、マージされています。最終レビューは人間のエンジニアが行いますが、コード自体は100%AI産。エンジニアは複数のMinionsを同時に起動して、細かいタスクを並列処理させることもできるそうです。オンコール当番中に溜まった小さなIssueを一気に片付ける、なんて使い方もされているとのこと。

なぜ自社開発だったのか

世の中にはCursorやClaude Codeなど、優秀なAIコーディングツールがいくらでもあります。それなのに、なぜStripeは自前でエージェントを作ったのか。

理由はシンプルで、Stripeのコードベースが特殊すぎるからです。

Stripeのシステムは数億行のコードで構成されています。バックエンドの大半は、Ruby on Railsではなく独自のRuby実装で、Sorbetという型付けシステムを使っている。これだけでもかなり珍しいスタックですが、さらに社内専用のライブラリが山のようにあり、外部のLLMはそれらを学習していません。

そしてもう一つ、年間1兆ドルを超える決済を処理しているという事実。たった一つのバグが世界中のビジネスに影響を及ぼしかねない環境で、汎用的なAIツールにコードを任せるわけにはいかなかったのです。金融機関との複雑な依存関係や、各国の規制・コンプライアンス要件もコードレベルで遵守しなければなりません。

Stripeの設計思想は明快です。「人間にとって良いものは、LLMにとっても良い」。人間のエンジニアが使うのと同じツールや環境をMinionsにも提供する。長年投資してきた開発者生産性向上ツールと密に連携させることで、この難題を解決しました。

Minionsの動作の仕組み

Minionsの自律的なタスク遂行を支えているのは、巧妙に設計された3つの仕組みです。

まず、隔離された開発環境「devbox」。Stripeのエンジニアが普段使うものと同じ環境が、10秒で起動します。コードやサービスがプリロードされた状態で、本番環境やインターネットからは完全に隔離されている。だから人間の許可なく安全にコードを実行できます。

次に、エージェントループとツール連携。中核にはBlock社が開発したオープンソースのエージェント「goose」のフォークが使われています。Stripeはこれを独自にカスタマイズし、LLMの創造的な推論と、git操作やテスト実行といった確定的な処理を組み合わせました。ここが面白いところで、社内外の400以上のツールをAPIとして呼び出せる「Toolshed」という基盤を、Model Context Protocol(MCP)を介して利用しています。Minionsは社内ドキュメントを読んだり、ビルド状況を確認したり、まるで人間のエンジニアのように状況判断ができるわけです。

そして、フィードバックループによる自己修正。Minionsは「一発で完了」を目指しますが、失敗から学ぶ仕組みも持っています。コードをプッシュすると、まず5秒以内に完了する高速なローカルテストが走る。これをパスすると、300万以上あるテストの中から関連性の高いものがCI上で実行されます。テストが失敗しても、自動修正機能が備わっているものは即座に適用。それでもダメなら、失敗情報がMinionsにフィードバックされ、自らコードを修正して再挑戦します。ただし、CIの実行は最大2回まで。「フィードバックをできるだけ早く、開発プロセスの早い段階で返す」というShift-left feedbackの思想が、Minionsの効率性を支えています。

正直なところ、ここまで洗練されたシステムを社内で構築・運用しているという事実には素直に感嘆しました。Minionsは単なるコード生成ツールではない。年間1兆ドルの決済という巨大なプレッシャーの中で、自律的に動くエンジニアリングシステムそのものです。

AI活用に関心をお持ちですか?

TIMEWELLのサービス資料をご用意しています。まずはお気軽にご相談ください。

各社が鎬を削る自律型AIエージェント開発の最前線

StripeのMinionsが示した未来は、彼らだけのものではありません。主要なテック企業が、次世代のソフトウェア開発の覇権を握るべく、自律型AIエージェントに巨額の投資を行っています。アプローチは様々ですが、方向性は共通している。開発者を反復的な作業から解放し、より創造的な問題解決に集中させること。

開発プラットフォームを握る巨人たち

ソフトウェア開発のエコシステムを長年支配してきた企業は、その牙城であるIDEやクラウドプラットフォームにAIエージェントを深く統合することで、開発者体験そのものを再定義しようとしています。

GitHub Copilot Workspaceは、Microsoftの本気度を示す存在です。2025年4月にテクニカルプレビューが公開されたこの機能は、従来のコード補完を遥かに超えています。開発者がGitHubのIssueに「こういう機能を追加したい」と自然言語で書くだけで、Copilot Workspaceが仕様策定、ファイル特定、コーディング、テスト実行、プルリクエスト作成までを自律的にやってくれる。エージェントはサンドボックス環境で動作し、開発者はいつでも計画や実行過程を確認・修正できます。AIが「補完ツール」から「チームメンバー」に進化する。GitHubという開発の中心地でこの体験を提供するMicrosoftの戦略は、なかなか巧みだと思います。

Amazon Q Developerは、AWSとの連携を最大の武器にしています。もともとCodeWhispererとして提供されていたコード補完機能が、より広範な開発者アシスタントへと進化しました。「S3バケットに画像をアップロードするLambda関数を書いて」といったAWS特有のタスクを自然言語で指示するだけで、最適なコードが生成される。脆弱性スキャンやコード最適化の提案、AWSのベストプラクティスに関する質問応答まで対応します。Amazon社内では既に数千ものAIエージェントが活用されているそうで、その知見がフィードバックされているのは大きな強みでしょう。

Google DeepMindのアプローチは少し毛色が違います。2023年12月に発表されたAlphaCode 2は、競技プログラミングという極限の問題解決領域で、人間のコンテスト参加者の85%を上回る成績を叩き出しました。Geminiを基盤に、大量のコード候補を生成してフィルタリング、クラスタリング、スコアリングするという探索メカニズムが特徴です。2025年5月に発表されたAlphaEvolveはさらに踏み込んで、AIが自らアルゴリズムを発見・進化させる「進化的コーディングエージェント」。4x4の複素数行列乗算で、長年知られていた最良のアルゴリズムを改善するという成果を上げています。目先の開発効率化ではなく、知的生産のフロンティアそのものを押し広げようという野心が見えます。

LLM開発企業が仕掛ける次世代コーディングパートナー

ChatGPTやClaudeといったLLMそのものを開発する企業は、最先端のモデル能力を活かして、より高度で汎用的なコーディングエージェントを目指しています。

OpenAIが2026年2月に発表したCodex Appは、macOS向けのネイティブアプリケーションです。クラウド上のAIと対話するだけでなく、ローカル環境で複数のAIエージェントを同時に実行し、協調させて長期的なタスクをこなせる。GPT-5.2-Codexを搭載し、ソフトウェアの設計から保守までの全ライフサイクルをサポートします。FigmaのデザインからUIコードを生成したり、プロジェクト管理ツールLinearのタスクを更新したり、クラウドサービスにデプロイしたりと、コーディング以外の周辺タスクも「スキル」として実行可能。単一のプロンプトから700万トークン以上を使ってレーシングゲームをまるごと開発した事例が報告されています。リリース以降、Codex全体の利用量は2倍に増加し、直近1ヶ月で100万人以上の開発者が利用したとのこと。

AnthropicのClaude Codeは、独自のポジションを築いています。コードベース全体を理解し、複数のファイルやツールを横断してタスクを自律的に実行する能力を持つ。個人的に衝撃を受けたのは、Anthropic社内でClaude Code自体のコードの約90%が、Claude Code自身によって書かれているという事実です。AIがAIを開発する「自己増殖」が、もう始まっている。技術面では、Stripeも採用するModel Context Protocol(MCP)を介してJiraやSlackと連携でき、プロジェクトごとにCLAUDE.mdという設定ファイルでエージェントの振る舞いをカスタマイズできます。Netflixがバグ修正に活用している事例も報告されています。

Cognition AIのDevinは、2024年に突如現れて業界を騒然とさせました。「世界初の自律型AIソフトウェアエンジニア」という大胆な看板を掲げ、曖昧な要求を受け取ると自らタスクを計画し、未知の技術やAPIについてドキュメントを読んで学習し、コーディングからデプロイまでを一気通貫で行います。Goldman Sachsでの導入事例や、大手ITコンサルティング企業Cognizantとの提携が発表され、エンタープライズ領域での実用化が急速に進んでいます。2025年のパフォーマンスレビューでは、問題解決速度が4倍、リソース効率が2倍に向上したと発表されました。作成したプルリクエストの67%がマージされるという数字も出ています。

余談ですが、MetaとHarvard大学が2026年1月に発表した「Confucius Code Agent(CCA)」も興味深い存在です。単に強力なモデルを使うだけでなく、エージェント自体のアーキテクチャ設計を重視するアプローチを取っています。AIモデルが扱う情報を管理する「エージェントエクスペリエンス」、人間が監視する「ユーザーエクスペリエンス」、エージェントを改善するための「デベロッパーエクスペリエンス」という3つの側面を明確に分離した設計が特徴で、SWE-Bench-Proベンチマークで54.3%という高い解決率を達成しています。

現場発、実践的なエージェントたち

巨大テック企業だけが主役ではありません。開発の現場から生まれたニーズに応えるユニークなエージェントも登場しています。

CursorのCursor Agentは、マルチエージェント・アーキテクチャという新しい設計思想を提案しています。単一の強力なエージェントに頼るのではなく、「Planner(計画担当)」が開発タスク全体を計画・分割し、多数の「Worker(実行担当)」が個別のコーディング作業を並行して実行する。この役割分担が、大規模プロジェクトでもエージェント間の競合を避けた効率的な開発を可能にしています。Salesforceでは2万人以上の開発者がCursorを利用し、90%以上が活用しているとのこと。AIエージェントのみでWebブラウザ(100万行以上)やWindows 7エミュレータ(120万行以上)を構築した実験結果も報告されており、そのスケーラビリティには目を見張るものがあります。

BlockのGooseは、Stripeがフォークして利用していることでも知られるオープンソースの自律型エージェントです。開発者がエージェントを完全にコントロールできることを哲学としており、ローカル環境で動作するため機密性の高いコードを外部に送信する必要がありません。好みのLLMを接続したり、独自のツールやAPIと連携させたり、自由に拡張できる。Block社内では、数ヶ月かかっていたGoogle Docs拡張機能の開発を30分で完了させた事例もあるそうです。オープンソースという選択肢が、企業独自のニーズに合わせたカスタマイズを加速させる好例だと考えています。

UberのAutoCoverは、テストコード生成という具体的な課題に特化したエージェントです。テストコードの作成は品質担保に不可欠ですが、開発者にとっては時間のかかる反復作業でもある。AutoCoverは複数のサブエージェントが連携し、テストの雛形作成からコード生成、実行、失敗時の修正までを自律的に行います。累計で開発者の作業時間を21,000時間削減し、5,000人のエンジニアが利用しているという数字は、特定ドメインに特化したエージェントが明確なROIを生み出せることの証明です。

コーディングを超えた自律化の波

AIエージェントの応用範囲は、コーディングだけに留まりません。

Salesforceが2024年9月に発表したAgentforceは、営業、サービス、マーケティングといったビジネスプロセスそのものを自動化する自律型エージェントです。Data Cloudに統合された膨大な顧客データを活用し、問い合わせへの自動回答や見込み客への商品提案を自律的に実行します。ローコードでカスタマイズできるため、現場の担当者が業務に合わせたエージェントを作れるのが特徴。導入企業のWiley社では、ケース解決率が40%以上向上したと報告されています。Salesforceは「2025年末までに10億のエージェントを稼働させる」という目標を掲げています。

Appleも2026年2月、Xcode 26.3で「agentic coding」機能を搭載しました。Apple自身がエージェント本体を作るのではなく、MCPを介してAnthropicのClaude AgentやOpenAIのCodexといった外部エージェントをXcodeに統合するアプローチです。自前主義のイメージが強いAppleが、エージェントについてはオープンなプロトコルでサードパティと連携する道を選んだ。ここにも、この技術領域の変化の速さと、単独では対応しきれないほどの進化の幅広さが表れていると感じます。

ここまでの各社の動向を一覧にしておきます。

企業 エージェント名 特徴 主な成果
Stripe Minions 完全無人、ワンショット完了型 週1,000件以上のPR自動生成
Microsoft/GitHub Copilot Workspace IssueからPRまで開発全体を自律実行 テクニカルプレビュー段階
Amazon Q Developer AWSサービスとの緊密な連携 社内で数千のAIエージェント活用
Google DeepMind AlphaCode 2 / AlphaEvolve アルゴリズム発見・進化 競技プログラミングで上位85%
OpenAI Codex App macOSネイティブ、マルチエージェント協調 月間100万人以上が利用
Anthropic Claude Code 自己生成能力、MCP連携 自身のコードの90%を自己生成
Cognition AI Devin 自律型AIソフトウェアエンジニア PRマージ率67%
Meta Confucius Code Agent 3層アーキテクチャ設計 SWE-Bench-Proで54.3%達成
Cursor Cursor Agent Planner-Workerマルチエージェント Salesforceで2万人以上が利用
Block goose オープンソース、ローカル実行 開発期間を数ヶ月から30分に短縮
Uber AutoCover テストコード生成特化 21,000時間の作業時間削減
Salesforce Agentforce ビジネスプロセス自動化 ケース解決率40%以上向上
Apple Xcode agentic coding MCP経由で外部エージェント統合 2026年2月リリース

これからのエンジニアに求められること

StripeのMinionsから各社の動向まで見てきて、共通したテーマが浮かび上がります。

まず、タスクの自律実行。コードを生成するだけでなく、Issueの理解から計画立案、実装、テスト、修正までを人間の介入なしにやり切る。これが次世代エージェントの核です。

そこに欠かせないのが外部ツールとの連携。StripeのToolshedやAnthropicのMCPが象徴するように、エージェントはもはや単体で動くものではありません。バージョン管理、CI/CD、プロジェクト管理、社内API。こうした既存のインフラと繋がることで、現実の業務に耐えうる仕事ができるようになる。

そしてフィードバックループ。テスト失敗やlinterエラーを即座に受け取り、自分でコードを直す。この高速なイテレーションこそ、AIエージェントの品質を人間レベルに引き上げる鍵だと私は考えています。

結果として何が起きるか。Uberが21,000時間を削減したように、定型的で反復的な作業がAIに置き換わっていく。エンジニアは「何を作るべきか」「どういう設計が最適か」といった上流の判断や、より困難な技術的挑戦に集中できるようになる。

同時に、私たちの役割も変わります。コードを書くスキルだけでは足りない。AIエージェントに的確な指示を与え、課題を定義する力。AIが生成したコードやアーキテクチャを評価し、最終判断を下す力。AIを優秀なチームメイトとして使いこなすマネジメント力。こうしたスキルが、これからのエンジニアには必須になるはずです。

「うちでもやりたい」を、一緒に形にする

StripeのMinionsを皮切りに、ソフトウェア開発の現場で今まさに起きている地殻変動の最前線を見てきました。MicrosoftやGoogleといった巨人から、Cognition AIのような新興勢力まで、「自律型AIエージェント」という新しいパラダイムの覇権を握るべく、各社がしのぎを削っています。

ここまで読んでくださった方の中には、「うちの会社でもAIエージェントを活用したい」「でも、何から手をつけていいかわからない」と感じている方も多いのではないでしょうか。

その気持ち、よくわかります。Stripeのような巨大テック企業なら専任チームを組んで自社開発できますが、多くの企業にとってはそうもいかない。ツールの選定、社内データとの連携、セキュリティ要件の整理、現場への定着。考えるべきことが多すぎて、最初の一歩が踏み出せない。

TIMEWELLでは、まさにこうした課題に日々向き合っています。

私たちのWARPコンサルティングは、AIエージェント導入の戦略策定から実装支援までを一貫してサポートするサービスです。元大手企業でDX・データ戦略を推進してきた専門家が、御社の業務フローやコードベースを分析し、「どこにAIエージェントを入れれば最もインパクトがあるか」を一緒に見極めます。月次で更新されるナレッジを活用しながら、PoC(概念実証)から本番運用まで伴走します。

エンタープライズ向けAIプラットフォームZEROCKは、社内ナレッジをAIエージェントが安全に参照できる基盤を提供します。Stripeが「Toolshed」で社内ツールをエージェントに開放したように、自社の情報資産をAIに活用させる仕組みを、AWSの国内サーバー上で構築できます。

自律型AIエージェントという新しい波は、脅威ではなく機会です。退屈な反復作業から解放され、より人間らしい創造的な仕事に集中できる未来が、すぐそこまで来ています。

「うちの場合はどうだろう」「まずは話を聞いてみたい」。そんな方は、ぜひお気軽にご相談ください。一緒に、この新しい波を乗りこなしていきましょう。


参考文献

  • Alistair Gray. (2026, February 9). Minions: Stripe's one-shot, end-to-end coding agents. Stripe Dot Dev Blog.
  • Amazon Web Services. Amazon Q Developer.
  • GitHub. GitHub Copilot.
  • Google DeepMind. (2025, May 14). AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms.
  • OpenAI. (2026, February 2). Introducing the Codex app.
  • Anthropic. Claude Code Docs.
  • Cognition AI. Cognition.
  • Cursor. Cursor.
  • Block. goose.
  • Salesforce. Agentforce.
  • Apple. (2026, February 3). Xcode 26.3 unlocks the power of agentic coding. Apple Newsroom.
  • Uber. Agentic AI Solutions.
  • DevOps.com. (2026, January 12). Meta Introduces Confucius Code Agent.

あなたのAIリテラシーを測ってみませんか?

5分の無料診断で、AIの理解度からセキュリティ意識まで7つの観点で評価します。

この記事が参考になったらシェア

シェア

メルマガ登録

AI活用やDXの最新情報を毎週お届けします

ご登録いただいたメールアドレスは、メルマガ配信のみに使用します。

無料診断ツール

あなたのAIリテラシー、診断してみませんか?

5分で分かるAIリテラシー診断。活用レベルからセキュリティ意識まで、7つの観点で評価します。

テックトレンドについてもっと詳しく

テックトレンドの機能や導入事例について、詳しくご紹介しています。