株式会社TIMEWELLの濱本です。
2026年、OpenAIの「Agent RFT(Reinforcement Fine-Tuning)」は、AIエージェント学習における革命的な技術として注目を集めています。
従来のファインチューニングを超え、Agent RFTはマルチステップ強化学習、外部ツールとのリアルタイム対話、軌道ID(Trajectory ID)による一貫した状態管理を実現。Cognition社のDevonはAgent RFTで計画モードを最適化し、ツール呼び出し回数を半減させました。o4-miniでGA(一般提供)、GPT-5ではプライベートベータとして提供中です。
本記事では、Agent RFTの仕組みと効果的な活用方法を解説します。
Agent RFT 2026年最新情報
| 項目 | 内容 |
|---|---|
| 提供状況 | o4-mini:GA、GPT-5:プライベートベータ |
| 料金 | $100/時間(トレーニング時間) |
| 学習方式 | マルチステップ強化学習 |
| 外部連携 | リアルタイムツール呼び出し対応 |
| 軌道管理 | Trajectory IDで状態追跡 |
| 効果 | 2会話(17推論)で大幅なパフォーマンス向上 |
| コスト比較 | SFTの100〜700倍 |
| 成功事例 | Cognition(Devin)、Rogo、MaCO |
Agent RFTとは——エージェント向け強化学習
従来のRFTとの違い
Agent RFTは、従来のBase RFT(基本強化ファインチューニング)を大幅に進化させた技術です。
Base RFT(従来):
- 単一ステップの強化学習
- プラットフォーム内グレーダーのみ
- 静的な報酬信号
Agent RFT(2026年):
- マルチステップ強化学習
- 外部エンドポイント経由の任意の報酬信号
- リアルタイムツール呼び出し対応
- 軌道ID(Trajectory ID)による状態管理
軌道ID(Trajectory ID)の仕組み
Agent RFTでは、各エージェントロールアウト(試行)に一意の軌道IDが割り当てられます。
軌道IDの役割:
- 後続のすべてのツール呼び出しにIDを付与
- 最終回答までの状態を一貫して追跡
- バックエンドシステムで正確な状態管理
- カスタムグレーダーがエージェントの行動と応答の全コンテキストを受信
学習プロセスの詳細
報酬信号と評価
Agent RFTの報酬(Reward)信号は、エージェントのタスク完遂度を示す重要な指標です。
報酬設計のポイント:
- 二者択一ではなく部分点を付与
- 小数点以下の差異や形式的なミスにも対応
- モデルに継続的な改善を促す
- プログラマブルなグレーダーで定義
評価基準の例:
- 数値の正確性
- フォーマットの適切さ
- 情報の完全性
- 説明の明瞭さ
コンピュートマルチプライヤー
Agent RFTでは、探索のための計算量を制御する「コンピュートマルチプライヤー」パラメータが導入されています。
パラメータの効果:
- 各サンプルに対する試行回数を決定
- 多い試行 → 優れたパターン発見の可能性向上
- 過多な試行 → ツールエンドポイントの負荷増大
- 運用条件に合わせた調整が必要
実証された効果
ツール呼び出しの最適化
Agent RFTのトレーニングにより、エージェントのツール呼び出し効率が劇的に改善します。
ツール呼び出し回数の変化:
- トレーニング前:6〜9回が一般的
- トレーニング後:平均4回程度に削減
推論トークン数の変化:
- トレーニング前:約2,500トークン
- トレーニング後:約1,500トークンに削減
少量データでの高い効果
Agent RFTは、少量のトレーニングデータでも顕著な効果を発揮します。
実証結果:
- わずか2つのトレーニング会話(17推論)でエージェントコーディングタスクのパフォーマンスが大幅向上
- SFT(教師あり学習)では失敗したタスクでもRFTで改善
成功事例
Cognition社:Devon(自律型AIエンジニア)
Cognition社は、Agent RFTを活用して自律型AIエンジニア「Devon」を開発しました。
計画モードサブエージェントの最適化:
- タスク完了に必要な編集ファイルを特定
- ツール呼び出し回数を削減して編集フェーズに迅速に到達
- 精度を維持しながら効率を向上
具体的な成果:
- 読み取り専用ツール(ファイル検索、Catツール)を最初に使用
- 必要なアクションを並列実行
- 従来8〜10回の通信を半分程度に削減
- 編集作業の待ち時間を短縮
MaCO:GPUカーネル自動生成
MaCOは、Agent RFTを活用してGPUカーネルの自動生成能力を向上させました。
課題:
- 限られたデータセットではモデルが学習困難
成果:
- 100件程度のPyTorchプロンプトで学習
- GPUカーネル生成能力が72%向上
- 新しいハードウェアプラットフォーム対応
Rogo:金融情報抽出エージェント
Rogo社は、Agent RFTで金融レポートからの情報抽出エージェントを開発しました。
カスタムグレーダーの評価項目:
- 事実確認
- 推論の正確性
- 情報の完全性
- 説明の明瞭さ
成果:
- ベースモデル比21%の性能向上
- 誤情報・引用漏れの大幅削減
Financial QAベンチマーク
タスク設計
Agent RFTは、金融レポートに基づく質問応答タスク(Financial QA)で評価されました。
タスクの特徴:
- 約2,800件の金融レポートから検索
- 質問のみが提供され、エージェントが自律的に回答
- 10回以内のツール呼び出し制約
- 数値情報の正確な抽出が必要
結果:
- ベースモデル:平均報酬約0.6
- トレーニング後:14ポイント以上向上
- ツール呼び出し回数も大幅削減
導入のベストプラクティス
タスク設計
成功の鍵:
- 明確な評価基準(グレード)の定義
- 部分点を与える仕組みの導入
- 専門家の意見を取り入れた一貫性のある設計
- プロダクション環境に近い条件でのトレーニング
初期パフォーマンスの確保
重要ポイント:
- エージェントが最初からある程度正しい結果を出すこと
- 初期段階で全く正解に到達しない場合、探索が不十分に
- 複数回の試行を通じて最良の経路を強化学習で抽出
インフラ整備
必要な対応:
- ツール呼び出しの安定性確保
- サーバー負荷のモニタリング
- エンドポイント不具合時の影響管理
- リピート現象への軽いペナルティ設定
料金とコスト
Agent RFTの料金体系
料金:
- $100/時間(トレーニング時間)
コスト比較:
- SFT(教師あり学習)の100〜700倍
- 高コストだが、少量データで高い効果
- 複雑なエージェントタスクでは投資対効果が高い
コスト最適化のアプローチ
推奨事項:
- 少量の高品質データセットで開始
- 初期パフォーマンスを確認してから拡大
- ツール呼び出し効率の改善によるランタイムコスト削減
当時と現在:Agent RFTの進化
| 項目 | 当時(2024年 RFTアルファ) | 現在(2026年1月) |
|---|---|---|
| 提供状況 | 限定アルファ | o4-mini GA、GPT-5プライベートベータ |
| 学習方式 | 単一ステップRL | マルチステップRL |
| 外部連携 | プラットフォーム内のみ | 任意の外部エンドポイント |
| 状態管理 | 限定的 | 軌道ID(Trajectory ID) |
| 対象 | 単純なタスク | 複雑なエージェントワークフロー |
| 顧客事例 | 限定的 | Cognition、Rogo、MaCO等多数 |
| ドキュメント | 限定的 | 詳細なガイド・ユースケース公開 |
競合との比較
Agent RFT vs 従来のファインチューニング
| 項目 | Agent RFT | 従来のファインチューニング |
|---|---|---|
| 学習方式 | 強化学習(報酬ベース) | 教師あり学習(正解ベース) |
| 外部ツール | リアルタイム対話 | 非対応 |
| コスト | 100〜700倍高い | 低い |
| 少量データ効果 | 高い | 中程度 |
| エージェント適性 | 最適化済み | 限定的 |
Agent RFT vs プロンプトエンジニアリング
| 項目 | Agent RFT | プロンプトエンジニアリング |
|---|---|---|
| カスタマイズ | モデル重み調整 | プロンプトのみ |
| 初期コスト | 高い | 低い |
| ランタイム効率 | 高い(ツール呼び出し削減) | 変動 |
| 専門タスク適性 | 非常に高い | 中程度 |
導入の考慮点
メリット
1. 少量データで高い効果
- 2会話(17推論)でも顕著な改善
- 高品質なデータセットがあれば効率的
2. ツール効率の最適化
- ツール呼び出し回数の大幅削減
- レイテンシの改善
- ランタイムコストの削減
3. 複雑なエージェントタスク対応
- マルチステップワークフロー
- 外部ツールとのリアルタイム連携
- 自律的な意思決定
注意点
1. 高いトレーニングコスト
- SFTの100〜700倍
- $100/時間のトレーニング料金
2. 初期設定の重要性
- 明確な評価基準が必要
- 初期パフォーマンスの確保が必須
3. インフラ要件
- ツールエンドポイントの安定性
- モニタリング体制の構築
まとめ
OpenAI Agent RFTは、AIエージェント学習における革命的な技術です。
本記事のポイント:
- o4-miniでGA、GPT-5でプライベートベータ提供中
- マルチステップ強化学習で複雑なエージェントタスクに対応
- 軌道ID(Trajectory ID)で一貫した状態管理
- 外部ツールとのリアルタイム対話が可能
- 2会話(17推論)でも大幅なパフォーマンス向上
- Cognition社Devin:ツール呼び出し回数を半減
- MaCO:GPUカーネル生成能力72%向上
- Rogo:金融情報抽出で21%性能向上
- 料金:$100/時間、SFTの100〜700倍だが効果は高い
2024年のRFTアルファから約2年——Agent RFTは「静的なファインチューニング」から「自律的に学習するエージェント技術」へと進化しました。少量のデータでも高い効果を発揮し、ツール呼び出しの効率化によりランタイムコストも削減。複雑なエージェントワークフローを構築する企業にとって、Agent RFTは不可欠な技術となりつつあります。
専門的なエージェントタスクを最適化したい場合は、まず少量の高品質データセットでAgent RFTを試してみてください。エージェント学習の新しい可能性を体験できるはずです。
