こんにちは、株式会社TIMEWELLの濱本です。
「コンテンツモデレーションのF1スコアが86%から90%に向上」——2026年、OpenAIのAgent RFT(Reinforcement Fine-Tuning)は、アルファプログラムを経てo4-miniで一般公開され、AIエージェントの性能を劇的に向上させています。SafetyKitは高度なコンテンツモデレーション機能でこの成果を達成し、RunloopはStripe APIなどの複雑なサードパーティAPIの活用を自動化しました。
Agent RFTは、エージェントが自律的に外部ツールと対話しながら自己学習を進める仕組みを採用し、従来のファインチューニング手法を大きく超える性能向上を実現しています。この記事では、Agent RFTの全貌と実務での活用方法を解説します。
Agent RFTとは:2026年の最新状況
一般公開とo4-mini対応
Agent RFT 2026の状況:
| 項目 | 内容 |
|---|---|
| 公開状況 | 2025年5月に一般公開、2026年は本格普及期 |
| 対応モデル | o4-mini(検証済み組織向け) |
| 価格 | $100/時間(コア訓練ループの実行時間) |
| SFTとの比較 | コストは100-700倍だが、性能向上は劇的 |
2025年5月、OpenAIのReinforcement Fine-Tuningはアルファプログラムを終了し、一般公開されました。これは、専門化されたAIをより多くの組織が利用できるようになった重要なマイルストーンです。
Agent RFTの仕組み
Reinforcement Fine-Tuning(RFT)の基本プロセス:
- カスタムグレーダーの定義:タスクごとに報酬信号を定義
- 複数候補の生成:各プロンプトに対して複数の回答候補をサンプリング
- スコアリング:グレーダーが各候補をスコアリング
- ポリシー勾配更新:高スコア回答に向けてモデルを微調整
従来の教師あり学習(SFT)が「正解例を模倣する」のに対し、RFTは「報酬を最大化する行動を学習する」点が大きく異なります。
SFT、DPO、RFTの比較
ファインチューニング手法の比較:
| 手法 | 目的 | コスト | 適用場面 |
|---|---|---|---|
| SFT(Supervised Fine-Tuning) | 正解例の模倣 | 低 | スタイル・トーンの調整 |
| DPO(Direct Preference Optimization) | 好み・嗜好の学習 | 中 | ユーザー好みの反映 |
| RFT(Reinforcement Fine-Tuning) | 報酬最大化の学習 | 高(100-700倍) | エージェントタスク、複雑なルール適用 |
Agent RFTの3つの主要ユースケース
1. 指示をワーキングコードに変換
ユースケース:
エージェントがユーザーの指示を受けて、実際に動作するコードを生成します。コード実行環境でテストを行い、成功すれば高スコア、失敗すれば低スコアが与えられます。
実例:MacO(GPUカーネル自動生成)
- 課題:限られたデータセットではモデルが学習できない
- 解決策:100件のPyTorchプロンプトでRFTを実施
- 結果:GPUカーネル生成能力が72%向上
2. 事実を整理されたフォーマットで抽出
ユースケース:
膨大な情報源から必要な事実を抽出し、構造化されたフォーマットで出力します。金融レポート、医療記録、法律文書などの分析に最適です。
実例:Rogo(金融分析)
- タスク:金融レポートから投資判断に必要な情報を抽出
- カスタムグレーダー:事実確認、推論の正確性、情報の完全性、説明の明瞭さを評価
- 結果:ベースモデルから21%の性能向上、誤情報と引用漏れが大幅削減
3. 複雑なルールを正確に適用
ユースケース:
企業の業務ルール、コンプライアンス要件、法規制などの複雑なルールを正確に適用します。
実例:SafetyKit(コンテンツモデレーション)
- タスク:高度なコンテンツモデレーション
- モデル:o3-mini RFT
- 結果:F1スコアが86%から90%に向上
Agent RFTによるパフォーマンス向上の実証
Financial QAタスクの事例
実験設定:
- データ:約2,800件の金融レポート
- 制約:10回以内のツール呼び出し
- タスク:質問に対する正確な数値回答
結果:
| 指標 | ベースモデル | RFT後 | 改善 |
|---|---|---|---|
| 平均報酬 | 0.6 | 0.74+ | +14ポイント |
| ツール呼び出し回数 | 6-9回 | 4回 | 50%削減 |
| 推論トークン数 | 2,500 | 1,500 | 40%削減 |
Cognition(Devon)の事例
Devon(オートノマスAIエンジニア)の改善:
- 初期課題:ユーザークエリに対して8-10回の通信が必要
- RFT導入後:通信回数を半分に削減
- 効果:編集作業の待ち時間短縮、ユーザー体験の迅速化
Devonの動作フロー:
- 計画モードに入る
- ファイル検索やシェル操作で情報収集(読み取り専用ツール)
- 必要なアクションを並列実行
- 最小限のツール呼び出しで正確な遂行
Runloop(Stripe API活用)の事例
Runloop の課題と解決:
- 課題:Stripe APIなどの大規模で複雑なサードパーティAPIを人間の介入なしで活用したい
- 解決策:Agent RFTでStripe API呼び出しの最適化を学習
- 効果:複雑なAPI操作を自動化、エラー率の低減
Agent RFT導入の注意点と成功戦略
1. 高品質なタスク設計とグレーダー構築
成功の鍵となる要素:
- 明確な評価基準:何が正解なのかを一貫して定義
- 部分点の導入:小数点以下の差異や形式的なミスにも対応
- 専門家の意見:業務知識を持つ専門家がグレーダー設計に参加
Financial QAの評価例:
- 正確な数値:1.0点
- 数値は正しいがフォーマット違い:0.8点
- 小数点以下の微差:0.6点
- 大きな誤差:0.0点
2. 初期パフォーマンスの確保
重要な原則:
エージェントが最初からある程度正しい結果を出すことが重要です。もしエージェントがどの試行をしても正解にたどり着かない場合、十分な探索が行われず、モデルは改善する機会を逸してしまいます。
推奨アプローチ:
- まずSFTでベースライン性能を確保
- その上でRFTを適用して最適化
3. プロダクション環境に近いトレーニング環境
インフラ整備のポイント:
- ツール呼び出しの安定性:エンドポイントの不具合が学習に悪影響
- サーバー負荷モニタリング:過負荷による失敗を防ぐ
- エラーハンドリング:ツール呼び出し失敗時の適切な処理
4. リピート現象への対策
リピート現象とは:
エージェントが同じツールを不必要に連続して呼び出す現象。これはシステム全体の遅延を増加させ、ユーザー体験に悪影響を及ぼします。
対策:
- トレーニング時に軽いペナルティを課す
- 「できるだけ少ない回数で正しい答えにたどり着く」ことを報酬設計に組み込む
5. コンピュートマルチプライヤーの調整
コンピュートマルチプライヤーとは:
各サンプルに対してエージェントがどの程度多くの試行を行うかを決定するパラメータです。
| 設定値 | 効果 | 注意点 |
|---|---|---|
| 低 | コスト削減、高速トレーニング | 探索不足のリスク |
| 中 | バランス型 | 推奨設定 |
| 高 | 優れた判断パターンの発見 | ツールエンドポイントの負荷増大 |
コスト vs 効果:RFTは投資に見合うか?
コスト構造
Agent RFTのコスト:
- トレーニングコスト:$100/時間(コア訓練ループ)
- SFTとの比較:100-700倍高い
- 例:同等データセットでSFTが数百ドルなら、RFTは数万~数十万ドル
ROI分析
RFTが投資に見合うケース:
エージェントタスクの自動化:人間の作業を大幅に削減
- 例:SafetyKitのコンテンツモデレーション自動化
高精度が必須:エラーコストが高い業務
- 例:金融分析、医療診断支援、法律文書レビュー
大規模運用:一度の投資で大量のタスクを処理
- 例:月間数百万件のAPI呼び出しを最適化
RFTが不要なケース:
- 単純なスタイル・トーン調整(SFTで十分)
- 少量のデータセットのみ(SFTで大量データの方が効果的)
- 予算制約が厳しいプロジェクト
TIMEWELLのAgent RFT活用支援
ZEROCKでエンタープライズAgent RFT環境を構築
**ZEROCK**は、企業向けAIプラットフォームとして、Agent RFTの導入から運用までを支援します。
主な機能:
- カスタムグレーダー設計:業務専門家と協力して評価基準を構築
- トレーニングデータセット管理:高品質なデータセットの作成・管理
- AWS国内サーバー:セキュリティとプライバシーを確保
ZEROCKとAgent RFTの連携例:
- 業務タスクの定義と評価基準の設計
- ZEROCKで企業独自のナレッジベースを活用
- Agent RFTでエージェントの性能を最適化
- プロダクション環境へのデプロイと監視
WARPでAgent RFT導入戦略を最適化
**WARP**では、Agent RFT導入コンサルティングを通じて、ROIを最大化します。
サポート内容:
- Agent RFT適用可否の判断(SFT/DPO/RFT選定)
- コスト vs 効果のROI分析
- タスク設計とグレーダー構築支援
- 元大手企業のDX専門家による戦略立案
まとめ:Agent RFT時代の到来
主要ポイント
- 一般公開:2025年5月にアルファ終了、2026年は本格普及期
- o4-mini対応:検証済み組織向けに提供
- SafetyKit事例:F1スコア86%→90%(コンテンツモデレーション)
- Financial QA事例:平均報酬+14ポイント、ツール呼び出し50%削減
- MacO事例:GPUカーネル生成能力72%向上
- Rogo事例:金融分析で21%性能向上
- コスト:SFTの100-700倍だが、エージェント性能は劇的向上
Agent RFTの未来
2026年、Agent RFTは「AIエージェントが自律的にツールを呼び出して学習する」新時代を切り拓いています。従来のプロンプトエンジニアリングの枠を超え、エージェントがリアルタイムで外部情報と連携し、目的に沿った最適な答えへと導く能力は、金融、医療、エンジニアリング、コンテンツモデレーションなど、あらゆる分野で革新をもたらしています。
コストはSFTの100-700倍と高額ですが、SafetyKitのF1スコア4ポイント向上、MacOの72%性能向上、Rogoの21%改善といった実績が示すように、高精度が求められるエージェントタスクでは投資に見合うリターンが得られます。
企業が今すべきこと
- ユースケースの特定:Agent RFTが適用可能な業務タスクを洗い出し
- SFT vs RFTの判断:コストと効果を比較し、適切な手法を選択
- グレーダー設計:業務専門家と協力して明確な評価基準を構築
- パイロット導入:小規模タスクで効果を実証
- スケール展開:成功したタスクを横展開
Agent RFTは、AIエージェントの性能を次のレベルに引き上げる強力な技術です。2026年、この技術を習得した企業が、AIエージェント時代の競争優位を築くでしょう。
参考文献
- Reinforcement fine-tuning | OpenAI API
- Fine-tuning updates: Reinforcement fine-tuning now available + GPT-4.1 nano fine-tuning | OpenAI Developer Community
- Reinforcement fine-tuning use cases | OpenAI API
- Is OpenAI's Reinforcement Fine-Tuning (RFT) Worth It? | TensorZero
- Fine-Tuning Techniques - Choosing Between SFT, DPO, and RFT | OpenAI Cookbook
- Exploring Model Graders for Reinforcement Fine-Tuning | OpenAI Cookbook
