OpenAI Agent RFT 2026：o4-miniで一般公開、SafetyKitはF1スコア90%達成の実力

こんにちは、株式会社TIMEWELLの濱本です。

「コンテンツモデレーションのF1スコアが86%から90%に向上」——2026年、OpenAIのAgent RFT（Reinforcement Fine-Tuning）は、アルファプログラムを経てo4-miniで一般公開され、AIエージェントの性能を劇的に向上させています。SafetyKitは高度なコンテンツモデレーション機能でこの成果を達成し、RunloopはStripe APIなどの複雑なサードパーティAPIの活用を自動化しました。

Agent RFTは、エージェントが自律的に外部ツールと対話しながら自己学習を進める仕組みを採用し、従来のファインチューニング手法を大きく超える性能向上を実現しています。この記事では、Agent RFTの全貌と実務での活用方法を解説します。

Agent RFTとは：2026年の最新状況

一般公開とo4-mini対応

Agent RFT 2026の状況：

項目	内容
公開状況	2025年5月に一般公開、2026年は本格普及期
対応モデル	o4-mini（検証済み組織向け）
価格	$100/時間（コア訓練ループの実行時間）
SFTとの比較	コストは100-700倍だが、性能向上は劇的

2025年5月、OpenAIのReinforcement Fine-Tuningはアルファプログラムを終了し、一般公開されました。これは、専門化されたAIをより多くの組織が利用できるようになった重要なマイルストーンです。

Agent RFTの仕組み

Reinforcement Fine-Tuning（RFT）の基本プロセス：

カスタムグレーダーの定義：タスクごとに報酬信号を定義
複数候補の生成：各プロンプトに対して複数の回答候補をサンプリング
スコアリング：グレーダーが各候補をスコアリング
ポリシー勾配更新：高スコア回答に向けてモデルを微調整

従来の教師あり学習（SFT）が「正解例を模倣する」のに対し、RFTは「報酬を最大化する行動を学習する」点が大きく異なります。

SFT、DPO、RFTの比較

ファインチューニング手法の比較：

手法	目的	コスト	適用場面
SFT（Supervised Fine-Tuning）	正解例の模倣	低	スタイル・トーンの調整
DPO（Direct Preference Optimization）	好み・嗜好の学習	中	ユーザー好みの反映
RFT（Reinforcement Fine-Tuning）	報酬最大化の学習	高（100-700倍）	エージェントタスク、複雑なルール適用

Agent RFTの3つの主要ユースケース

1. 指示をワーキングコードに変換

ユースケース：

エージェントがユーザーの指示を受けて、実際に動作するコードを生成します。コード実行環境でテストを行い、成功すれば高スコア、失敗すれば低スコアが与えられます。

実例：MacO（GPUカーネル自動生成）

課題：限られたデータセットではモデルが学習できない
解決策：100件のPyTorchプロンプトでRFTを実施
結果：GPUカーネル生成能力が72%向上

2. 事実を整理されたフォーマットで抽出

ユースケース：

膨大な情報源から必要な事実を抽出し、構造化されたフォーマットで出力します。金融レポート、医療記録、法律文書などの分析に最適です。

実例：Rogo（金融分析）

タスク：金融レポートから投資判断に必要な情報を抽出
カスタムグレーダー：事実確認、推論の正確性、情報の完全性、説明の明瞭さを評価
結果：ベースモデルから21%の性能向上、誤情報と引用漏れが大幅削減

3. 複雑なルールを正確に適用

ユースケース：

企業の業務ルール、コンプライアンス要件、法規制などの複雑なルールを正確に適用します。

実例：SafetyKit（コンテンツモデレーション）

タスク：高度なコンテンツモデレーション
モデル：o3-mini RFT
結果：F1スコアが86%から90%に向上

Agent RFTによるパフォーマンス向上の実証

Financial QAタスクの事例

実験設定：

データ：約2,800件の金融レポート
制約：10回以内のツール呼び出し
タスク：質問に対する正確な数値回答

結果：

指標	ベースモデル	RFT後	改善
平均報酬	0.6	0.74+	+14ポイント
ツール呼び出し回数	6-9回	4回	50%削減
推論トークン数	2,500	1,500	40%削減

Cognition（Devon）の事例

Devon（オートノマスAIエンジニア）の改善：

初期課題：ユーザークエリに対して8-10回の通信が必要
RFT導入後：通信回数を半分に削減
効果：編集作業の待ち時間短縮、ユーザー体験の迅速化

Devonの動作フロー：

計画モードに入る
ファイル検索やシェル操作で情報収集（読み取り専用ツール）
必要なアクションを並列実行
最小限のツール呼び出しで正確な遂行

Runloop（Stripe API活用）の事例

Runloop の課題と解決：

課題：Stripe APIなどの大規模で複雑なサードパーティAPIを人間の介入なしで活用したい
解決策：Agent RFTでStripe API呼び出しの最適化を学習
効果：複雑なAPI操作を自動化、エラー率の低減

Agent RFT導入の注意点と成功戦略

1. 高品質なタスク設計とグレーダー構築

成功の鍵となる要素：

明確な評価基準：何が正解なのかを一貫して定義
部分点の導入：小数点以下の差異や形式的なミスにも対応
専門家の意見：業務知識を持つ専門家がグレーダー設計に参加

Financial QAの評価例：

正確な数値：1.0点
数値は正しいがフォーマット違い：0.8点
小数点以下の微差：0.6点
大きな誤差：0.0点

2. 初期パフォーマンスの確保

重要な原則：

エージェントが最初からある程度正しい結果を出すことが重要です。もしエージェントがどの試行をしても正解にたどり着かない場合、十分な探索が行われず、モデルは改善する機会を逸してしまいます。

推奨アプローチ：

まずSFTでベースライン性能を確保
その上でRFTを適用して最適化

3. プロダクション環境に近いトレーニング環境

インフラ整備のポイント：

ツール呼び出しの安定性：エンドポイントの不具合が学習に悪影響
サーバー負荷モニタリング：過負荷による失敗を防ぐ
エラーハンドリング：ツール呼び出し失敗時の適切な処理

4. リピート現象への対策

リピート現象とは：

エージェントが同じツールを不必要に連続して呼び出す現象。これはシステム全体の遅延を増加させ、ユーザー体験に悪影響を及ぼします。

対策：

トレーニング時に軽いペナルティを課す
「できるだけ少ない回数で正しい答えにたどり着く」ことを報酬設計に組み込む

5. コンピュートマルチプライヤーの調整

コンピュートマルチプライヤーとは：

各サンプルに対してエージェントがどの程度多くの試行を行うかを決定するパラメータです。

設定値	効果	注意点
低	コスト削減、高速トレーニング	探索不足のリスク
中	バランス型	推奨設定
高	優れた判断パターンの発見	ツールエンドポイントの負荷増大

コスト vs 効果：RFTは投資に見合うか？

コスト構造

Agent RFTのコスト：

トレーニングコスト：$100/時間（コア訓練ループ）
SFTとの比較：100-700倍高い
例：同等データセットでSFTが数百ドルなら、RFTは数万~数十万ドル

ROI分析

RFTが投資に見合うケース：

エージェントタスクの自動化：人間の作業を大幅に削減
- 例：SafetyKitのコンテンツモデレーション自動化
高精度が必須：エラーコストが高い業務
- 例：金融分析、医療診断支援、法律文書レビュー
大規模運用：一度の投資で大量のタスクを処理
- 例：月間数百万件のAPI呼び出しを最適化

RFTが不要なケース：

単純なスタイル・トーン調整（SFTで十分）
少量のデータセットのみ（SFTで大量データの方が効果的）
予算制約が厳しいプロジェクト

TIMEWELLのAgent RFT活用支援

ZEROCKでエンタープライズAgent RFT環境を構築

**ZEROCK**は、企業向けAIプラットフォームとして、Agent RFTの導入から運用までを支援します。

主な機能：

カスタムグレーダー設計：業務専門家と協力して評価基準を構築
トレーニングデータセット管理：高品質なデータセットの作成・管理
AWS国内サーバー：セキュリティとプライバシーを確保

ZEROCKとAgent RFTの連携例：

業務タスクの定義と評価基準の設計
ZEROCKで企業独自のナレッジベースを活用
Agent RFTでエージェントの性能を最適化
プロダクション環境へのデプロイと監視

WARPでAgent RFT導入戦略を最適化

**WARP**では、Agent RFT導入コンサルティングを通じて、ROIを最大化します。

サポート内容：

Agent RFT適用可否の判断（SFT/DPO/RFT選定）
コスト vs 効果のROI分析
タスク設計とグレーダー構築支援
元大手企業のDX専門家による戦略立案

まとめ：Agent RFT時代の到来

主要ポイント

一般公開：2025年5月にアルファ終了、2026年は本格普及期
o4-mini対応：検証済み組織向けに提供
SafetyKit事例：F1スコア86%→90%（コンテンツモデレーション）
Financial QA事例：平均報酬+14ポイント、ツール呼び出し50%削減
MacO事例：GPUカーネル生成能力72%向上
Rogo事例：金融分析で21%性能向上
コスト：SFTの100-700倍だが、エージェント性能は劇的向上

Agent RFTの未来

2026年、Agent RFTは「AIエージェントが自律的にツールを呼び出して学習する」新時代を切り拓いています。従来のプロンプトエンジニアリングの枠を超え、エージェントがリアルタイムで外部情報と連携し、目的に沿った最適な答えへと導く能力は、金融、医療、エンジニアリング、コンテンツモデレーションなど、あらゆる分野で革新をもたらしています。

コストはSFTの100-700倍と高額ですが、SafetyKitのF1スコア4ポイント向上、MacOの72%性能向上、Rogoの21%改善といった実績が示すように、高精度が求められるエージェントタスクでは投資に見合うリターンが得られます。

企業が今すべきこと

ユースケースの特定：Agent RFTが適用可能な業務タスクを洗い出し
SFT vs RFTの判断：コストと効果を比較し、適切な手法を選択
グレーダー設計：業務専門家と協力して明確な評価基準を構築
パイロット導入：小規模タスクで効果を実証
スケール展開：成功したタスクを横展開

Agent RFTは、AIエージェントの性能を次のレベルに引き上げる強力な技術です。2026年、この技術を習得した企業が、AIエージェント時代の競争優位を築くでしょう。

OpenAI Agent RFT 2026：o4-miniで一般公開、SafetyKitはF1スコア90%達成の実力

Agent RFTとは：2026年の最新状況

一般公開とo4-mini対応

Agent RFTの仕組み

SFT、DPO、RFTの比較

Agent RFTの3つの主要ユースケース

1. 指示をワーキングコードに変換

2. 事実を整理されたフォーマットで抽出

3. 複雑なルールを正確に適用

Agent RFTによるパフォーマンス向上の実証

Financial QAタスクの事例

Cognition（Devon）の事例

Runloop（Stripe API活用）の事例

Agent RFT導入の注意点と成功戦略

1. 高品質なタスク設計とグレーダー構築

2. 初期パフォーマンスの確保

3. プロダクション環境に近いトレーニング環境

4. リピート現象への対策

5. コンピュートマルチプライヤーの調整

コスト vs 効果：RFTは投資に見合うか？

コスト構造

ROI分析

TIMEWELLのAgent RFT活用支援

ZEROCKでエンタープライズAgent RFT環境を構築

WARPでAgent RFT導入戦略を最適化

まとめ：Agent RFT時代の到来

主要ポイント

Agent RFTの未来

企業が今すべきこと

参考文献

関連記事

コミュニティの健全性を診断しませんか？

メルマガ登録

あなたのコミュニティは健全ですか？

関連する基礎知識

課題解決ソリューション

BASEについてもっと詳しく

関連記事

EMC GLOBAL SUMMIT 2026特別レポート｜「ラストサムライ」にはなるな！平石郁生氏×アジア太平洋の起業家たちの対話

コミュニティ活性化のよくある質問｜KPI設定から離脱防止まで実践FAQ

コミュニティプラットフォームの選び方FAQ｜費用・機能・移行まで全解説