BASE

OpenAI Agent RFT 2026:o4-miniで一般公開、SafetyKitはF1スコア90%達成の実力

2026-01-23濱本 隆太

2026年、OpenAIのAgent RFT(Reinforcement Fine-Tuning)はo4-miniで一般公開され、AIエージェントの性能を劇的に向上させています。SafetyKitはコンテンツモデレーションでF1スコア86%→90%を達成。

OpenAI Agent RFT 2026:o4-miniで一般公開、SafetyKitはF1スコア90%達成の実力
シェア

こんにちは、株式会社TIMEWELLの濱本です。

「コンテンツモデレーションのF1スコアが86%から90%に向上」——2026年、OpenAIのAgent RFT(Reinforcement Fine-Tuning)は、アルファプログラムを経てo4-miniで一般公開され、AIエージェントの性能を劇的に向上させています。SafetyKitは高度なコンテンツモデレーション機能でこの成果を達成し、RunloopはStripe APIなどの複雑なサードパーティAPIの活用を自動化しました。

Agent RFTは、エージェントが自律的に外部ツールと対話しながら自己学習を進める仕組みを採用し、従来のファインチューニング手法を大きく超える性能向上を実現しています。この記事では、Agent RFTの全貌と実務での活用方法を解説します。

Agent RFTとは:2026年の最新状況

一般公開とo4-mini対応

Agent RFT 2026の状況:

項目 内容
公開状況 2025年5月に一般公開、2026年は本格普及期
対応モデル o4-mini(検証済み組織向け)
価格 $100/時間(コア訓練ループの実行時間)
SFTとの比較 コストは100-700倍だが、性能向上は劇的

2025年5月、OpenAIのReinforcement Fine-Tuningはアルファプログラムを終了し、一般公開されました。これは、専門化されたAIをより多くの組織が利用できるようになった重要なマイルストーンです。

Agent RFTの仕組み

Reinforcement Fine-Tuning(RFT)の基本プロセス:

  1. カスタムグレーダーの定義:タスクごとに報酬信号を定義
  2. 複数候補の生成:各プロンプトに対して複数の回答候補をサンプリング
  3. スコアリング:グレーダーが各候補をスコアリング
  4. ポリシー勾配更新:高スコア回答に向けてモデルを微調整

従来の教師あり学習(SFT)が「正解例を模倣する」のに対し、RFTは「報酬を最大化する行動を学習する」点が大きく異なります。

SFT、DPO、RFTの比較

ファインチューニング手法の比較:

手法 目的 コスト 適用場面
SFT(Supervised Fine-Tuning) 正解例の模倣 スタイル・トーンの調整
DPO(Direct Preference Optimization) 好み・嗜好の学習 ユーザー好みの反映
RFT(Reinforcement Fine-Tuning) 報酬最大化の学習 高(100-700倍) エージェントタスク、複雑なルール適用

Agent RFTの3つの主要ユースケース

1. 指示をワーキングコードに変換

ユースケース:

エージェントがユーザーの指示を受けて、実際に動作するコードを生成します。コード実行環境でテストを行い、成功すれば高スコア、失敗すれば低スコアが与えられます。

実例:MacO(GPUカーネル自動生成)

  • 課題:限られたデータセットではモデルが学習できない
  • 解決策:100件のPyTorchプロンプトでRFTを実施
  • 結果:GPUカーネル生成能力が72%向上

2. 事実を整理されたフォーマットで抽出

ユースケース:

膨大な情報源から必要な事実を抽出し、構造化されたフォーマットで出力します。金融レポート、医療記録、法律文書などの分析に最適です。

実例:Rogo(金融分析)

  • タスク:金融レポートから投資判断に必要な情報を抽出
  • カスタムグレーダー:事実確認、推論の正確性、情報の完全性、説明の明瞭さを評価
  • 結果:ベースモデルから21%の性能向上、誤情報と引用漏れが大幅削減

3. 複雑なルールを正確に適用

ユースケース:

企業の業務ルール、コンプライアンス要件、法規制などの複雑なルールを正確に適用します。

実例:SafetyKit(コンテンツモデレーション)

  • タスク:高度なコンテンツモデレーション
  • モデル:o3-mini RFT
  • 結果:F1スコアが86%から90%に向上

Agent RFTによるパフォーマンス向上の実証

Financial QAタスクの事例

実験設定:

  • データ:約2,800件の金融レポート
  • 制約:10回以内のツール呼び出し
  • タスク:質問に対する正確な数値回答

結果:

指標 ベースモデル RFT後 改善
平均報酬 0.6 0.74+ +14ポイント
ツール呼び出し回数 6-9回 4回 50%削減
推論トークン数 2,500 1,500 40%削減

Cognition(Devon)の事例

Devon(オートノマスAIエンジニア)の改善:

  • 初期課題:ユーザークエリに対して8-10回の通信が必要
  • RFT導入後:通信回数を半分に削減
  • 効果:編集作業の待ち時間短縮、ユーザー体験の迅速化

Devonの動作フロー:

  1. 計画モードに入る
  2. ファイル検索やシェル操作で情報収集(読み取り専用ツール)
  3. 必要なアクションを並列実行
  4. 最小限のツール呼び出しで正確な遂行

Runloop(Stripe API活用)の事例

Runloop の課題と解決:

  • 課題:Stripe APIなどの大規模で複雑なサードパーティAPIを人間の介入なしで活用したい
  • 解決策:Agent RFTでStripe API呼び出しの最適化を学習
  • 効果:複雑なAPI操作を自動化、エラー率の低減

Agent RFT導入の注意点と成功戦略

1. 高品質なタスク設計とグレーダー構築

成功の鍵となる要素:

  • 明確な評価基準:何が正解なのかを一貫して定義
  • 部分点の導入:小数点以下の差異や形式的なミスにも対応
  • 専門家の意見:業務知識を持つ専門家がグレーダー設計に参加

Financial QAの評価例:

  • 正確な数値:1.0点
  • 数値は正しいがフォーマット違い:0.8点
  • 小数点以下の微差:0.6点
  • 大きな誤差:0.0点

2. 初期パフォーマンスの確保

重要な原則:

エージェントが最初からある程度正しい結果を出すことが重要です。もしエージェントがどの試行をしても正解にたどり着かない場合、十分な探索が行われず、モデルは改善する機会を逸してしまいます。

推奨アプローチ:

  1. まずSFTでベースライン性能を確保
  2. その上でRFTを適用して最適化

3. プロダクション環境に近いトレーニング環境

インフラ整備のポイント:

  • ツール呼び出しの安定性:エンドポイントの不具合が学習に悪影響
  • サーバー負荷モニタリング:過負荷による失敗を防ぐ
  • エラーハンドリング:ツール呼び出し失敗時の適切な処理

4. リピート現象への対策

リピート現象とは:

エージェントが同じツールを不必要に連続して呼び出す現象。これはシステム全体の遅延を増加させ、ユーザー体験に悪影響を及ぼします。

対策:

  • トレーニング時に軽いペナルティを課す
  • 「できるだけ少ない回数で正しい答えにたどり着く」ことを報酬設計に組み込む

5. コンピュートマルチプライヤーの調整

コンピュートマルチプライヤーとは:

各サンプルに対してエージェントがどの程度多くの試行を行うかを決定するパラメータです。

設定値 効果 注意点
コスト削減、高速トレーニング 探索不足のリスク
バランス型 推奨設定
優れた判断パターンの発見 ツールエンドポイントの負荷増大

コスト vs 効果:RFTは投資に見合うか?

コスト構造

Agent RFTのコスト:

  • トレーニングコスト:$100/時間(コア訓練ループ)
  • SFTとの比較:100-700倍高い
  • :同等データセットでSFTが数百ドルなら、RFTは数万~数十万ドル

ROI分析

RFTが投資に見合うケース:

  1. エージェントタスクの自動化:人間の作業を大幅に削減

    • 例:SafetyKitのコンテンツモデレーション自動化
  2. 高精度が必須:エラーコストが高い業務

    • 例:金融分析、医療診断支援、法律文書レビュー
  3. 大規模運用:一度の投資で大量のタスクを処理

    • 例:月間数百万件のAPI呼び出しを最適化

RFTが不要なケース:

  • 単純なスタイル・トーン調整(SFTで十分)
  • 少量のデータセットのみ(SFTで大量データの方が効果的)
  • 予算制約が厳しいプロジェクト

TIMEWELLのAgent RFT活用支援

ZEROCKでエンタープライズAgent RFT環境を構築

**ZEROCK**は、企業向けAIプラットフォームとして、Agent RFTの導入から運用までを支援します。

主な機能:

  • カスタムグレーダー設計:業務専門家と協力して評価基準を構築
  • トレーニングデータセット管理:高品質なデータセットの作成・管理
  • AWS国内サーバー:セキュリティとプライバシーを確保

ZEROCKとAgent RFTの連携例:

  1. 業務タスクの定義と評価基準の設計
  2. ZEROCKで企業独自のナレッジベースを活用
  3. Agent RFTでエージェントの性能を最適化
  4. プロダクション環境へのデプロイと監視

WARPでAgent RFT導入戦略を最適化

**WARP**では、Agent RFT導入コンサルティングを通じて、ROIを最大化します。

サポート内容:

  • Agent RFT適用可否の判断(SFT/DPO/RFT選定)
  • コスト vs 効果のROI分析
  • タスク設計とグレーダー構築支援
  • 元大手企業のDX専門家による戦略立案

まとめ:Agent RFT時代の到来

主要ポイント

  • 一般公開:2025年5月にアルファ終了、2026年は本格普及期
  • o4-mini対応:検証済み組織向けに提供
  • SafetyKit事例:F1スコア86%→90%(コンテンツモデレーション)
  • Financial QA事例:平均報酬+14ポイント、ツール呼び出し50%削減
  • MacO事例:GPUカーネル生成能力72%向上
  • Rogo事例:金融分析で21%性能向上
  • コスト:SFTの100-700倍だが、エージェント性能は劇的向上

Agent RFTの未来

2026年、Agent RFTは「AIエージェントが自律的にツールを呼び出して学習する」新時代を切り拓いています。従来のプロンプトエンジニアリングの枠を超え、エージェントがリアルタイムで外部情報と連携し、目的に沿った最適な答えへと導く能力は、金融、医療、エンジニアリング、コンテンツモデレーションなど、あらゆる分野で革新をもたらしています。

コストはSFTの100-700倍と高額ですが、SafetyKitのF1スコア4ポイント向上、MacOの72%性能向上、Rogoの21%改善といった実績が示すように、高精度が求められるエージェントタスクでは投資に見合うリターンが得られます。

企業が今すべきこと

  1. ユースケースの特定:Agent RFTが適用可能な業務タスクを洗い出し
  2. SFT vs RFTの判断:コストと効果を比較し、適切な手法を選択
  3. グレーダー設計:業務専門家と協力して明確な評価基準を構築
  4. パイロット導入:小規模タスクで効果を実証
  5. スケール展開:成功したタスクを横展開

Agent RFTは、AIエージェントの性能を次のレベルに引き上げる強力な技術です。2026年、この技術を習得した企業が、AIエージェント時代の競争優位を築くでしょう。

参考文献

関連記事

コミュニティの健全性を診断しませんか?

運営の課題を5分で可視化。エンゲージメントや成長性など、多角的に分析します。

この記事が参考になったらシェア

シェア

メルマガ登録

AI活用やDXの最新情報を毎週お届けします

ご登録いただいたメールアドレスは、メルマガ配信のみに使用します。

無料診断ツール

あなたのコミュニティは健全ですか?

5分で分かるコミュニティ健全度診断。運営の課題を可視化し、改善のヒントをお届けします。

BASEについてもっと詳しく

BASEの機能や導入事例について、詳しくご紹介しています。