AIコンサルのコラム一覧に戻る
AIコンサル

OpenAIが次世代の高性能AIモデル「O3」と「O3 mini」を発表

2026-01-21濱本

米OpenAIは12月21日(日本時間午前3時ごろ)、12日間の新機能や新モデル発表のイベント最終日に、次世代のAIモデル「O3」と「O3 mini」を発表しました。これらのモデルは、12日間の初日(12月6日)に発表された前モデルの「O1」よりも高い性能を示し、プログラミングや数学の分野で驚くべき結果を達成しています。OpenAIは、これらのモデルが人工知能の新たな時代の幕開けとなることを期待しています。  この記事では、次世代のAIモデル「O3」と「O3 mini」について、詳しく解説していきます。

OpenAIが次世代の高性能AIモデル「O3」と「O3 mini」を発表
シェア

株式会社TIMEWELLの濱本です。

米OpenAIは12月21日(日本時間午前3時ごろ)、12日間の新機能や新モデル発表のイベント最終日に、次世代のAIモデル「O3」と「O3 mini」を発表しました。これらのモデルは、前モデルの「O1」よりも高い性能を示し、プログラミングや数学の分野で驚くべき結果を達成しています。OpenAIは、これらのモデルが人工知能の新たな時代の幕開けとなることを期待しています。

この記事では、次世代のAIモデル「O3」と「O3 mini」の性能について、詳しく解説していきます。

O3とO3 miniの驚異的なパフォーマンス ARC AGIベンチマークでの新記録 今後の展開 まとめ O3とO3 miniの驚異的なパフォーマンス

 次世代のAIモデル「O3」と「O3 mini」は、様々なベンチマークテストで驚くべき結果を示し、特にプログラミングと数学の分野では、前モデルのO1を大きく上回る性能を発揮しています。

ソフトウェアスタイルのベンチマークでは、実世界のソフトウェアタスクで構成されるS WE-bench Verifiedで、O3は約71.7%の精度を達成しており、これはO1モデルより22.8ポイント向上させ、ソフトウェアエンジニアリング能力の大幅な改善を示しました。プログラミング能力でも、競技プログラミングサイト「Codeforces」のELOランキングで2727点を獲得し、OpenAIのチーフサイエンティストのスコア(2665点)を上回り、高度なコーティング能力を実証しています。また数学の分野でも、O3はUSA Mathematical Olympiad(数学オリンピック)の模擬試験で96.7%の正答率を達成し、O1の83.3%を大きく上回りました。

さらに、O3は現在最も難しいとされる数学のベンチマークテストである「Epic AI's Frontier Math Benchmark」で、25%以上の正答率を記録しました。これは、他のAIモデルが2%未満の正答率しか達成できていないことを考えると、非常に印象的な結果になります。

O3 miniも同様に優れた性能を示しており、O1 miniと比較して、はるかに低いコストで同等以上の性能を発揮しています。プログラミングと数学の両方の分野で、O3 miniはO1 miniを上回る結果を達成しました。

ARC AGIベンチマークでの新記録

 O3は、長年AIモデルが苦戦してきたARC AGIベンチマークでも新記録を樹立しました。A RC AGIとは、AGI(汎用人工知能:Artificial General Intelligence)を測定するベンチマークテストで、人間には簡単だがAIには難しいテストとなっています。これまでは、人間が平均84%の正解率を示す一方、AIの最高スコアは30%程度にとどまっていました。

しかしO3は、ARC AGIの非公開テストセットにおいて、低計算設定で75.7%の正答率を達成し、公開リーダーボードで1位となりました。さらに高計算設定では、従来モデルの3倍以上の87.5%の正答率を記録し、人間の平均正答率である85%を上回りました。(以下の表、青がO3の結果)

 これは、AIモデルがARC AGIで人間レベルの性能を初めて達成したことを意味します。ARC Prize財団の代表者グレッグは、この結果がAGIへの重要なマイルストーンであると述べ、OpenAIとのさらなる協力に期待を寄せました。

今後の展開

 現在、次世代のAIモデル「O3」と「O3 mini」は、まだ一般公開されておりません。OpenAIは、まずはO3とO3 miniの安全性について取り組組むために現在、内部での安全性テストに加え、外部の研究者にもモデルへのアクセスを提供し、安全性の検証を行っています。

ただ安全性研究者やセキュリティ研究者として早期アクセスすることが可能です。OpenAIのウェブサイトから申請フォームに記入することで、O3とO3 miniの安全性テストに参加でき、早期に次世代のAIモデル「O3」と「O3 mini」の性能を試すことができます。(申請は1月10日まで受け付けられています)

 一般公開については、O3 miniを1月末に、O3を少し遅れて公開予定とOpenAIは発表しています。ただし、安全性テストの結果によっては、公開時期が変更される可能性もあります。

また、OpenAIは「Deliberative Alignment」と呼ばれる新しい安全性技術についても報告しています。通常、モデルに安全性の確認を行う場合、これは安全なプロンプト、これは安全でないプロンプトという純粋な例を示すことで、安全なものと安全でないものの境界を学習しようとします。しかしこの技術は、モデルの推論能力を活用して、プロンプトの安全性をより正確に判断することができます。これにより、安全性と性能のトレードオフを改善し、より安全で高性能なAIモデルの開発が可能になると期待されています。

まとめ

 OpenAIが発表した次世代のAIモデル「O3」と「O3 mini」は、プログラミングや数学の分野で驚くべき性能を示し、Arc AGIベンチマークでは人間レベルの性能を達成しました。これらのモデルは、人工知能の新たな時代の幕開けとなる可能性を秘めています。

OpenAIは安全性にも細心の注意を払っており、内部テストと外部研究者によるテストを通じて、モデルの安全性を確保しようとしています。また、新しい安全性技術「Deliberative Alignment」の開発にも取り組んでおり、より安全で高性能なAIモデルの実現を目指しています。

O3とO3 miniの一般公開は、それぞれ1月末と少し遅れての予定ですが、安全性テストの結果によっては変更される可能性もあります。OpenAIのこれらの取り組みは、人工知能の発展とその安全性の確保において重要な一歩となるでしょう。

参考:Open AI公式HP「Day 12 o3 preview & call for safety researchers」

Chat GPT関連記事:

カメラを映しながらChatGPTと会話ができる!? OpenAIが新機能「ビデオ通話」と「スクリーンシェア」をChatGPTに追加

電話でChatGPTと会話が出来る!?電話とWhatsAppでChatGPTが利用可能に !

この記事が参考になったらシェア

シェア

AIコンサルについてもっと詳しく

AIコンサルの機能や導入事例について、詳しくご紹介しています。