オープンソースAIはプロプライエタリAIに性能で追いついたのですか

指標によります。コーディングのSWE-bench ProではClaude Opus 4.7の64.3%が首位を保つ一方、世界知識のMMLUではDeepSeek V4-Proが90.1で開放系トップに立ち、Gemini 3.1 Proに次ぐ位置まで肉薄しました。Chatbot Arenaでも上位OSSと商用モデルの差は数十Eloまで縮まっています。ただしマルチモーダルの動画理解などは依然としてGemini 3.1 Proが大きくリードしています。

中国製のOSSモデル（Qwen・DeepSeek）を企業で使って大丈夫ですか

米国・韓国・オーストラリア・台湾・イタリアなどが政府機関での利用を禁止しており、日本でも経済安全保障上の論点になっています。クラウドAPI経由で使う場合はデータが中国へ送信されるリスクがあるため避けたほうが無難です。一方で、重みをダウンロードしてオンプレや国内クラウドで完全に閉じた環境で動かす分には、技術的な情報流出リスクは大幅に下がります。用途と運用形態を分けて判断するのが現実的です。

自社でOSSモデルをホスティングするとコストはどのくらいかかりますか

H100×2枚を3年償却で構成した場合、ハードウェア・電力・コロケーション・運用人件費を合算して月額60万円前後がひとつの目安です。1日200万トークンを超えると、Claude OpusやGPT-5.5のAPI利用と比較して自社ホスティングのほうが安くなる試算が一般的です。逆にトラフィックが少なければAPI利用のほうが圧倒的にお得です。

Llama 4は本当にオープンソースなのですか

OSI（Open Source Initiative）はLlama 4のコミュニティライセンスを「オープンソースではない」と明確に否定しています。MAU 7億超の企業は別途ライセンスが必要で、マルチモーダル版はEU居住者・EU企業に提供されません。一方Mistral Large 3はApache 2.0で配布されており、こちらはEU AI Actの開示義務でも適格と判断されています。

エンタープライズはどう使い分けるべきですか

用途を3層に分けるのが王道です。最高水準の推論や顧客向けの会話品質はClaude Opus 4.7やGemini 3.1 Proなど商用モデルに任せ、社内ナレッジ検索や帳票処理など大量・定型のタスクはQwen 3やLlama 4などのOSSをオンプレで回し、機密度が極めて高いデータはPhi-4やGemma 3クラスを完全閉域で使う、という設計です。WARPではこの三層設計の伴走支援を行っています。

オープンソースAI vs プロプライエタリAI徹底比較【2026年最新】｜Llama・Mistral・Qwen・DeepSeek vs Claude・GPT・Gemini

こんにちは、株式会社TIMEWELLの濱本です。

「結局どのAIモデルを選べばいいんですか」。先週、ある製造業のCIOから打ち合わせの最後にぽつりと聞かれました。Claude、GPT、Geminiは知っている。最近DeepSeekが話題になったのも見た。Llamaも社内のエンジニアが触っているらしい。でも、何をどう組み合わせればいいのか分からない、と。

率直に言って、いまのAIモデル選定は1年前とはまったく違う風景になっています。2026年4月、DeepSeekがV4をプレビュー公開し、Mistralが256kコンテキストの大型MoEを完全オープン化し、AlibabaのQwenはHugging Faceで累計7億ダウンロードを突破しました。一方で、Claude Opus 4.7やGPT-5.5、Gemini 3.1 Proといった商用モデルも能力を伸ばし続けています。

このシリーズの第5弾として、今回はオープンソースAIとプロプライエタリAIの境界を引き直し、最新ベンチマーク、コスト、規制、そして安全保障の論点まで踏み込んで整理します。日本の企業が読み終わったあとに「自社の場合はこの組み合わせだな」と判断できるところまで持っていくつもりです。

オープンソースAIとは何か：3層に分けて理解する

「オープンソースAI」と一括りにされがちですが、実態は3つの層に分かれます。この区別を曖昧にしたまま議論しても噛み合いません。

最も厳格なのがフルオープン。Open Source Initiative（OSI）が2024年10月に公開した「Open Source AI Definition 1.0」が世界標準になりつつあり、ここでは学習データの情報、ソースコード、重み、アーキテクチャ文書のすべてが公開されていることが要件とされます。OSIの検証フェーズを通過したのはPythia（EleutherAI）、OLMo（AI2）、Amber、CrystalCoder（LLM360）、T5（Google）といった、研究色の強いモデルだけです。

次にオープンウェイト。これは重みファイルのみ公開され、学習データや前処理スクリプトは非公開という形態です。Meta Llama、Mistral、Qwen、DeepSeek、Phi、Gemma など、世間で「オープンソースAI」と呼ばれるモデルの大半はこちらに分類されます。重みがあるのでファインチューニングや量子化、オンプレ運用は可能ですが、ゼロから再学習することはできません。

最後に部分オープン。重みは公開されているが、ライセンスに使用制限があるパターンです。Llama 4のコミュニティライセンスはこの典型例で、月間アクティブユーザーが7億を超える企業はMetaから別途ライセンスを取得する必要があり、マルチモーダル版についてはEU居住者やEU内企業への権利付与が明示的に除外されています。OSIは「Llamaは依然としてオープンソースではない」と公式に否定する声明を出しました[^2]。

ここでひとつ申し上げておきたいのは、ライセンスの厳密さと実用性は別物だということです。ZEROCKのような国内エンタープライズ案件で重要なのは「オンプレで自由に動かせるか」「商用利用に追加料金が発生するか」「規制対応上の地雷を踏まないか」です。OSI認定の有無はその判断材料のひとつにすぎません。とはいえ、EU AI Actが2026年8月から全面適用される今、ライセンスの選別は無視できないテーマになりました[^1]。

2026年4月時点の主要OSSモデル：性能とライセンスの実像

具体名に踏み込みます。2026年4月時点で押さえるべきOSS系モデルは6系統です。

**Llama 4（Meta、2025年4月）**は、Scout、Maverick、Behemothの3モデル構成。Maverickは総パラメータ400Bながらアクティブ17BのMoE設計で、MMLU Proは80.5、GPQA Diamondは69.8。Llamaは長らくOSS界の代表選手でしたが、ライセンス問題と後述するDeepSeek・Qwenの台頭で、2025年10月にHugging Face累計DLでQwenに首位を奪われました。

**Mistral Large 3（Mistral AI、2025年12月）**は、フランス発のApache 2.0モデル。アクティブ41B、総675BのMoEに、256kトークンという驚異的なコンテキストウィンドウ。マルチモーダルとマルチリンガルを同時にサポートし、フロンティアOSSとしては初めてOpenAIのGPT-4oやGoogleのGemini 2に肩を並べる水準まで来たと評価されています。EU AI Actの開示義務との相性が最も良い1モデルです。

**Qwen 3（Alibaba、2025年4月）**は、いま世界で最も使われているOSSモデルです。0.6Bから32Bの密ネットワーク、30Bと235BのMoEまで揃え、36兆トークンで学習。119言語サポートで、Model Context Protocol（MCP）とFunction Callingを標準で備えます。2026年1月にHugging Face累計DL 7億を突破し、グローバルOSSダウンロードの過半を占めるまでに育ちました[^5]。Qwen 2.5-1.5B-Instructは「世界で最もダウンロードされているAIモデル」とまで呼ばれています。

**DeepSeek V4（2026年4月プレビュー公開）**は、今回の記事を書く直接のきっかけになったモデルです。Pro版は総1.6T、アクティブ49BのMoEで、現存するオープンウェイトモデルの中で最大級。MMLUは90.1、HumanEval Pass@1は76.8、SWE-benchやBrowseCompでも商用モデルに迫る数値を出しています。さらに衝撃的なのが、ネイティブ1Mトークンコンテキストを実現しつつ、V3.2比でFLOPsは27%、KVキャッシュは10%まで削減した点[^4]。API価格はFlashが入力$0.14/出力$0.28、Proが入力$0.145/出力$3.48と、GPT-5.5の入力$5/出力$30と比べて文字通り桁が違います。

**Phi-4（Microsoft、2025年1月、MITライセンス）**はサイズ重視派の本命。14BパラメータでLlama 3.3 70Bを凌ぐベンチマーク（GPQA、MATH）を出してきました。MATHやMGSMで80%超のスコアは、サイズ比で考えると驚異的です。

**Gemma 3（Google）**は1Bから27Bまでのレンジで、4B以上はマルチモーダル、128kコンテキスト、140言語サポート。27B-ITはMMLU-Pro 67.5、GPQA Diamond 42.4、MATH 69.0と、Gemini 1.5 Proを上回る数値を出します。Googleが本気で出してきた小型モデル群で、エンタープライズの軽量用途には筆頭候補です。

ここで強調したいのは、もはや「OSSは性能で劣る」という前提が成り立たなくなったことです。LMSys Chatbot Arenaでは、上位OSSモデルと商用モデルの差は数十Elo、つまり指標によっては誤差レベルまで縮まっています[^3]。中国系ラボの開発スピードが特に異常で、DeepSeekは2024年12月のV3公開から1年4ヶ月でフロンティア級に到達しました。

AI活用に関心をお持ちですか？

TIMEWELLのサービス資料をご用意しています。まずはお気軽にご相談ください。

無料相談を予約資料をダウンロード

ベンチマーク横並び：用途別の実力差

数字を並べて見ると、得意領域がモデルごとに大きく違うことが分かります。2026年4月時点の主要ベンチマークを整理します。

モデル	MMLU/MMLU-Pro	GPQA Diamond	SWE-bench Pro	HumanEval	備考
Claude Opus 4.7	—	94.2%	64.3%	サチュレート	コーディング・MCP-Atlas（77.3%）でトップ
GPT-5.5	—	94.4%（5.4）	57.7%（5.4）	サチュレート	Terminal-Bench 2.0で首位、価格は値上げ
Gemini 3.1 Pro	—	94.3%	54.2%	サチュレート	マルチモーダル（Video-MME 78.2%）で独走
DeepSeek V4-Pro	90.1（MMLU 5-shot）	—	商用に肉薄	76.8	1Mコンテキスト、コスパ異次元
Llama 4 Maverick	80.5（MMLU Pro）	69.8	—	—	MoE、EUは別途制限
Qwen 3-235B	—	—	—	—	AIME25・LiveCodeBench・Arena-Hardで上位
Mistral Large 3	—	—	—	—	256kコンテキスト、Apache 2.0
Phi-4 (14B)	80%+（MATH/MGSM）	Llama 3.3 70B超	—	—	サイズ比で異常な性能
Gemma 3 27B-IT	67.5（MMLU-Pro）	42.4	—	—	128kコンテキスト、軽量本命

このスコア表だけ見せて「DeepSeekで決まりですね」と言いたくなる気持ちは分かります。ただ、私が実装現場で見てきた限り、ベンチマークは「最低ライン」を示すだけで、実運用での選定はもう一歩踏み込んだ観点が要ります。

たとえばコーディング支援に使うなら、SWE-bench Proの64.3%を出すClaude Opus 4.7が圧倒的です。OSSのQwen3-Coder-Nextは「20倍大きいモデルに匹敵する」と評価されていますが、現場の生産性で言えばまだ商用には及びません。一方、社内ナレッジ検索やドキュメント要約のように「精度はそこそこでいいから安くて速い」用途であれば、DeepSeek V4-FlashやQwen 3-30Bが圧倒的に有利です。

マルチモーダル、特に動画理解を伴う案件は別格で、Gemini 3.1 Proの78.2%という数字は当面追随を許しません。逆に文字起こしや音声生成だけならMistralのVoxtralが2026年3月に追加リリースされ、こちらは完全オープン。用途を分けてベンチマークを読まないと、選定を間違えます。

ベンチマークの「読み方」で言えば、Chatbot Arenaの結果も鵜呑みにすべきではありません。2025年に発表された研究論文「The Leaderboard Illusion」が指摘したとおり、データアクセス量にプロバイダ間で大きな偏り（プロプライエタリ陣営が61.4%）があり、開放系モデルは早期にデプリケートされて評価が不安定になりがちです。Eloの数値だけで判断するのは、サンプリングバイアスを無視した議論になります。

自社デプロイのコスト：H100×2構成のリアル

「OSSにすればコストが下がる」と耳にしますが、実際の数字を計算すると話はそう単純ではありません。Llama 4 70BクラスをH100×2の構成で動かす場合、現実的なコスト構造は次のようになります。

まずハードウェア。H100 SXMの中古相場は1枚あたり1万5000ドルから2万ドル。3年償却で月900ドルから1200ドル。電力は1枚あたり500W、月720kWh、PUE1.4を含めると2枚で月131ドル。データセンターのコロケーションで月200ドルから500ドル。そして見落としがちなのが運用人件費で、シニアMLOpsエンジニアの稼働25%でも月4000ドル前後はかかります。

これらを足し合わせると、1日500万トークンを処理するワークロードで月額TCOはおよそ5931ドル。1Mトークンあたり約0.40ドルになります。GPT-5.5のAPIが入力5ドル/出力30ドル/Mトークンですから、確かに1Mあたり単価では大幅に安い。ただし、トラフィックが少ない場合この計算は逆転します。一般的な損益分岐点は1日200万トークン前後と言われており、これを下回るならAPIのほうが圧倒的にお得です。

加えて忘れてはならないのが、隠れコストです。GPU調達のリードタイム、供給制約、インフラチームの採用難、モデル更新時の検証工数。私の経験では、H100の調達リードタイムが3ヶ月から6ヶ月かかった案件が珍しくありません。「来月から使えます」とはならないのです。

ここでDeepSeek V4の価格設定が市場の常識を壊しにきたことの意味が出てきます。Flashが入力$0.14/出力$0.28、Proが入力$0.145/出力$3.48。もはや「APIで使うのか自社ホスティングするのか」という議論の前に、「OSS重みのまま中国系API経由で使うか」という第3の選択肢が現実味を帯びてきました。とはいえ、ここは次の節で扱うように、データ主権と安全保障の論点が絡むため、商用エンタープライズで安易に手を出せる選択ではありません。

WARPでお客様と話していて感じるのは、コストだけで判断する企業は意外に少ないということです。「総額で多少高くてもいいから、説明責任を果たせる構成にしてほしい」というニーズのほうが圧倒的に多い。コスト試算は意思決定の一要素でしかなく、規制や監査、SLA、可観測性まで含めた全体像で見なければ片手落ちです。

データ主権・規制：中国製モデルとEU AI Actの現在地

技術と価格の話だけでは終わらないのが、エンタープライズAI選定の難しさです。2026年は規制と地政学が一気に前面に出てきた年でもあります。

EU AI Actは2026年8月2日に大半の義務が全面適用されます[^1]。OSS GPAI（汎用AIモデル）には一部義務免除が認められるものの、systemic risk（システミックリスク）を持つモデル提供者は免除対象から外れます。論点になるのが「無償公開していても、API課金やサポート契約で収益化していれば免除対象外」という条項。ここを読み違えると、OSSのつもりで使っていたのに開示義務を課されるリスクがあります。EU AI Officeの諮問グループが2026年1月に出した法的分析では、Llama Community LicenseはEU AI Act上の「自由かつオープンなライセンス」に該当しないと判断されました。Mistral 7BやMixtral 8x7BのApache 2.0は適格、というのが現時点の結論です。

中国系モデルについては、地政学リスクがより直接的です。米国ではTexas、Virginia、New Yorkなどの州政府がDeepSeekの公務利用を禁止し、連邦調達からの排除を求める超党派法案も提出されました。韓国、オーストラリア、台湾、イタリアも続いています。NIST傘下のCenter for AI Standards and Innovationが行ったテストでは、DeepSeek R1はjailbreak技法に対して94%の確率で有害要求に応じてしまった一方、米系フロンティアモデルは8%にとどまったというデータが出ています。

私はQwenやDeepSeekを「中国製だから危険」と短絡的に切り捨てる議論には違和感を持っています。重みをローカルにダウンロードしてオンプレやAWS東京リージョンの閉域で動かす分には、技術的な情報流出経路はAPI経由とは別物です。重みファイル自体に通信機能はありません。ただし、クラウドAPI経由で使う場合は1リクエストで最大10万語のユーザーデータが中国本土に送信される設計になっており、ここは商用エンタープライズで踏むべきでない地雷だと考えます。

日本国内でも、関連記事のAI輸出管理規制2026年版や地方自治体の中国製IT禁止動向で書いたとおり、経済安全保障推進法と外為法の運用が厳格化しており、防衛・公共・インフラ関連でのDeepSeekやQwenの直接利用はほぼ選択肢から外れつつあります。一方で、官公庁向けにはPLaMo 2.2 PrimeやRakuten AI 3.0、Fujitsu tsuzumi 2など国産OSSモデルの選択肢が育ってきており、METIのGENIAC（2025年12月発表の5年1兆円AI投資プログラム）が後押ししています。

ZEROCKがAWS国内サーバーでGraphRAGを完結させ、モデル交換可能なアーキテクチャを採用している理由はここにあります。重みの差し替えで規制対応を即座に変えられる設計こそ、いまのエンタープライズAIに必要な柔軟性です。具体的な国内エージェントの動向は、別記事のGoogle Cloud Next 2025のエンタープライズAIエージェント潮流も参照ください。

エンタープライズが取るべきハイブリッド戦略

ここまで読んでいただいた方は、もう「OSS一択」「商用一択」ではなく、組み合わせるのが現実解だと感じているはずです。NVIDIAのCEOがインタビューで述べた「Proprietary versus open is not a thing. It's proprietary AND open」という言葉は、いまのエンタープライズAI戦略の本質を突いています[^7]。

私が現場で推奨しているのは3層構造の使い分けです。最上層に商用フロンティアモデル（Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro）を置き、顧客対応や経営判断支援、最高水準の推論が必要なタスクに使う。中間層にオープンウェイトの大型モデル（Mistral Large 3、Qwen 3、Llama 4、DeepSeek V4、ただし規制要件を満たすもののみ）をオンプレや国内クラウドで運用し、社内ナレッジ検索や定型処理を高速かつ安価に回す。最下層に小型OSSモデル（Phi-4、Gemma 3）を完全閉域で配置し、機密度の高いPHIやPIIの処理に使う。

実はNVIDIA自身がこのハイブリッド構成を採用しており、フロンティアモデルでオーケストレーションを担い、Nemotron系のOSSで研究・実験を回す構成によりクエリコストを50%以上削減した、と公表しています。Kai Waehner氏がエンタープライズAIランドスケープの分析で示したとおり、本番環境にOSSモデルを導入している企業は89%に達し、73%が商用代替よりROIが高いと答えています[^7]。

ハイブリッド戦略でつまずきがちなのが、オーケストレーション層のロックインです。商用モデルベンダー独自のエージェントフレームワークに乗ってしまうと、上位互換のように見えて実は深いベンダーロックインを抱え込みます。Model Context Protocol（MCP）のようなオープン標準を中核に据え、モデルとエージェント基盤を疎結合にしておくのが、3年先まで安全に使い続けるための鍵です。Qwen 3がMCPをネイティブ対応で出してきたのは象徴的で、OSS陣営がインターオペラビリティで主導権を握る流れがはっきりしてきました。

実装ツールの選び方も整理しておきます。ローカル開発はOllama（Hugging Face Hubから45,000以上のGGUFモデルを1コマンドで起動できる）。本番運用はvLLM（PagedAttentionでメモリ断片化を50%以上削減、スループットを2〜4倍に向上）。両者ともOpenAI互換APIを提供するため、コードレベルで切り替えられます。Hugging Face Inference Endpointsを使えば、自社GPUを持たずに専用エンドポイントを立てる選択肢もあります。

WARPでは、こうした多層構成のモデル選定とハイブリッド設計の伴走支援をしています。「自社のワークロードならどこを商用に任せ、どこをOSSで巻き取るのが最適か」を、ベンチマークだけでなくTCOと規制要件まで含めて算出する仕事です。一回のお試し導入では見えない論点を、現場の運用担当者と一緒に潰していくフェーズが大事だと思っています。

著者の見解：用途別に「推し」を明確にする

最後に、私自身の意見を率直に書きます。「両方使えばいい」で終わらせるのは逃げなので、用途ごとにいまの推しを明示します。

コーディング支援は商用一択。Claude Opus 4.7のSWE-bench Pro 64.3%は、OSSが追いつくまでまだ12〜18ヶ月かかると見ています。エンジニアの生産性に直結する領域でケチるべきではありません。

社内ナレッジ検索・RAGはOSSが本命。データ量とコストの両面でDeepSeek V4-FlashやQwen 3-30Bが現実解。ただし中国系モデルを使うなら必ずオンプレか国内閉域で。商用エンタープライズのお客様にはMistral Large 3を推すことが増えました。Apache 2.0で規制対応の説明がしやすいからです。

**マルチモーダル（特に動画）**はGemini 3.1 Pro。ここはGoogleの圧勝で、当面動きません。製造業の検査画像分析や、メディア企業の動画タグ付けなどでは選択の余地が小さい。

コミュニティやイベントなどコンシューマー向け対話はBASEのようなアプリケーション層で抽象化し、裏側のモデルは差し替え前提で設計。BASEの裏にはどんなモデルが入っていても、エンドユーザーには関係ないですからね。

機密度MAXの社内データ処理はPhi-4やGemma 3を完全閉域で。14Bパラメータでも、用途を絞ればMATHで80%超を出せる時代です。「小さくても十分な仕事はできる」というメッセージが、いま改めて効いています。

実装まで含めると、結局のところ「どのモデルを選ぶか」より「モデルを差し替え可能なアーキテクチャを最初から組めるか」のほうが10倍重要です。1年前のベストプラクティスは1年後には陳腐化します。DeepSeek V4が証明したように、ゲームチェンジは突然やってきます。

正直なところ、AIモデル選定を「ベンダー比較」の延長で扱う時代は終わったと感じています。これはアーキテクチャ選定の問題であり、規制対応の問題であり、組織能力の問題でもあります。WARPでお客様と一緒にやっているのは、そのすべてを束ねた意思決定の伴走です。お困りごとがあれば、いつでもお声がけください。

このシリーズ第6弾では、エージェント時代のモデルオーケストレーション設計について書く予定です。MCPとA2Aプロトコルの実装の話まで踏み込みます。次回もお楽しみに。

参考文献

[^1]: EU Artificial Intelligence Act – 公式情報サイト [^2]: Open Source Initiative – Meta's Llama license is still not Open Source [^3]: BenchLM.ai – LLM Leaderboard History 2023-2026 [^4]: VentureBeat – DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th the cost [^5]: Alibaba Group – Qwen3 Sets New Benchmark in Open-Source AI [^6]: Vellum – Claude Opus 4.7 Benchmarks Explained [^7]: Kai Waehner – Enterprise Agentic AI Landscape 2026: Trust, Flexibility, and Vendor Lock-in

オープンソースAI vs プロプライエタリAI徹底比較【2026年最新】｜Llama・Mistral・Qwen・DeepSeek vs Claude・GPT・Gemini

オープンソースAIとは何か：3層に分けて理解する

2026年4月時点の主要OSSモデル：性能とライセンスの実像

ベンチマーク横並び：用途別の実力差

自社デプロイのコスト：H100×2構成のリアル

データ主権・規制：中国製モデルとEU AI Actの現在地

エンタープライズが取るべきハイブリッド戦略

著者の見解：用途別に「推し」を明確にする

参考文献

あなたのAIリテラシーを測ってみませんか？

メルマガ登録

あなたのAIリテラシー、診断してみませんか？

関連する基礎知識

課題解決ソリューション

テックトレンドについてもっと詳しく

関連記事

AIエージェントツール15選比較【2026年完全版】｜エンタープライズ向けからオープンソースまで徹底ベンチマーク

AIコーディングツール完全比較【2026年最新】｜Claude Code・Cursor・Copilot・Cline・Continue・Devin・Codex徹底ベンチマーク

Claude Agent SDK実装入門｜自社業務を自動化する独自エージェントの作り方【2026年版】

メルマガ登録