こんにちは、株式会社TIMEWELLの濱本隆太です。
ChatGPTが「目」を手に入れました。2024年12月、OpenAIはAdvanced Voice Mode(高度な音声モード)にビデオ通話機能とスクリーンシェア機能を追加し、テキストと音声だけだったAIとのコミュニケーションに「映像」という新たな次元を加えました。本記事では、この機能の仕組みからビジネス活用法、そして2026年現在のマルチモーダルAIの進化までを網羅的に解説します。
ビデオ通話機能とは:AIが映像をリアルタイムに理解する
OpenAIが2024年12月12日に発表したビデオ通話機能は、ChatGPTのAdvanced Voice Modeにカメラ映像の入力を可能にした画期的なアップデートです。ユーザーがスマートフォンのカメラを向けると、ChatGPTがその映像をリアルタイムで分析し、音声で応答します。
主な特徴
| 機能 | 詳細 |
|---|---|
| リアルタイム映像認識 | カメラに映った物体・人物・文字を即座に識別 |
| 音声との統合 | 映像を見ながら自然な音声で会話を継続 |
| 記憶能力 | 会話中に紹介された人物の名前を記憶 |
| 多言語対応 | 50以上の言語で感情やトーンを含む応答が可能 |
| 応答速度 | 約232ミリ秒で応答(人間の会話速度に匹敵) |
デモンストレーションでは、ChatGPTがカメラ越しにコーヒーメーカーを認識し、ハンドドリップコーヒーの淹れ方をフィルターの準備からブルーミング、お湯の注ぎ方まで段階的に指導する様子が披露されました。さらに、複数人の自己紹介を記憶し、「サンタの帽子をかぶっていた同僚の名前は?」という質問にも即答するなど、視覚と記憶の統合を実証しています。
利用方法
- ChatGPTモバイルアプリの最新版をインストール
- チャット画面右下の「Advanced Voice Mode」ボタンをタップ
- 「Video」ボタンをタップしてビデオ通話を開始
- カメラを対象物に向けながらChatGPTと会話
スクリーンシェア機能で広がるAI活用シーン
ビデオ通話と同時に追加されたスクリーンシェア機能では、ユーザーのスマートフォン画面をChatGPTと共有できます。カメラで周囲を映すだけでなく、画面上のアプリやコンテンツをAIが直接分析し、リアルタイムでアドバイスを受けられます。
スクリーンシェアの活用例
- メッセージの返信支援:メッセージアプリの画面を共有し、文脈に合った返信案を提案してもらう
- コード レビュー:プログラミング画面を共有し、エラーの特定やコード改善のアドバイスを受ける
- 資料のレビュー:プレゼン資料やスプレッドシートを表示しながら改善点を指摘してもらう
- 操作ガイド:アプリの使い方がわからないとき、画面を見せながら手順を教えてもらう
利用方法はビデオ通話と同様で、「Advanced Voice Mode」から「Share Screen」を選択するだけです。
GPT-4oが実現するマルチモーダルの技術基盤
これらの機能を支えているのは、OpenAIのGPT-4oモデルです。GPT-4oは「ネイティブマルチモーダル」設計を採用しており、テキスト・音声・画像・映像を統合的に処理します。
従来モデルとの比較
| 項目 | 従来のモデル | GPT-4o |
|---|---|---|
| 音声処理 | 音声→テキスト変換→処理→テキスト→音声合成 | 音声を直接処理し、音声で直接出力 |
| 映像理解 | 静止画のみ対応 | リアルタイム映像ストリームに対応 |
| 応答速度 | 数秒のラグ | 約232ミリ秒(ほぼリアルタイム) |
| 感情認識 | テキスト内容からの推測 | 声のトーン・速度・感情を直接理解 |
中間のテキスト変換ステップを排除したことで、遅延が大幅に削減され、人間同士の自然な会話に近い応答速度を実現しました。
ビジネスシーンでの具体的な活用方法
ビデオ通話・スクリーンシェア機能は、ビジネスの幅広い場面で活用できます。
1. 現場作業のリモート支援
製造業や建設業の現場で、作業員がカメラを向けながら機器のトラブルシューティングを行えます。AIが映像から状況を判断し、段階的な修理手順を音声でガイドします。
2. 営業資料のリアルタイムレビュー
提案書やプレゼン資料をスクリーンシェアしながら、構成の改善点やデータの見せ方について即座にフィードバックを受けられます。
3. 多言語コミュニケーション
50以上の言語に対応しているため、海外取引先とのやり取りで通訳的な役割を果たすことも可能です。
4. 教育・トレーニング
新人教育の場面で、実際の業務画面や作業環境を見せながらAIが個別に指導する仕組みを構築できます。
2026年の最新動向:マルチモーダルAIの進化
2025年から2026年にかけて、ChatGPTのマルチモーダル機能はさらに大きな進化を遂げています。
主なアップデート
- 音声会話のシームレス統合(2025年11月):音声会話が既存のチャットスレッド内で直接行えるようになり、テキスト・画像・地図と音声がリアルタイムで並行表示される
- 無料ユーザーへの開放(2025年2月):Advanced Voice Modeのプレビューが無料ユーザーにも提供開始
- GPT-5.2リリース(2025年12月):全プランのデフォルトモデルとなり、マルチモーダル処理能力がさらに向上
- GPT-5.3-Codex(2026年2月):コード生成を超えた汎用作業エージェントへと進化
2026年現在、ChatGPTの市場シェアは64.5%(2025年初頭の86.7%から変動)で、GoogleのGeminiが21.5%まで成長するなど、マルチモーダルAI市場全体が急速に拡大しています。
企業のAI活用をTIMEWELL WARPが支援
マルチモーダルAIの進化により、企業のAI活用の可能性は大きく広がっています。一方で、「自社にどう導入すればよいかわからない」「セキュリティが心配」という声も多く聞かれます。
株式会社TIMEWELLが提供するAIコンサルティングサービス「WARP」では、こうした企業の課題に対応しています。
- WARP:AI戦略の立案から実装まで、専門家が伴走支援
- WARP NEXT:既存業務へのAI導入計画を策定し、段階的に実装
- WARP BASIC:AI活用の基礎を学べる研修プログラム
元大手企業のDX・データ戦略専門家が、最新のマルチモーダルAI技術を含むAI活用戦略を、御社の状況に合わせて提案します。
まとめ
- ChatGPTのAdvanced Voice Modeにビデオ通話・スクリーンシェア機能が追加され、AIとの「映像を伴う対話」が実現した
- GPT-4oのネイティブマルチモーダル設計により、約232ミリ秒のリアルタイム応答が可能になった
- 50以上の言語に対応し、感情やトーンを含む自然な会話ができる
- 現場支援・営業・教育など、ビジネスの幅広い場面で活用可能
- 2025年11月には音声会話がチャットスレッドにシームレス統合された
- 2026年にはGPT-5.2/5.3が登場し、マルチモーダルAI市場は「実験フェーズ」から「本格定着期」へ移行
- AI活用に迷ったら、TIMEWELL WARPの専門家に相談するのが近道
参考文献
- OpenAI公式 - Day 6: Advanced voice with video & Santa mode
- ChatGPT Release Notes - OpenAI Help Center
- Advanced Voice Mode FAQ - OpenAI Help Center
- ChatGPT gets screensharing and real-time video analysis - VentureBeat
- Introducing GPT-5.2 - OpenAI
