株式会社TIMEWELLの濱本です。
「これは本当にAIなのか?」——Sesameのデモを体験した多くの人がそう感じました。
Sesame AIは、Oculusの共同創業者Brendan Iribe氏が設立した音声AIスタートアップです。2025年2月に公開されたデモは、100万人以上のユーザーを引きつけ、500万分以上の会話を生成。従来のAI音声とは一線を画す「人間らしさ」が大きな話題となりました。
本記事では、Sesameの技術、「Maya」と「Miles」の特徴、そして音声インターフェースがもたらす未来を解説します。
Sesame AIとは:Oculus創業者が挑む音声革命
基本情報
Sesame AIは、音声AIとスマートグラスを開発するスタートアップです。
基本情報:
- 設立: 2022年
- 創業者: Brendan Iribe(Oculus元CEO)、Ankit Kumar(Ubiquity6元CTO)
- 本社: 米国
- 累計調達額: 3億760万ドル(約460億円)
- 主要製品: Maya/Miles音声アシスタント、CSM-1Bモデル
創業者の背景
Brendan Iribe氏は、VRヘッドセット「Oculus Rift」でVR革命を起こした人物。2014年にOculusをMetaに20億ドルで売却した後、音声AIという新たなフロンティアに挑んでいます。
Ankit Kumar氏は、AR/VRスタートアップUbiquity6のCTOを務めた人物。空間コンピューティングの知見をSesameに持ち込んでいます。
資金調達の推移
| 時期 | ラウンド | 調達額 | 主要投資家 |
|---|---|---|---|
| 2023年 | シード | 非公開 | a16z、Spark Capital、Matrix Partners |
| 2025年10月 | Series B | 2億5000万ドル | Sequoia、Spark Capital |
Sequoia Capitalは、「音声の新時代」と題したブログ記事でSesameへの投資理由を説明しています。
Maya & Miles:人間らしさを極めた音声AI
デモが起こしたバイラル
2025年2月、Sesameは「Maya」と「Miles」という2つの音声アシスタントのデモを公開しました。
反響:
- 公開から数週間で100万人以上がアクセス
- 500万分以上の会話を生成
- SNSでバイラル化、多くのメディアが報道
従来のAI音声との違い
従来のAI音声アシスタント(Siri、Alexa、Google Assistant)は、どこか機械的で「AIと話している」感覚が拭えませんでした。Sesameの音声は、それとは根本的に異なります。
Sesameの音声の特徴:
- 感情表現: 喜び、驚き、共感などをトーンで表現
- 自然な間: 人間の会話に近いリズムとポーズ
- 文脈認識: 状況に応じてトーンを調整
- ウィット: ユーモアや機知に富んだ応答
Sesameはこれを「Voice Presence(音声の存在感)」と呼んでいます。単に言葉を発するだけでなく、感情的知性、自然なタイミング、文脈への気づきを組み合わせた概念です。
MayaとMilesの個性
Maya
- フレンドリーで温かみのある声
- 共感的な応答スタイル
- サポーティブな会話パートナー
Miles
- やや落ち着いた声
- ウィットに富んだ応答
- 知的な会話パートナー
ユーザーは、自分の好みに合わせて音声キャラクターを選択できます。
CSM-1B:オープンソース音声生成モデル
モデルの公開
2025年3月、Sesameは「Maya」を動かす基盤モデル「CSM-1B」をオープンソースで公開しました。
CSM-1Bの仕様:
- パラメータ数: 10億(1B)
- ライセンス: Apache 2.0(商用利用可)
- 出力形式: RVQオーディオコード
- 入力: テキストと音声
技術的な革新
従来の音声合成(TTS)は、LLMの出力を音声に「変換」するアプローチでした。Sesameのモデルは異なります。
従来のアプローチ:
[LLM] → テキスト → [TTS] → 音声
Sesameのアプローチ:
[会話モデル] → 直接音声を生成(リズム、感情、表現を含む)
この「エンドツーエンド」のアプローチにより、テキストの中間変換で失われていたニュアンスを保持できるようになりました。
研究論文:「Crossing the Uncanny Valley of Voice」
Sesameは、「Crossing the Uncanny Valley of Voice(音声の不気味の谷を越える)」という研究を公開しています。
研究のポイント:
- なぜ従来のAI音声が「不気味」に感じられるか
- 人間らしさを構成する要素(間、リズム、感情)
- 技術的なアプローチと検証結果
この研究は、音声AI分野における重要な貢献として評価されています。
AIスマートグラス構想
Sesameのビジョン
Sesameは、単なる音声AIスタートアップではありません。最終目標は「常に身につけられるAIインターフェース」——つまり、AIスマートグラスです。
スマートグラスの構想:
- 軽量でファッショナブルなデザイン
- 終日装着可能
- 音声で操作
- 周囲の文脈を理解
Brendan Iribe氏がOculusで培ったハードウェアの知見と、Sesameの音声AI技術を組み合わせることで、「ambient interface(アンビエントインターフェース)」の実現を目指しています。
音声が主インターフェースになる理由
1. ハンズフリー
- 画面を見る必要がない
- 作業中でも操作可能
2. 低摩擦
- タイピングより速い
- 自然な形でAIと対話
3. ウェアラブルとの相性
- スマートグラス、イヤホンとの統合
- AR/VR体験との連携
音声AIの課題と限界
現時点での制限
Sesameの技術は革新的ですが、音声インターフェース全般にはまだ課題があります。
1. タスク実行の不確実性
- LLMは「会話」は得意だが「実行」は苦手
- 指示を正確に実行できない場合がある
- エラー時のリカバリーが困難
2. プライバシー
- 常時リスニングへの懸念
- 音声データの取り扱い
- 公共の場での利用
3. 文脈の限界
- 視覚情報がないと文脈理解に限界
- 複雑なタスクには向かない
- マルチモーダルとの統合が必要
セキュリティリスク
プロンプトインジェクション
- 悪意のある音声による攻撃
- AIを騙して不正な操作を実行
- 対策技術の開発が進行中
競合環境
音声AI市場のプレイヤー
| 企業 | 特徴 | 強み |
|---|---|---|
| Sesame | 人間らしい音声生成 | Voice Presence、スマートグラス |
| ElevenLabs | 総合音声AIプラットフォーム | TTS、音声クローン、多言語 |
| OpenAI | GPT-5.2の音声機能 | Advanced Voiceモード |
| Amazon | Alexa | スマートホーム統合 |
| Apple | Siri | Apple製品統合 |
| Google Assistant | 検索・サービス統合 |
Sesameの差別化
1. 技術的アプローチ
- エンドツーエンドの音声生成
- 「Voice Presence」の追求
- オープンソース貢献
2. ハードウェア統合
- 自社スマートグラス開発
- ソフト+ハードの垂直統合
- Oculus経験の活用
3. フォーカス
- 「会話」に特化
- 音声インターフェースの本質追求
- 汎用ではなく特化型
当時と現在:音声AIの進化
本記事の元となった情報と比較して、Sesameは大きく進化しています。
当時(2024年後半):
- Sesameはステルスモード
- 音声AIはまだ機械的
- スマートグラスはMeta主導
現在(2026年1月):
- 累計3億ドル以上を調達
- Maya/Milesがバイラルヒット
- CSM-1Bをオープンソース化
- 「Voice Presence」という新概念
- AIスマートグラスの開発
音声AIは、「機械と話している感覚」から「人間と話している感覚」へと確実に進化しています。
企業での音声AI活用
活用シナリオ
1. カスタマーサポート
- 人間らしい応対
- 感情的なニュアンスの理解
- ストレスの少ない体験
2. 社内アシスタント
- ハンズフリーでの情報検索
- 会議中のメモ取り
- スケジュール管理
3. 営業支援
- 商談前の情報確認
- 音声でのCRM入力
- フォローアップリマインダー
4. 教育・トレーニング
- 発音練習のパートナー
- ロールプレイング
- 言語学習支援
導入の考慮点
1. ユースケースの選定
- 音声が最適なシナリオを特定
- テキストの方が適切な場面を認識
- ハイブリッドアプローチの検討
2. プライバシー・セキュリティ
- 音声データの取り扱いポリシー
- 従業員への説明と同意
- データの保存・削除ルール
3. 統合の複雑さ
- 既存システムとの連携
- APIの安定性
- エラーハンドリング
TIMEWELLでは、WARPコンサルティングを通じて、Sesameを含む最新の音声AI技術の効果的な導入・活用方法を支援しています。
また、ZEROCKでは、エンタープライズ向けのAI活用基盤を提供し、音声AIを含むさまざまなAIツールとの連携を可能にしています。
今後の展望
2026年以降の予測
1. AIスマートグラスの登場
- Sesame自社製グラスの発売
- 音声+視覚の統合体験
- Metaとの競争激化
2. 音声インターフェースの普及
- スマートホームとの統合深化
- 自動車での標準搭載
- ウェアラブルの主要入力手段に
3. 技術の進化
- さらなる「人間らしさ」の追求
- マルチモーダル統合
- リアルタイム翻訳の実用化
まとめ
Sesame AIは、音声インターフェースの「不気味の谷」を越えようとしている注目のスタートアップです。
本記事のポイント:
- Oculusの共同創業者Brendan Iribe氏が設立
- 累計3億760万ドル(約460億円)を調達
- Maya/Milesが100万人以上を魅了
- CSM-1Bをオープンソース(Apache 2.0)で公開
- 「Voice Presence」——人間らしさを追求
- AIスマートグラスの開発を目指す
音声は、テキストや画像と並ぶAIの重要なインターフェースです。Sesameの技術は、「AIと話す」という体験そのものを変える可能性を秘めています。従来のAI音声の機械的な印象を払拭し、本当に「人間と話している」ような体験を実現する——その挑戦は、今まさに始まったばかりです。
