Sesame AI完全解説｜3億ドル調達・Maya/Miles・CSM-1B——人間らしさを追求する音声AIの新星

株式会社TIMEWELLの濱本です。

「これは本当にAIなのか？」——Sesameのデモを体験した多くの人がそう感じました。

Sesame AIは、Oculusの共同創業者Brendan Iribe氏が設立した音声AIスタートアップです。2025年2月に公開されたデモは、100万人以上のユーザーを引きつけ、500万分以上の会話を生成。従来のAI音声とは一線を画す「人間らしさ」が大きな話題となりました。

本記事では、Sesameの技術、「Maya」と「Miles」の特徴、そして音声インターフェースがもたらす未来を解説します。

Sesame AIとは：Oculus創業者が挑む音声革命

基本情報

Sesame AIは、音声AIとスマートグラスを開発するスタートアップです。

基本情報：

設立: 2022年
創業者: Brendan Iribe（Oculus元CEO）、Ankit Kumar（Ubiquity6元CTO）
本社: 米国
累計調達額: 3億760万ドル（約460億円）
主要製品: Maya/Miles音声アシスタント、CSM-1Bモデル

創業者の背景

Brendan Iribe氏は、VRヘッドセット「Oculus Rift」でVR革命を起こした人物。2014年にOculusをMetaに20億ドルで売却した後、音声AIという新たなフロンティアに挑んでいます。

Ankit Kumar氏は、AR/VRスタートアップUbiquity6のCTOを務めた人物。空間コンピューティングの知見をSesameに持ち込んでいます。

資金調達の推移

時期	ラウンド	調達額	主要投資家
2023年	シード	非公開	a16z、Spark Capital、Matrix Partners
2025年10月	Series B	2億5000万ドル	Sequoia、Spark Capital

Sequoia Capitalは、「音声の新時代」と題したブログ記事でSesameへの投資理由を説明しています。

Maya & Miles：人間らしさを極めた音声AI

デモが起こしたバイラル

2025年2月、Sesameは「Maya」と「Miles」という2つの音声アシスタントのデモを公開しました。

反響：

公開から数週間で100万人以上がアクセス
500万分以上の会話を生成
SNSでバイラル化、多くのメディアが報道

従来のAI音声との違い

従来のAI音声アシスタント（Siri、Alexa、Google Assistant）は、どこか機械的で「AIと話している」感覚が拭えませんでした。Sesameの音声は、それとは根本的に異なります。

Sesameの音声の特徴：

感情表現: 喜び、驚き、共感などをトーンで表現
自然な間: 人間の会話に近いリズムとポーズ
文脈認識: 状況に応じてトーンを調整
ウィット: ユーモアや機知に富んだ応答

Sesameはこれを「Voice Presence（音声の存在感）」と呼んでいます。単に言葉を発するだけでなく、感情的知性、自然なタイミング、文脈への気づきを組み合わせた概念です。

MayaとMilesの個性

Maya

フレンドリーで温かみのある声
共感的な応答スタイル
サポーティブな会話パートナー

Miles

やや落ち着いた声
ウィットに富んだ応答
知的な会話パートナー

ユーザーは、自分の好みに合わせて音声キャラクターを選択できます。

CSM-1B：オープンソース音声生成モデル

モデルの公開

2025年3月、Sesameは「Maya」を動かす基盤モデル「CSM-1B」をオープンソースで公開しました。

CSM-1Bの仕様：

パラメータ数: 10億（1B）
ライセンス: Apache 2.0（商用利用可）
出力形式: RVQオーディオコード
入力: テキストと音声

技術的な革新

従来の音声合成（TTS）は、LLMの出力を音声に「変換」するアプローチでした。Sesameのモデルは異なります。

従来のアプローチ：

[LLM] → テキスト → [TTS] → 音声

Sesameのアプローチ：

[会話モデル] → 直接音声を生成（リズム、感情、表現を含む）

この「エンドツーエンド」のアプローチにより、テキストの中間変換で失われていたニュアンスを保持できるようになりました。

研究論文：「Crossing the Uncanny Valley of Voice」

Sesameは、「Crossing the Uncanny Valley of Voice（音声の不気味の谷を越える）」という研究を公開しています。

研究のポイント：

なぜ従来のAI音声が「不気味」に感じられるか
人間らしさを構成する要素（間、リズム、感情）
技術的なアプローチと検証結果

この研究は、音声AI分野における重要な貢献として評価されています。

AIスマートグラス構想

Sesameのビジョン

Sesameは、単なる音声AIスタートアップではありません。最終目標は「常に身につけられるAIインターフェース」——つまり、AIスマートグラスです。

スマートグラスの構想：

軽量でファッショナブルなデザイン
終日装着可能
音声で操作
周囲の文脈を理解

Brendan Iribe氏がOculusで培ったハードウェアの知見と、Sesameの音声AI技術を組み合わせることで、「ambient interface（アンビエントインターフェース）」の実現を目指しています。

音声が主インターフェースになる理由

1. ハンズフリー

画面を見る必要がない
作業中でも操作可能

2. 低摩擦

タイピングより速い
自然な形でAIと対話

3. ウェアラブルとの相性

スマートグラス、イヤホンとの統合
AR/VR体験との連携

音声AIの課題と限界

現時点での制限

Sesameの技術は革新的ですが、音声インターフェース全般にはまだ課題があります。

1. タスク実行の不確実性

LLMは「会話」は得意だが「実行」は苦手
指示を正確に実行できない場合がある
エラー時のリカバリーが困難

2. プライバシー

常時リスニングへの懸念
音声データの取り扱い
公共の場での利用

3. 文脈の限界

視覚情報がないと文脈理解に限界
複雑なタスクには向かない
マルチモーダルとの統合が必要

セキュリティリスク

プロンプトインジェクション

悪意のある音声による攻撃
AIを騙して不正な操作を実行
対策技術の開発が進行中

競合環境

音声AI市場のプレイヤー

企業	特徴	強み
Sesame	人間らしい音声生成	Voice Presence、スマートグラス
ElevenLabs	総合音声AIプラットフォーム	TTS、音声クローン、多言語
OpenAI	GPT-5.2の音声機能	Advanced Voiceモード
Amazon	Alexa	スマートホーム統合
Apple	Siri	Apple製品統合
Google	Google Assistant	検索・サービス統合

Sesameの差別化

1. 技術的アプローチ

エンドツーエンドの音声生成
「Voice Presence」の追求
オープンソース貢献

2. ハードウェア統合

自社スマートグラス開発
ソフト+ハードの垂直統合
Oculus経験の活用

3. フォーカス

「会話」に特化
音声インターフェースの本質追求
汎用ではなく特化型

当時と現在：音声AIの進化

本記事の元となった情報と比較して、Sesameは大きく進化しています。

当時（2024年後半）：

Sesameはステルスモード
音声AIはまだ機械的
スマートグラスはMeta主導

現在（2026年1月）：

累計3億ドル以上を調達
Maya/Milesがバイラルヒット
CSM-1Bをオープンソース化
「Voice Presence」という新概念
AIスマートグラスの開発

音声AIは、「機械と話している感覚」から「人間と話している感覚」へと確実に進化しています。

企業での音声AI活用

活用シナリオ

1. カスタマーサポート

人間らしい応対
感情的なニュアンスの理解
ストレスの少ない体験

2. 社内アシスタント

ハンズフリーでの情報検索
会議中のメモ取り
スケジュール管理

3. 営業支援

商談前の情報確認
音声でのCRM入力
フォローアップリマインダー

4. 教育・トレーニング

発音練習のパートナー
ロールプレイング
言語学習支援

導入の考慮点

1. ユースケースの選定

音声が最適なシナリオを特定
テキストの方が適切な場面を認識
ハイブリッドアプローチの検討

2. プライバシー・セキュリティ

音声データの取り扱いポリシー
従業員への説明と同意
データの保存・削除ルール

3. 統合の複雑さ

既存システムとの連携
APIの安定性
エラーハンドリング

TIMEWELLでは、WARPコンサルティングを通じて、Sesameを含む最新の音声AI技術の効果的な導入・活用方法を支援しています。

また、ZEROCKでは、エンタープライズ向けのAI活用基盤を提供し、音声AIを含むさまざまなAIツールとの連携を可能にしています。

今後の展望

2026年以降の予測

1. AIスマートグラスの登場

Sesame自社製グラスの発売
音声+視覚の統合体験
Metaとの競争激化

2. 音声インターフェースの普及

スマートホームとの統合深化
自動車での標準搭載
ウェアラブルの主要入力手段に

3. 技術の進化

さらなる「人間らしさ」の追求
マルチモーダル統合
リアルタイム翻訳の実用化

まとめ

Sesame AIは、音声インターフェースの「不気味の谷」を越えようとしている注目のスタートアップです。

本記事のポイント：

Oculusの共同創業者Brendan Iribe氏が設立
累計3億760万ドル（約460億円）を調達
Maya/Milesが100万人以上を魅了
CSM-1Bをオープンソース（Apache 2.0）で公開
「Voice Presence」——人間らしさを追求
AIスマートグラスの開発を目指す

音声は、テキストや画像と並ぶAIの重要なインターフェースです。Sesameの技術は、「AIと話す」という体験そのものを変える可能性を秘めています。従来のAI音声の機械的な印象を払拭し、本当に「人間と話している」ような体験を実現する——その挑戦は、今まさに始まったばかりです。