株式会社TIMEWELLの濱本です。
2026年、LLMアプリケーション開発において「観測性(Observability)」の重要性が急速に高まっています。
その中心にあるのが、オープンソースLLMエンジニアリングプラットフォーム「Langfuse」です。OpenTelemetryを基盤とした業界標準のトレーシング、50以上のフレームワーク統合、プロンプトのバージョン管理、LLM-as-a-Judge評価機能など、LLMアプリケーションの開発・運用に必要な機能を一元提供しています。
本記事では、Langfuseの機能と、政治テックプロジェクト「みらい議会」での実践的な活用事例を解説します。
Langfuse 2026年最新情報
| 項目 | 内容 |
|---|---|
| 基盤技術 | OpenTelemetry(オープンスタンダード) |
| 統合フレームワーク | 50以上(LangChain、OpenAI SDK、LiteLLM等) |
| トレーシング | マルチターン会話、セッション、ユーザー追跡 |
| プロンプト管理 | バージョン管理、ABテスト、キャッシュ |
| 評価機能 | LLM-as-a-Judge、ユーザーフィードバック、カスタムパイプライン |
| プレイグラウンド | プロンプトのリアルタイム実験 |
| デプロイ | セルフホスト対応、数分で構築可能 |
| 最新更新 | Observations API v2、インラインコメント機能(2026年1月) |
Langfuseとは——LLM観測プラットフォーム
LLMアプリケーションの課題
LLMを活用したアプリケーション開発では、以下の課題が発生します。
開発フェーズの課題:
- プロンプトの効果を定量的に評価できない
- どのモデル/設定が最適か判断しづらい
- 本番環境での挙動が予測しにくい
運用フェーズの課題:
- APIコストが急増する原因がわからない
- ユーザーごとの利用状況を把握できない
- 品質劣化を早期に検知できない
Langfuseは、これらの課題を解決する統合プラットフォームです。
OpenTelemetry基盤
Langfuseは2026年、OpenTelemetryを基盤技術として採用しています。
OpenTelemetry採用のメリット:
- 業界標準のオープンスタンダード
- Langfuse専用SDKに縛られない
- 複数の送信先に同時にトレース可能(Langfuse + Datadog等)
- 既存のインフラ監視と統合可能
コア機能——トレーシングと観測性
包括的なトレーシング
Langfuseのトレーシングは、LLM呼び出しだけでなく、アプリケーション全体のロジックを追跡します。
トレース対象:
- LLM呼び出し(入力、出力、トークン数、レイテンシ)
- 検索(Retrieval)操作
- 埋め込み(Embedding)生成
- API呼び出し
- エージェントのアクション
追跡機能:
- マルチターン会話のセッション管理
- ユーザー単位の利用追跡
- 親子関係のある複雑なワークフローの可視化
コスト管理
Langfuseのコスト管理機能:
- 全体のAPI利用コストをリアルタイム計測
- ユーザー単位のコスト追跡
- 日次/月次の利用上限設定
- 異常な利用パターンの検知
プロンプト管理——バージョン管理とABテスト
中央集権的なプロンプト管理
従来、プロンプトはソースコードに埋め込まれ、エンジニアしか変更できませんでした。Langfuseでは、プロンプトを中央で管理し、非エンジニアも参加できます。
プロンプト管理の特徴:
- バージョン管理(履歴の追跡、ロールバック)
- サーバー/クライアント両方でのキャッシュ
- デプロイなしでプロンプトを更新
- 非エンジニアでも編集可能なUI
ABテスト機能
ABテストの仕組み:
- 複数のプロンプトバージョンを作成
- ユーザーをランダムに振り分け
- ユーザーフィードバック(いいね/悪いね)を収集
- 定量的なデータで最適なプロンプトを判断
評価システム——LLM-as-a-Judge
多角的な評価アプローチ
Langfuseは、複数の評価方法を組み合わせて品質を担保します。
評価方法:
- LLM-as-a-Judge:AIがAIの出力を評価
- ユーザーフィードバック:実際のユーザーからの評価収集
- 手動ラベリング:人間による品質チェック
- カスタムパイプライン:API/SDKを通じた独自評価
LLM-as-a-Judgeの活用
仕組み:
- 評価用のLLMがアプリケーションの出力を自動評価
- 一貫した基準での品質チェック
- 人間のレビュー負荷を軽減
- 大量のトラフィックにもスケール
プレイグラウンド——迅速なイテレーション
リアルタイム実験環境
Langfuseプレイグラウンドは、プロンプトとモデル設定をリアルタイムで実験できる環境です。
活用フロー:
- トレーシングで問題のある出力を発見
- プレイグラウンドにジャンプ
- プロンプトを修正して即座にテスト
- 改善されたプロンプトを本番に反映
フィードバックループの短縮により、開発サイクルが大幅に加速します。
実践事例——「みらい議会」プロジェクト
政治とテクノロジーの融合
「みらい議会」は、国会情報をオープンにし、政治過程の透明性を担保する革新的なプロジェクトです。Next.js、Supabase、LLMエージェントを活用し、複雑な国会情報を誰でも理解できる形で提供しています。
Langfuse導入の背景
課題:
- AIの利用コストがユーザー数に比例して増大
- プロンプトの改善にエンジニアの工数がかかる
- AIの回答品質を定量的に評価できない
Langfuseで解決:
1. コスト管理
- 全体の利用コストをリアルタイム監視
- ユーザー単位の利用量を追跡
- 悪意のある大量リクエストを検知・防止
2. プロンプト管理
- 国会対策チームが直接プロンプトを調整
- エンジニアを介さず迅速に改善
- バージョン管理で変更履歴を追跡
3. 品質評価
- ユーザーフィードバック(いいね/悪いね)を収集
- LLM-as-a-Judgeで自動評価
- プロンプトのABテストで最適化
技術スタックとの統合
みらい議会の技術スタック:
- フロントエンド:Next.js + React Server Components
- バックエンド:Supabase
- LLM:Claude、OpenAI GPT
- 観測性:Langfuse
React Server Componentsにより、低速回線でも高速なUI表示を実現。Langfuseにより、LLMの利用状況と品質を一元管理しています。
統合エコシステム
50以上のフレームワーク対応
ネイティブ統合:
- OpenAI SDK
- LangChain
- LlamaIndex
- LiteLLM
- その他多数
OpenTelemetry経由:
- 任意のOpenTelemetry対応ツールと連携
- Datadog、Grafana等との同時送信
LLMゲートウェイ統合
LiteLLMなどのLLMゲートウェイを経由してトレースを取得することも可能です。
当時と現在:Langfuseの進化
| 項目 | 当時(2024年 初期版) | 現在(2026年1月) |
|---|---|---|
| 基盤技術 | 独自SDK中心 | OpenTelemetry(オープンスタンダード) |
| 統合数 | 主要フレームワークのみ | 50以上 |
| プロンプト管理 | 基本機能 | バージョン管理、ABテスト、キャッシュ |
| 評価機能 | ユーザーフィードバックのみ | LLM-as-a-Judge、カスタムパイプライン |
| データモデル | トレース中心 | Observation中心(複雑なエージェント対応) |
| UI | 基本的なダッシュボード | インラインコメント、高度な検索 |
| API | v1 | v2(Metrics API、Observations API) |
| デプロイ | クラウド中心 | セルフホスト対応、数分で構築 |
競合との比較
Langfuse vs LangSmith
| 項目 | Langfuse | LangSmith |
|---|---|---|
| オープンソース | Yes | No |
| セルフホスト | 可能 | 不可 |
| OpenTelemetry | 対応 | 限定的 |
| フレームワーク | 50以上 | LangChain中心 |
| 価格 | 無料プランあり | 有料中心 |
Langfuse vs Weights & Biases
| 項目 | Langfuse | W&B |
|---|---|---|
| 特化領域 | LLMアプリケーション | 機械学習全般 |
| プロンプト管理 | 強力 | 限定的 |
| セルフホスト | 可能 | 可能 |
導入の考慮点
メリット
1. オープンソース・セルフホスト
- ベンダーロックインなし
- 機密データを自社インフラで管理
- コミュニティによる継続的な改善
2. 包括的な機能
- トレーシング、プロンプト管理、評価を一元化
- 非エンジニアも参加可能なUI
3. OpenTelemetry対応
- 業界標準への準拠
- 既存の監視インフラとの統合
注意点
1. 学習コスト
- 多機能なため、全機能の習得に時間が必要
2. インフラ要件
- セルフホストの場合、運用負荷が発生
3. 高トラフィック対応
- 大規模なエージェントワークロードでは、ロードマップに記載のスケーリング改善を待つ必要がある場合あり
まとめ
Langfuseは、LLMアプリケーション開発における観測性の標準ツールとなりました。
本記事のポイント:
- OpenTelemetry基盤でオープンスタンダードに準拠
- 50以上のフレームワークとネイティブ統合
- トレーシング:LLM呼び出し、検索、埋め込み、エージェントアクションを包括的に追跡
- プロンプト管理:バージョン管理、ABテスト、非エンジニアも編集可能
- 評価機能:LLM-as-a-Judge、ユーザーフィードバック、カスタムパイプライン
- セルフホスト可能:機密データを自社インフラで管理
- 「みらい議会」プロジェクトでの実践活用事例
- 2026年1月:Observations API v2、インラインコメント機能リリース
LLMアプリケーションの品質とコストを管理するには、観測性が不可欠です。Langfuseは、開発者とビジネスチームが協力してAIアプリケーションを改善するための共通基盤を提供します。
オープンソースで無料から始められるLangfuseを、ぜひLLMプロジェクトに導入してみてください。
