Langfuse完全解説｜LLM観測プラットフォーム・OpenTelemetry・プロンプト管理・2026年AIアプリ開発の必須ツール

株式会社TIMEWELLの濱本です。

2026年、LLMアプリケーション開発において「観測性（Observability）」の重要性が急速に高まっています。

その中心にあるのが、オープンソースLLMエンジニアリングプラットフォーム「Langfuse」です。OpenTelemetryを基盤とした業界標準のトレーシング、50以上のフレームワーク統合、プロンプトのバージョン管理、LLM-as-a-Judge評価機能など、LLMアプリケーションの開発・運用に必要な機能を一元提供しています。

本記事では、Langfuseの機能と、政治テックプロジェクト「みらい議会」での実践的な活用事例を解説します。

Langfuse 2026年最新情報

項目	内容
基盤技術	OpenTelemetry（オープンスタンダード）
統合フレームワーク	50以上（LangChain、OpenAI SDK、LiteLLM等）
トレーシング	マルチターン会話、セッション、ユーザー追跡
プロンプト管理	バージョン管理、ABテスト、キャッシュ
評価機能	LLM-as-a-Judge、ユーザーフィードバック、カスタムパイプライン
プレイグラウンド	プロンプトのリアルタイム実験
デプロイ	セルフホスト対応、数分で構築可能
最新更新	Observations API v2、インラインコメント機能（2026年1月）

Langfuseとは——LLM観測プラットフォーム

LLMアプリケーションの課題

LLMを活用したアプリケーション開発では、以下の課題が発生します。

開発フェーズの課題：

プロンプトの効果を定量的に評価できない
どのモデル/設定が最適か判断しづらい
本番環境での挙動が予測しにくい

運用フェーズの課題：

APIコストが急増する原因がわからない
ユーザーごとの利用状況を把握できない
品質劣化を早期に検知できない

Langfuseは、これらの課題を解決する統合プラットフォームです。

OpenTelemetry基盤

Langfuseは2026年、OpenTelemetryを基盤技術として採用しています。

OpenTelemetry採用のメリット：

業界標準のオープンスタンダード
Langfuse専用SDKに縛られない
複数の送信先に同時にトレース可能（Langfuse + Datadog等）
既存のインフラ監視と統合可能

コア機能——トレーシングと観測性

包括的なトレーシング

Langfuseのトレーシングは、LLM呼び出しだけでなく、アプリケーション全体のロジックを追跡します。

トレース対象：

LLM呼び出し（入力、出力、トークン数、レイテンシ）
検索（Retrieval）操作
埋め込み（Embedding）生成
API呼び出し
エージェントのアクション

追跡機能：

マルチターン会話のセッション管理
ユーザー単位の利用追跡
親子関係のある複雑なワークフローの可視化

コスト管理

Langfuseのコスト管理機能：

全体のAPI利用コストをリアルタイム計測
ユーザー単位のコスト追跡
日次/月次の利用上限設定
異常な利用パターンの検知

プロンプト管理——バージョン管理とABテスト

中央集権的なプロンプト管理

従来、プロンプトはソースコードに埋め込まれ、エンジニアしか変更できませんでした。Langfuseでは、プロンプトを中央で管理し、非エンジニアも参加できます。

プロンプト管理の特徴：

バージョン管理（履歴の追跡、ロールバック）
サーバー/クライアント両方でのキャッシュ
デプロイなしでプロンプトを更新
非エンジニアでも編集可能なUI

ABテスト機能

ABテストの仕組み：

複数のプロンプトバージョンを作成
ユーザーをランダムに振り分け
ユーザーフィードバック（いいね/悪いね）を収集
定量的なデータで最適なプロンプトを判断

評価システム——LLM-as-a-Judge

多角的な評価アプローチ

Langfuseは、複数の評価方法を組み合わせて品質を担保します。

評価方法：

LLM-as-a-Judge：AIがAIの出力を評価
ユーザーフィードバック：実際のユーザーからの評価収集
手動ラベリング：人間による品質チェック
カスタムパイプライン：API/SDKを通じた独自評価

LLM-as-a-Judgeの活用

仕組み：

評価用のLLMがアプリケーションの出力を自動評価
一貫した基準での品質チェック
人間のレビュー負荷を軽減
大量のトラフィックにもスケール

プレイグラウンド——迅速なイテレーション

リアルタイム実験環境

Langfuseプレイグラウンドは、プロンプトとモデル設定をリアルタイムで実験できる環境です。

活用フロー：

トレーシングで問題のある出力を発見
プレイグラウンドにジャンプ
プロンプトを修正して即座にテスト
改善されたプロンプトを本番に反映

フィードバックループの短縮により、開発サイクルが大幅に加速します。

実践事例——「みらい議会」プロジェクト

政治とテクノロジーの融合

「みらい議会」は、国会情報をオープンにし、政治過程の透明性を担保する革新的なプロジェクトです。Next.js、Supabase、LLMエージェントを活用し、複雑な国会情報を誰でも理解できる形で提供しています。

Langfuse導入の背景

課題：

AIの利用コストがユーザー数に比例して増大
プロンプトの改善にエンジニアの工数がかかる
AIの回答品質を定量的に評価できない

Langfuseで解決：

1. コスト管理

全体の利用コストをリアルタイム監視
ユーザー単位の利用量を追跡
悪意のある大量リクエストを検知・防止

2. プロンプト管理

国会対策チームが直接プロンプトを調整
エンジニアを介さず迅速に改善
バージョン管理で変更履歴を追跡

3. 品質評価

ユーザーフィードバック（いいね/悪いね）を収集
LLM-as-a-Judgeで自動評価
プロンプトのABテストで最適化

技術スタックとの統合

みらい議会の技術スタック：

フロントエンド：Next.js + React Server Components
バックエンド：Supabase
LLM：Claude、OpenAI GPT
観測性：Langfuse

React Server Componentsにより、低速回線でも高速なUI表示を実現。Langfuseにより、LLMの利用状況と品質を一元管理しています。

統合エコシステム

50以上のフレームワーク対応

ネイティブ統合：

OpenAI SDK
LangChain
LlamaIndex
LiteLLM
その他多数

OpenTelemetry経由：

任意のOpenTelemetry対応ツールと連携
Datadog、Grafana等との同時送信

LLMゲートウェイ統合

LiteLLMなどのLLMゲートウェイを経由してトレースを取得することも可能です。

当時と現在：Langfuseの進化

項目	当時（2024年初期版）	現在（2026年1月）
基盤技術	独自SDK中心	OpenTelemetry（オープンスタンダード）
統合数	主要フレームワークのみ	50以上
プロンプト管理	基本機能	バージョン管理、ABテスト、キャッシュ
評価機能	ユーザーフィードバックのみ	LLM-as-a-Judge、カスタムパイプライン
データモデル	トレース中心	Observation中心（複雑なエージェント対応）
UI	基本的なダッシュボード	インラインコメント、高度な検索
API	v1	v2（Metrics API、Observations API）
デプロイ	クラウド中心	セルフホスト対応、数分で構築

競合との比較

Langfuse vs LangSmith

項目	Langfuse	LangSmith
オープンソース	Yes	No
セルフホスト	可能	不可
OpenTelemetry	対応	限定的
フレームワーク	50以上	LangChain中心
価格	無料プランあり	有料中心

Langfuse vs Weights & Biases

項目	Langfuse	W&B
特化領域	LLMアプリケーション	機械学習全般
プロンプト管理	強力	限定的
セルフホスト	可能	可能

導入の考慮点

メリット

1. オープンソース・セルフホスト

ベンダーロックインなし
機密データを自社インフラで管理
コミュニティによる継続的な改善

2. 包括的な機能

トレーシング、プロンプト管理、評価を一元化
非エンジニアも参加可能なUI

3. OpenTelemetry対応

業界標準への準拠
既存の監視インフラとの統合

注意点

1. 学習コスト

多機能なため、全機能の習得に時間が必要

2. インフラ要件

セルフホストの場合、運用負荷が発生

3. 高トラフィック対応

大規模なエージェントワークロードでは、ロードマップに記載のスケーリング改善を待つ必要がある場合あり

まとめ

Langfuseは、LLMアプリケーション開発における観測性の標準ツールとなりました。

本記事のポイント：

OpenTelemetry基盤でオープンスタンダードに準拠
50以上のフレームワークとネイティブ統合
トレーシング：LLM呼び出し、検索、埋め込み、エージェントアクションを包括的に追跡
プロンプト管理：バージョン管理、ABテスト、非エンジニアも編集可能
評価機能：LLM-as-a-Judge、ユーザーフィードバック、カスタムパイプライン
セルフホスト可能：機密データを自社インフラで管理
「みらい議会」プロジェクトでの実践活用事例
2026年1月：Observations API v2、インラインコメント機能リリース

LLMアプリケーションの品質とコストを管理するには、観測性が不可欠です。Langfuseは、開発者とビジネスチームが協力してAIアプリケーションを改善するための共通基盤を提供します。

オープンソースで無料から始められるLangfuseを、ぜひLLMプロジェクトに導入してみてください。