こんにちは、株式会社TIMEWELLの濱本隆太です。
ここ半年、AIエージェントを社内に入れた経営者から似た相談を続けて受けています。「ChatGPT EnterpriseもClaudeも入れた。Copilotも全社展開した。なのに業績が動かない」。話を聞くと、ほぼ全社で同じ欠落があります。KPIがないのです。誰が、何を、いつ、どれだけ使い、どれだけ業務が代替されたのか。誰も把握していない。
AIエージェント前提の経営は、組織OSの入れ替えです。OSは入れただけでは動きません。動いているかを毎週見る計器盤がなければ、入れたつもりで終わります。今回は、私が経営者に必ず勧めている「トップダウンで毎週見るべき7つのKPI」と、それをどう経営会議に組み込むかを書き切ります。2026年6月時点の最新データで、前回(4月)から数字も入れ替えました。
「AIを入れたのに進まない」の正体はKPI不在
AI導入が進まない会社を調べると、原因はモデルでもツールでもありません。計測のやり方を決めていないことに集約されます。MIT Sloanの調査では、測定可能な成功基準を導入前に定義した企業の成功率は54%、定義しなかった企業はわずか12%でした[^1]。同じ調査が、企業AIプロジェクトの61%は「立ち上げ時にROIを掲げたが、稼働後に一度も測定しなかった」とも報告しています。掲げて測らない。これがいちばん多い負けパターンです。
数字はさらに身も蓋もありません。2026年のエンタープライズAI界隈でいちばん引用されている統計が、「エージェントのパイロットの88%は本番に到達しない」というものです[^2]。Anaconda、Forrester、a16z、MIT SloanのCIOパネルが揃って出した数字で、Forresterの真因分析では失敗の41%が成功基準の曖昧さ、33%がツールやデータへのアクセス不足、26%が評価カバレッジのドリフトとされています[^2]。最初の41%、つまり「何をもって成功とするかを決めていない」が最大要因なのが、この記事の主題そのものです。
BCGが2025年9月に出した「The Widening AI Value Gap」も同じ方向で、AIから測定可能な価値を生めている企業はごく一部、74%は価値創出に苦戦していると報告しています[^3]。McKinseyの「State of AI 2025」は処方箋まで踏み込んでいて、リーディング指標(アクティブユーザー、自動化タスク数、ハルシネーション率、ガードレール作動回数)とビジネスKPI(CSAT、サイクルタイム、EBIT)を二段構えで持つ企業ほど価値実現が早くインシデントも少ない、と書いています[^4]。二段持っていない企業は、効果が出ているのかすら判定できない。判定できないものは経営できません。
私はWARPの現場でも同じことを毎回見ています。エージェントを20体作って、3カ月後に何体が生きているか聞くと、誰も即答できない。利用ログを見ると半分以上が週0回です。これは現場の怠慢ではなく、「使われているかを誰も見ていない」という構造の問題です。だからまず、見るべき指標を決め、見る場をスケジュールに固定する。話はそれからです。
当時(4月)から現在(6月)で変わったこと
この記事を最初に書いた4月から、外部環境が二つ動きました。ひとつはGartnerが4月7日に出した警告で、インフラ・運用領域のAIプロジェクトが「意味あるROIに届く前に失速している」と明言したこと[^5]。同社は2027年までにエージェント型AIプロジェクトの40%超がキャンセルリスクにある、企業の40%がガバナンス起因でエージェントを降格・廃止すると予測しています[^5]。流行のピークを越えて、淘汰のフェーズに入ったわけです。
もうひとつは観測性の標準が固まったこと。4月時点では各社バラバラのSDKでトレースを取っていましたが、6月の今はOpenTelemetry(OTel、システムの挙動を計測する業界標準規格)準拠が事実上の前提になりました。Arthur.aiが2026年のプレイブックで「OTelファーストの姿勢はもはやテーブルステークス(参加の最低条件)だ」と書いているとおりです[^6]。一度計装すればバックエンドを自由に乗り換えられるので、ツール選定で悩む時間が減りました。淘汰が進む一方で、計測の足回りは整ってきた。経営者にとっては追い風です。
トップダウンで見るべき7つのKPI
ここから本題です。私が経営会議で毎週見ろと言っているのは、次の7指標です。これより少ないと粗すぎ、多いと誰も追えません。7という数字は経験的にちょうどいい上限です。
ひとつめは社内シェアされたスキル数。スキルとは、Custom GPT、Claude Project、Copilot Agent、Dify Workflow、ZEROCKのSkill Libraryに登録されたカスタムエージェントやプロンプトテンプレートを指します。週次の純増を見て、増えていなければそもそも作る文化がない。Gartnerの2026 Hype Cycle for Agentic AIでも、ガバナンスとセキュリティに振り切った企業ほどスキル登録のハードルを下げて運用していると報告されています[^7]。
ふたつめはスキル引用回数。エージェントやスキルの呼び出し回数の合計で、DAU・WAU・MAUで分解します。Google Cloudの「The KPIs that actually matter for production AI agents」では、シングルクリックの利用回数より「日次・週次・月次のリピート利用が部門別に伸びているか」が本当の指標だと書かれていて、私も完全に同意します[^8]。一度試して終わるエージェントは、PMF(プロダクトマーケットフィット、定着)していません。
みっつめは部門別エージェント運用本数。営業に5体、経理に3体、人事に2体、カスタマーサクセスに7体。部門ごとにどれだけ動いているかを並べると、経営者の頭の中で組織図とエージェントマップが重なります。多い部門が偉いわけではなく、業務量に対して薄すぎる部門を炙り出すのが目的です。
よっつめは業務代替率、人手からAIへの移行率です。私はこれを「hours saved per week(週あたり削減時間)」と「FTE換算(フルタイム従業員何人分)」の二本立てで見ます。AINOWが2026年4月に出した記事では、最初の6カ月は工数削減(時間)にKPIを寄せた企業のほうが定着が早いと結論づけられていました[^9]。経営者の言葉で言えば、「うちのAIエージェント群は何人分働いているか」を毎週聞くことです。
KPI設計とダッシュボード構築を一気に立ち上げたい経営者へ。私たちのAI戦略コンサルティングWARPでは、7指標の優先順位づけから観測ツールの実装、経営会議のアジェンダ設計までを一体で支援しています。「測れていない」を最短で「毎週見える」に変えるのが、私たちの仕事です。
いつつめはコスト削減額と売上貢献額、P&L接続KPIです。BCGはこれを"value-led"指標と呼び、CFOを含む経営層が定例で見るべきだと強調しています[^3]。ここは数字で正当化できます。本番に到達したエージェントの平均ROIは171%、投資回収の中央値は5.1カ月という調査がある一方で、稼働12カ月で22%がROIマイナスとも報告されています[^10]。当たれば大きいが外せば沈む。だからこそ月次で円換算して並べ、翻訳できないエージェントは原則閉じるくらいの強度で運用します。
むっつめはPMF再点検頻度。エージェントごとに、DAUが先月比で30%以上落ちた、トレース成功率が80%を切った、平均レイテンシが2秒を超えたなどの閾値を決め、四半期ごとに引っかかったものを強制的に再設計レビューにかけます。前述のとおりGartnerは2027年までに企業の40%がガバナンス起因でエージェントを降格・廃止すると予測しており[^5]、「作って放置」が一番危ない。止める勇気を運用に組み込む指標です。
ななつめはスキルシェアコミュニティの活性度。社内のSlackチャンネル、Notion、Confluence、ZEROCKのSkill Libraryなど、どこでもいいから「使えるエージェントを見せ合う場」の投稿数、コメント数、採用件数を測ります。意外に思われるかもしれませんが、これがいちばん業績と相関する指標だと私は感じています。理由は単純で、シェアが盛んな会社は現場が自走しているからです。
各KPIの計測方法とダッシュボード設計
KPIは決めただけでは動きません。データソースとダッシュボードが要ります。私が現場で組む構成は、データ・観測・可視化の3層です。
データレイヤーは、各AIプラットフォームのAPIログとプロンプトログを集約します。ChatGPT EnterpriseのCompliance API、Microsoft 365 CopilotのMessage Trace、Anthropic ConsoleのUsage API、Google Workspace Audit Log、社内製エージェントならLangfuseかArize Phoenixのトレースをそのまま流し込む。2026年はここをOpenTelemetryで統一するのが定石になりました。一度OTelで計装しておけば、観測ツールを乗り換えてもコードを書き直さずに済みます。これは地味ですが効きます。
観測レイヤーでは、トレース成功率、レイテンシ、トークン消費、エラー率、ガードレール作動回数といった運用品質の指標を出します。ここで大事なのが、観測(Observability、何が起きたかを見る)と評価(Evaluation、出力の質を採点する)を別の役割として設計することです[^11]。Google Cloudは「最終アウトプットだけでなく途中の推論ステップとツール選択(trace)を見ろ」と強調していて、これを"output friction"の最小化と呼んでいます[^8]。人間が修正に費やす時間を減らせないエージェントは、見かけ上動いていても価値を出していません。
可視化レイヤーは、Looker Studio、Tableau、Power BIのいずれかでいい。私の好みはLooker Studioですが、社内BIがあるならそれに合わせます。重要なのは3つのオーディエンス向けに3つの画面を作ることです。経営会議用は1枚のサマリー、部門長用は部門別トップ10エージェント、構築者用はエージェント単位のトレース。これを混ぜると誰も読まないダッシュボードになります。Google Cloudの三本柱フレームワーク(信頼性、定着、ビジネス価値)も、結局はこの出し分けと同じ発想です[^8]。
私がよくやるのは、ZEROCKのSkill Libraryから利用ログを直接Looker Studioに送り、社内全エージェントの引用回数ランキングを毎週月曜の朝に自動配信する仕組みです。ZEROCKはAWS東京リージョンで動くので、ログの国外持ち出し問題も発生せず、経産省の経済安全保障ガイドラインにも整合します。ナレッジコントロールとKPI観測性を一体で運用したいエンタープライズには素直にお勧めできます。
毎週の経営会議でAIエージェントKPIをレビューする運用
ダッシュボードを作っても、見る場がなければ意味がありません。私はクライアントに、経営会議の冒頭15分を必ずAIエージェントKPIレビューに割いてくださいと言っています。15分以上はかえって冗長になる。短く、しかし毎週やる。これがすべてです。
アジェンダはシンプルです。最初の3分でサマリーダッシュボードの前週比をCEOが読み上げる。次の5分で、伸びている部門と落ちている部門を1つずつ取り上げ、部門長にひと言ずつコメントしてもらう。次の5分でPMF再点検のアラートが出ているエージェントを確認し、誰がいつまでに対応するかを決める。最後の2分でスキルシェアコミュニティのトピックを2、3個共有する。これだけです。
なぜCEOが読み上げる必要があるのか。トップが毎週見ている指標は、必ず部門長まで降りるからです。逆も同じで、CEOが一度でも飛ばすと、翌週から誰も見なくなります。私はこれを「経営者の目線が、組織のKPIを定義する」と説明しています。BCGが「P&L接続KPIを経営層が見ること」を強調しているのも、結局は同じ話です[^3]。
ここで余談を挟みます。先日あるクライアントの経営会議に陪席したら、CFOが「業務代替率が先週から3.2人分も伸びている、これは半期計画の上振れ要因だ」とコメントしたんですね。役員全員の目の色が変わった瞬間でした。AIエージェント運用が経営の言葉になった瞬間です。指標が経営の語彙に組み込まれると、議論の質が変わります。
毎週レビューを続けると、もうひとつ副産物が出ます。部門間のベンチマーク競争です。営業部のAI活用が伸びていて購買部が遅れているとデータで見えると、購買部長は黙っていません。これは強制ではなく可視化の力で起きる自然な競争で、AINOWが指摘していた「現場主導で画面を組み替えられる環境」の効果そのものです[^9]。
数字に出ない「文化的指標」をどう押さえるか
7指標とダッシュボードを揃えても、数字に出ない部分があります。私はこれを文化的指標と呼んでいて、定量化できないが確実に成果を左右する領域です。経営者は観察眼で押さえる必要があります。
ひとつは「AIで何かを試した人の表情」。新しいエージェントを作って動かした人が、月曜の朝礼で「先週これ作ったんだけど、見てくれる?」と話しかけてくる雰囲気があるか。私はクライアントの社内Slackをのぞかせてもらって、雑談チャンネルにエージェントの自慢が混ざっているかを毎月チェックしています。雑談に混ざっていれば文化が回っている。混ざっていなければ、KPIが伸びていても薄氷の上です。
もうひとつは「失敗の共有」。組んだエージェントがコケた話、ガードレールに引っかかった話、コストが想定の3倍出た話。こういう失敗が表で共有されているか。Gartnerが2026年のHype Cycleで「ガバナンス、セキュリティ、コストのプロファイルが核技術と並んで重要になる」と書いている理由はここです[^7]。失敗が表に出ない組織はガバナンスが効いていません。KPIレビューの最後に1分だけ、「先週コケた話、誰か」と聞く時間を設けるだけで雰囲気は変わります。
3つめが「経営者自身の操作頻度」。CEOが週に何回エージェントを使ったか。役員間で開示するのは抵抗があるものですが、私はやることを推しています。トップが触っていない技術は組織で広がりません。過去のERPもCRMも同じパターンでした。私自身も毎週金曜にClaude、ChatGPT、ZEROCKの利用ログを役員Slackに貼り出し、最低でも週50回は使うよう自分に課しています。
文化的指標は数字でない分、経営者の言葉で見せるしかありません。月次の社内発信で「今週うれしかったAI事例」を1つ取り上げる、創業記念日のメッセージで「うちのエージェント運用が組織を変えた話」を語る。地味ですが、ここを怠ると7指標は形骸化します。
まとめ:今週から動かせる3つのKPIから始める
7指標を一気に揃えようとすると挫折します。私は最初の1カ月、3つだけから始めることを勧めています。実際、国内の導入支援メディアでも、利用定着率・タスク完了時間の短縮率・従業員NPSの3点から始める設計が2026年の定番として紹介されています[^12]。
1つめは社内シェアされたスキル数。ChatGPT EnterpriseのCustom GPT管理画面、Claude Projectsの一覧、ZEROCKのSkill Library、どれでもいいから台帳を作って毎週末にスナップショットを取る。
2つめはスキル引用回数のWAU。誰が、どのエージェントを、何回呼んだか。1週間に1回でいいので、CSVを落として並べる。
3つめは業務代替率を「hours saved per week」で、各部門に申告制で出してもらう。最初は粗くていい。完璧なログを待つより、3週間の自己申告データのほうが経営判断には使えます。
この3つだけで、経営会議の景色が変わります。CEOが毎週「先週は何時間ぶん効いた」と読み上げるだけで、組織は動く。残り4指標は2カ月目以降に足していけばいい。
そしてもうひとつ。KPIが整わないうちに「全社AIエージェント展開」を宣言しないでください。インストールは派手で、計測は地味です。地味な計測を先に組み立てた会社だけが、派手なインストールを意味あるものにできる。88%が本番に届かないこの時代に、届く側に回る唯一の差は、ここにあります。これがこの3年、現場でAI導入のコンサルをやってきた私の率直な結論です。
自社のKPI設計とダッシュボード構築を一気に進めたいなら、まずは個別に相談してください。
関連記事:AIエージェント前提経営:3つの戦略オプション、AIエージェントを組織にインストールする5フェーズ、Google Cloud Next 2025のAIエージェント潮流
脚注
[^1]: MIT Sloan Management Review(2025年)企業AIプロジェクトのROI測定に関する調査。成功基準の事前定義による成功率の差(54%対12%)、61%がROI未測定。 https://sloanreview.mit.edu/ [^2]: LumiChats「97% of Companies Deployed AI Agents. Only 11% Are Using Them.」(2026年)、Forresterの真因分析(41%成功基準の曖昧さ、33%データ・ツールアクセス、26%評価ドリフト)を含む。 https://lumichats.com/blog/ai-agents-97-percent-deployed-11-percent-production-2026 [^3]: BCG「The Widening AI Value Gap」(2025年9月) https://www.bcg.com/publications/2025/are-you-generating-value-from-ai-the-widening-gap [^4]: McKinsey「The state of AI in 2025: Agents, innovation, and transformation」 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai [^5]: Gartner Press Release「Gartner Says AI Projects in I&O Stall Ahead of Meaningful ROI Returns」(2026年4月7日) https://www.gartner.com/en/newsroom/press-releases/2026-04-07-gartner-says-artificial-intelligence-projects-in-infrastructure-and-operations-stall-ahead-of-meaningful-roi-returns [^6]: Arthur.ai「Agentic AI Observability: A 2026 Playbook」 https://www.arthur.ai/column/agentic-ai-observability-playbook-2026 [^7]: Gartner「2026 Hype Cycle for Agentic AI」 https://www.gartner.com/en/articles/hype-cycle-for-agentic-ai [^8]: Google Cloud「The KPIs that actually matter for production AI agents」 https://cloud.google.com/transform/the-kpis-that-actually-matter-for-production-ai-agents [^9]: AINOW「生成AI活用の効果をどう評価する?KPI設計とROI試算を6カ月で形にする方法」(2026年4月6日) https://ainow.ai/2026/04/06/277881/ [^10]: Company of Agents「AI Agent ROI in 2026: Avoiding the 40% Project Failure Rate」(2026年)、本番到達エージェントの平均ROI 171%、回収中央値5.1カ月、12カ月で22%がマイナス。 https://www.companyofagents.ai/blog/en/ai-agent-roi-failure-2026-guide [^11]: Uravation「【2026年最新】AIエージェント観測・評価完全ガイド」観測(Observability)と評価(Evaluation)を別の役割として設計する考え方。 https://uravation.com/media/ai-agent-observability-complete-guide-2026/ [^12]: アカリンク「2026年 AI活用KPI管理」利用定着率・タスク完了時間短縮率・従業員NPSの3点起点。 https://aka-link.net/ai-utilising-kpis/
