AIコンサルのコラム一覧に戻る
AIコンサル

AIが生命の設計図を解読:ゲノム解析と創薬を変革するEVOモデルとは

2026-01-21濱本

近年、AI(人工知能)技術の目覚ましい発展は、医療や製薬を含む様々な産業に革命をもたらしつつあります。特に生物学の分野では、AI、とりわけ機械学習(ML)が、生命の根源的な謎を解き明かし、新たな治療法や診断技術の開発を加速させる鍵として大きな期待を集めています。「AI for Bio(生物学のためのAI)」という言葉が飛び交う中、私たちは具体的にどのような成果を期待できるのでしょうか? ゲノム編集技術CRISPRのパイオニアであり、現在は最先端のAIと生物学が融合するArk Instituteの共同設立者であるPatrick Hsu氏は、この分野の最前線で研究を進めています。彼のチームが開発した革新的な生物学的基盤モデル「EVO」は、生命の基本情報であるDNAそのものを学習し、ゲノム配列の解釈や生成において驚異的な能力を示し始めています。 この記事では、Hsu氏の洞察に基づき、AIが生物学、特にゲノム解析や創薬、さらには生命科学全体の理解をどのように変えようとしているのか、その現状と未来、そしてEVOモデルが持つ可能性について深掘りしていきます。

AIが生命の設計図を解読:ゲノム解析と創薬を変革するEVOモデルとは
シェア

株式会社TIMEWELLの濱本です。

近年、AI(人工知能)技術の目覚ましい発展は、医療や製薬を含む様々な産業に革命をもたらしつつあります。特に生物学の分野では、AI、とりわけ機械学習(ML)が、生命の根源的な謎を解き明かし、新たな治療法や診断技術の開発を加速させる鍵として大きな期待を集めています。「AI for Bio(生物学のためのAI)」という言葉が飛び交う中、私たちは具体的にどのような成果を期待できるのでしょうか? ゲノム編集技術CRISPRのパイオニアであり、現在は最先端のAIと生物学が融合するArk Instituteの共同設立者であるPatrick Hsu氏は、この分野の最前線で研究を進めています。彼のチームが開発した革新的な生物学的基盤モデル「EVO」は、生命の基本情報であるDNAそのものを学習し、ゲノム配列の解釈や生成において驚異的な能力を示し始めています。

この記事では、Hsu氏の洞察に基づき、AIが生物学、特にゲノム解析や創薬、さらには生命科学全体の理解をどのように変えようとしているのか、その現状と未来、そしてEVOモデルが持つ可能性について深掘りしていきます。

AIと生物学の融合:計算生物学が解き明かすゲノムの謎と創薬の課題 生命の基本情報層に迫る:DNA基盤モデル「EVO」の革新性 創薬から基礎科学まで:AIが加速する生物学研究の未来とArk Instituteの挑戦 まとめ AIと生物学の融合:計算生物学が解き明かすゲノムの謎と創薬の課題

計算生物学の分野では長年、生命の設計図であるゲノム情報をいかに解読し、理解するかが中心的な課題でした。例えば、23andMeのような遺伝子検査サービスや医療機関でのシーケンシングによって、個人のゲノム配列情報が手に入るようになりましたが、そこで見つかる無数の遺伝子変異が具体的にどのような機能的影響を持つのか、その解釈は依然として大きな挑戦です。特に「意義不明の変異(Variant of Unknown Significance, VUS)」と呼ばれるものが大半を占めています。これは、科学者が「一体何が起こっているのかさっぱり分からない」状況を婉曲的に表現した言葉に他なりません。一部の変異は、筋ジストロフィー、嚢胞性線維症、あるいは特定のがん(例:遺伝性乳がん・卵巣がん症候群)のような深刻な遺伝性疾患の原因となることが知られていますが、ゲノム上に存在する変異の多くはその影響が不明なのです。このVUSの解釈こそ、AI、特に大規模言語モデル(LLM)と同様の原理に基づく基盤モデルが貢献できる領域として注目されています。Patrick Hsu氏らが開発したEVOモデルは、まさにこのVUSに対して「意見を持ち」、その機能的影響を予測する上で最先端の精度を示していると述べられています。

しかし、「AI for Bio」の可能性は、単に遺伝子変異を解釈し、創薬ターゲットを見つけることに留まりません。Hsu氏は、創薬はAIが生物学にもたらす可能性の、重要ではあるものの比較的小さな一部分に過ぎないと強調します。彼が学術的に追求するのは、生物学における「統一理論」の活用です。物理学者が統一理論を追い求めてきたのに対し、生物学には既に「進化」という明白な統一理論が存在します。進化は、地球全体の生態系から個々の細胞、分子に至るまで、あらゆるスケールで生命に作用する深遠な力です。この進化の原理をAIモデルに組み込むことで、生命現象のより根源的な理解を目指すことができるのではないか、というのがHsu氏の考えです。EVOモデルが「進化(Evolution)」から名付けられたのも、この思想に基づいています。DNAの変異を通じて世代から世代へと受け継がれる自然選択の影響を、モデルが学習することを目指しているのです。

一方で、AIが創薬プロセスを劇的に加速させるという期待に対しては、現実的な課題も存在します。Hsu氏は、たとえAIが完璧な候補化合物を無限に設計できたとしても、それらを実際に動物やヒトで検証するプロセスがボトルネックになると指摘します。分子設計の段階(ファネルの最上流)をAIで満たしたとしても、規制当局の承認を得るための厳格な試験プロセスには依然として長い年月が必要です。初期の動物実験、そしてヒトを対象とした臨床試験は、安全性と有効性を確認するために不可欠であり、これを省略することはできません。したがって、AIによる創薬革命がすぐに具体的な「薬」として結実するには時間がかかる、というのがHsu氏の見解です。AIはまず、創薬プロセスの個々のステップ、例えばターゲットID(創薬標的の同定)、ヒット化合物探索、リード化合物最適化、前臨床試験、さらには臨床試験のデザインやデータ解析、規制文書作成といった各段階の効率化に貢献していくと考えられます。特に製薬企業がコストの大半を費やすのは創薬よりも開発段階であり、AIが臨床試験の成功確率(Probability of Success, POS)を現在の約10%から引き上げることができれば、そのインパクトは計り知れないでしょう。現状の低い成功確率こそが、FDA(米国食品医薬品局)のような規制当局が安全性を極めて重視する理由の一つであり、AIが予測精度を高めることで、このパラダイムが変わる可能性も秘めています。

さらに、AIは生物学研究のあり方そのものを変える可能性も持っています。現在の生物学研究は、依然として試行錯誤に近い側面が多いとHsu氏は指摘します。研究者は様々な仮説を立てて実験を行いますが、成功した結果だけが論文として発表され、失敗した試行やその背後にある真の試行錯誤のプロセスは記録に残らないことがほとんどです。AI、特に科学研究のためのAIエージェントが進化すれば、このプロセスをより体系的かつ効率的に進めることができるようになるかもしれません。仮説生成、実験計画、データ解析、そして次のアクションの決定といった科学的発見のサイクル全体をAIが支援、あるいは一部自動化することで、研究のスピードと質が向上することが期待されます。Hsu氏は、現状の生物学研究が非常に実践的で「地に足のついた」実験科学であるとしつつも、予測能力を持つAIモデルが登場すれば、研究文化そのものにも変化が訪れる可能性があると示唆しています。

生命の基本情報層に迫る:DNA基盤モデル「EVO」の革新性

Patrick Hsu氏とArk Instituteのチームが開発した「EVO」は、AIと生物学の融合における画期的な成果の一つです。EVOが特に注目されるのは、生命の「基本情報層」であるDNAに直接焦点を当てている点です。近年、AI創薬の分野ではタンパク質の構造予測(AlphaFoldなど)や設計が大きな注目を集めてきました。タンパク質が生命活動を担う分子機械であることは間違いありませんが、Hsu氏はゲノム生物学者としての視点から、タンパク質はDNAにコードされた情報の一部に過ぎないことを強調します。DNAには、タンパク質の設計図だけでなく、RNAの情報、そして遺伝子の発現を制御する調節領域など、生命を成り立たせるためのあらゆる情報が含まれています。そこでHsu氏らは、ゲノム全体を学習対象とする長文脈モデルを訓練することで、DNA配列内に埋め込まれた分子間の相互作用や、それがどのように生物学的機能につながるのかを学習できるのではないかと考えました。これがEVOの基本的なアイデアです。

技術的には、EVOは自己回帰型のモデルであり、畳み込みニューラルネットワーク(CNN)などを組み合わせたハイブリッドなアーキテクチャを採用していると説明されています。これは、自然言語処理における大規模言語モデル(LLM)が次の単語を予測するように、EVOはDNA配列における次の塩基や、タンパク質配列における次のアミノ酸、あるいは遺伝子の並びにおける次の遺伝子を予測するように訓練されます。この「次を予測する」という単純なタスクを通じて、モデルは言語における文法や意味、世界の常識を学習するのと同様に、生物学における高次のパターン、すなわち生命の「分子論理」を学習すると考えられます。この学習された知識が、具体的なタスクに応用されるのです。

EVOが持つ具体的な能力として、Hsu氏はいくつかの印象的な例を挙げています。その中でも特に重要なのが、前述した「意義不明の変異(VUS)」の解釈です。

VUSの機能予測:EVOは、遺伝子に新たな変異を導入した場合、それが病原性を持つかどうかを予測する能力において、既存の手法を凌駕する性能を示しています。例えば、乳がんや卵巣がんのリスクを高めることで知られるBRCA1遺伝子について、EVOは既知の良性変異や病原性変異だけでなく、これまで影響が不明だったVUSについても、そのリスクを評価することができます。これは、遺伝子検査を受けた個人やその家族にとって、予防的治療(例えば予防的乳房切除術)を受けるべきかどうかの判断に大きな影響を与える可能性があります。この予測性能を検証するために、Hsu氏らはClinVarのような既知の疾患関連変異データベースを「グラウンドトゥルース」として用い、モデルの評価(Evaluation、Evals)にも多大な労力を費やしたと述べています。これは、AIの分野でベンチマークの構築が重要であるのと同様に、生物学モデルにおいても信頼性の高い評価指標の開発が不可欠であることを示しています。

CRISPRシステムの設計:EVOは、ゲノム編集ツールであるCRISPRシステムの新たな設計にも応用可能です。特定の遺伝子を効率的かつ正確に編集できる新しいCRISPR関連タンパク質やガイドRNAをデザインするなど、ゲノム編集技術の改良に貢献することが期待されます。

ゼロショット能力と拡張性:EVOは、特定のタスクに対して追加の訓練なしで性能を発揮する「ゼロショット能力」も示しており、さらに多くの研究者がEVOを基盤として、様々な生物学的応用(まるで「アプリストア」のように)を構築していくことが期待されています。

EVOの訓練データは、特定の実験室で生成されたものではなく、科学コミュニティ全体によって蓄積されてきた膨大な公開データベース(例えば、Sequence Read Archive, SRA)に基づいています。過去25年以上にわたって、バクテリア、ウイルス、ヒト、サル、魚類、昆虫など、文字通り「ノアの箱舟」のような多様な生物種のゲノム配列データが蓄積されており、これがEVOの学習資源となっています。つまり、EVOは「進化という壮大な実験」の結果をデータとして学習しているのです。ヒト同士の違いを生むゲノム多様性、ヒトとチンパンジー、あるいは細菌との違いを生む種間の変異、これら全てがモデルにとっての学習材料となります。

Hsu氏は、EVOのようなDNA(あるいはゲノム)レベルのモデルと、AlphaFoldのようなタンパク質構造予測モデルとの関係性についても言及しています。タンパク質の構造は機能を知る上での重要な「抽象化」であり、配列から構造、そして機能へと繋げるアプローチ(Sequence to Structure to Function)は、分子生物学の中心的な考え方(セントラルドグマ)に基づいた美しいパラダイムであると認めています。しかし、EVOのようなモデルは、構造という中間ステップを必ずしも経由せず、DNA配列から直接的に機能(例えば、変異がタンパク質の結合活性に与える影響など)を予測しようと試みます。これは、構造情報が未知であったり、あるいは機能に直接関与しない非コード領域(調節DNAなど)の影響を評価する上で有利になる可能性があります。

興味深い点として、Hsu氏は現在の生物学的基盤モデルの利用における課題も指摘しています。人間は自然言語(例えば英語や日本語)を流暢に話せますが、「DNA語」を話す能力は極めて限られています。EVOのようなモデルを使うことは、まるでロシア語で書かれた文章の中に1%だけ英語が混じっているような、あるいは非常に強い訛りでDNA語を話しているような感覚だと表現しています。モデルの出力(例えば予測されたDNA配列)が何を意味するのかを解釈するために、多くのアノテーターや解釈可能性技術が必要となり、モデルへのプロンプト入力や活用方法もまだ非常に原始的な段階にあるとのことです。自然言語モデルにおける高度なプロンプトエンジニアリングのようなテクニックが、生物学的言語モデルに対しても開発されていくことが、今後の重要な課題となります。この課題解決には、生物学者、計算科学者、AI研究者など、多様な専門性を持つ人材の協力が不可欠であり、Ark Instituteのような学際的な研究機関がその役割を担うことが期待されています。EVOモデル自体はオープンソースとして公開されており、世界中の研究者がアクセスし、利用し、さらに発展させていくエコシステムの構築が進んでいます。

創薬から基礎科学まで:AIが加速する生物学研究の未来とArk Instituteの挑戦

AI、特にEVOのような基盤モデルがもたらす変革は、個別の課題解決に留まらず、科学研究のプロセス全体に及ぶ可能性があります。Hsu氏は、2025年が「AIエージェントの年」になるとすれば、科学研究のためのAIエージェントにも大きな関心が集まるだろうと予測しています。これは単に分子の解釈や設計を行うエージェントだけでなく、科学者が研究を進める上でのメタな側面、すなわち仮説生成、文献調査、実験計画、データ解析、結果の解釈、そして論文執筆といった一連のワークフローを支援するエージェントを指します。Ark Instituteでも、この「科学のためのAIエージェント」の開発に力を入れており、既に具体的な成果も出始めています。例えば、彼らが最近公開した「Virtual Cell Atlas」は、世界最大級の単一細胞データセットであり、細胞レベルの基盤モデル訓練に用いられています。このデータセットの構築には、公開データベース(SRAなど)を自動的にクロールし、構造化されていないメタデータを整理・再解析するAIエージェントが活用されました。これは、従来であれば才能ある計算生物学者であっても単調で敬遠しがちな作業でしたが、AIエージェントを用いることで、コミュニティ全体のデータを網羅するような大規模なデータセット構築を、少人数のチームで効率的に達成できたのです。この経験は、AIエージェントが科学研究のスケールと効率を飛躍的に向上させる可能性をHsu氏に確信させました。彼は、エンドツーエンドで完全に自動化された科学発見ループの実現はまだ先のことかもしれないが、研究プロセスの各ステップを効率化するAIエージェントやコパイロットは今後急速に普及していくだろうと考えています。

Ark Instituteは、このようなAI技術のフロンティアを開拓し、具体的な科学的ブレークスルーを生み出すことを目指して設立されました。ベイエリアの主要研究大学(スタンフォード、UCバークレー、UCSF)や、基礎科学とバイオテクノロジー産業、さらには生物学とテクノロジーセクター(Googleの元エンジニアリングリーダーであるDave Burke氏がCTOとして参画)を結びつけるハブとしての役割を担っています。Ark Instituteの目標は、単にNature誌やScience誌のようなトップジャーナルに論文を発表することではありません。もちろん、質の高い論文発表は研究成果をコミュニティと共有する上で重要ですが、それ以上に、研究成果が「触れることができる」形で実世界にインパクトを与えること、すなわち、多くの人々が利用できる技術プラットフォームや、実際に病気を治療できる可能性のある新しいアプローチを生み出すことを重視しています。これは、従来の大学研究とは異なる価値観であり、より「製品」に近い感覚で基礎研究のブレークスルーを社会に還元しようとする試みです。

Hsu氏は、学術界と産業界の違いはしばしば強調されすぎる傾向にあると指摘しつつも、両者にはインセンティブ構造の違いが存在することも認めています。学術界では研究費獲得や論文発表が主な評価指標となる一方、産業界では最終的に薬という製品を生み出し、市場で成功することが求められます。Ark Instituteは、この両者の「良いとこ取り」を目指し、学術的な自由な発想と、産業界的な実行力・製品開発能力を融合させようとしています。そのために、学術的な研究者(PI)と、産業界での経験を持つ技術スタッフ(ソフトウェアエンジニア、データサイエンティスト、オペレーション専門家など)が密接に連携する組織体制を構築しています。このような学際的なチーム作りにおいては、異なる分野の言語や文化を理解し、橋渡しできる「バイリンガル」な人材が極めて重要になります。Hsu氏は、優れた科学者には、創造的なアイデアを生み出す能力と、それを最後までやり遂げる実行力の両方が必要であり、特に分野横断的な視点を持つことが創造性の源泉になると考えています。LLMが多様な分野の情報を統合して新たな洞察を生み出すように、異なる専門性を持つ人々が協働することで、単一分野の研究では得られないブレークスルーが生まれるのです。

将来に向けて、Hsu氏はAIと生物学の融合がもたらす具体的な変化についていくつかの予測を立てています。

2025年まで:完全な抗体医薬品(IgG抗体)を、標的タンパク質の表面を指定するだけで、計算上設計できるようになる。また、酵素をゼロから設計する(De novo enzyme design)能力も成熟してくる。ただし、これらはまだタンパク質中心の世界観に基づいている。

2030年まで:細胞生物学者が「感動する」レベルの、正確で有用な「仮想細胞」モデルが登場する。これにより、創薬ターゲットの選定や治療薬の有効性予測の精度が向上する。Ark Instituteが目指す「仮想細胞のPDB」のようなものが実現に近づく。

2050年まで:(あるいはそれ以前に):科学的超知能と呼べるような、実験室(ウェットラボ)と完全に統合され、自己改善サイクルを持つAIシステムが登場する。これにより、創薬プロセスを含む科学的発見のスピードが劇的に加速する。ただし、Hsu氏は、毒性評価や長期的な影響の予測など、依然として時間のかかる課題が残ることも示唆しています。特に、マウスモデルとヒトとの違いは依然として大きな壁であり、これを乗り越えるためには、より多くの「ヒトにおける実験」が必要になると主張しています。これは倫理的・規制的な課題を伴いますが、例えば脳死患者から提供された臓器を体外で灌流し維持する技術(ex vivo perfusion)などを活用することで、よりヒトに近いモデルでの実験が可能になるかもしれません。

さらにHsu氏は、AIが個別化医療の実現にも貢献すると考えています。将来的には、「AIドクター」が、個人のゲノム情報、ウェアラブルデバイスから得られる生理データ(血糖値、心拍数、睡眠パターンなど)、血液検査結果などを統合的に解析し、個人の体質や生活習慣に合わせた健康維持や疾患予防のためのパーソナライズされた推奨(食事、運動、サプリメントなど)を提供するようになるかもしれません。現状では、これらのデータは断片的に収集・利用されているに過ぎませんが、AIによってこれらが統合され、「遺伝子型(G)×環境(E)=表現型(P)」という生命の基本方程式が、個々人の健康管理に具体的に役立つ形で活用される未来が描かれています。また、Hsu氏はArk Instituteでの研究例として、腸内細菌、神経系、脳が相互作用する「内受容感覚」の研究を挙げています。これは、「膝で天気を感じる」「お腹の調子が悪い」といった感覚の科学的基盤を探るものであり、運動による高揚感(ランナーズハイ)のメカニズムや、ストレスが潰瘍を引き起こすメカニズムなどが解明されつつあります。このような身体と脳の双方向コミュニケーションを理解し、介入することで、従来の「特定の分子標的に作用する薬」とは異なる、よりホリスティックな健康増進や疾患治療のアプローチ(例えば、気分やエネルギーレベル、代謝などを調整する)が可能になるかもしれません。これは、現在注目されている長寿研究や機能性医学の考え方とも通じるものがあります。

まとめ

Patrick Hsu氏とArk Instituteの取り組みは、AIが生物学のあらゆる側面を根本から変えようとしていることを示しています。DNAという生命の基本情報層を学習するEVOのような基盤モデルは、これまで解釈が困難だった遺伝子変異の意義を明らかにし、がんや遺伝性疾患の診断・治療に新たな光を当てる可能性を秘めています。また、その応用範囲は創薬に留まらず、CRISPRシステムの設計、さらには進化の原理に基づく生命現象の根源的な理解にまで及びます。

AIは、創薬プロセスにおける候補物質の設計だけでなく、臨床試験を含む開発段階の効率化、成功確率の向上にも貢献することが期待されます。さらに、AIエージェントは、仮説生成から実験、データ解析に至る科学研究のサイクル全体を加速させ、研究者の能力を拡張する強力なツールとなるでしょう。

しかし、これらの技術が真に社会に貢献するためには、データの質と量、モデルの解釈可能性と信頼性、そして倫理的・規制的な課題を乗り越える必要があります。特に、マウスモデルとヒトとのギャップを埋め、より予測性の高いモデルを構築するためには、ヒト由来のデータや、よりヒトに近い実験モデルへのアクセスと活用が不可欠となります。

Ark Instituteのような、学術界と産業界、生物学とAI技術の境界を越えて協力する学際的な取り組みは、これらの課題に立ち向かい、AIによる生命科学の再定義を推進する上で極めて重要です。EVOモデルや仮想細胞アトラスのような具体的な成果は、その可能性を具体的に示し始めています。AIと生物学の融合はまだ始まったばかりであり、今後、私たちの健康、医療、そして生命そのものに対する理解を、想像を超えるレベルで深めていくことになるでしょう。

参考:https://www.youtube.com/watch?v=v-_58dabswU

この記事が参考になったらシェア

シェア

AIコンサルについてもっと詳しく

AIコンサルの機能や導入事例について、詳しくご紹介しています。