MITのCaroline Uhler教授がMITとハーバード大学のBroad InstituteにあるEric and Wendy Schmidt Centerにおける生物学と医学のデータ革命について語った。同教授はMITのAndrewおよびErna Viterbi工学教授であり、データ・科学・社会研究所(IDSS)の電気工学およびコンピュータサイエンス教授、同センターのディレクターを務める。
Schmidt Centerはタンパク質、細胞、組織、生物体の4つの生物学的組織レベルに焦点を当てる。現在、ゲノミクス、マルチオミクス、高解像度イメージング、電子健康記録など大規模データセットが利用可能となった。単一細胞ゲノミクスにより数百万の細胞のプロファイリングが実現している。BERT、GPT-3、ChatGPTなどの機械学習モデルが進歩し、CLIPなどのマルチモーダルモデルが人間レベルの性能を達成した。
生物学分野では予測精度だけでは不十分で、因果メカニズムの解明が重要である。プールCRISPRスクリーン、単一細胞トランスクリプトミクス、空間プロファイリングなどの高スループット摂動技術が開発された。CASP(構造予測の批判的評価)がタンパク質構造予測アルゴリズムの改善に寄与している。Schmidt CenterはCell Perturbation Prediction Challenge(CPPC)を実施し、摂動効果予測アルゴリズムのベンチマークを目指す。
同センターの研究成果として、Broad InstituteのFei Chen博士との共同開発によるPUPS、ETHチューリッヒのG.V. Shivashankar教授との共同研究によるImage2Reg、組み合わせ遺伝子摂動を予測するMORPHが挙げられる。
From: 3 Questions: On biology and medicine’s “data revolution”
【編集部解説】
Caroline Uhler教授が語る「データ革命」は、単なる技術的進歩を超えて、生命科学分野におけるパラダイム転換を示しています。この革命の核心は、生命の「単位」から「プログラム」への理解の転換にあります。
生命科学のデータ革命が今起きている理由
Broad Instituteのゲノミクスプラットフォームでは、1日あたり約20テラバイトのデータを生成しており、年間では数ペタバイト規模の膨大なデータを扱っています。Human Protein Atlasには17,000以上のタンパク質が登録されていますが(2024年最新版では17,378タンパク質)、全タンパク質と細胞系列の組み合わせのうち探索されているのはわずか0.25%という事実は、未開拓領域の膨大さを物語っています。
因果関係の理解への転換点
従来の機械学習が統計的関連性の発見に留まっていたのに対し、生物学では「なぜそうなるのか」という因果メカニズムの解明が不可欠です。Uhler教授が指摘する通り、生物学は推奨システムやネット広告と異なり、物理的に解釈可能な現象を扱い、自然法則が存在する分野です。このため、生物学は機械学習の単なる応用分野ではなく、新たなML研究のインスピレーション源として位置づけられています。
PUPSが解決する技術的課題
タンパク質の細胞内局在予測技術PUPSの革新性は、未知のタンパク質に対する汎化能力にあります。従来手法が訓練データに含まれる特定のタンパク質・細胞の組み合わせでのみ機能していたのに対し、PUPSは言語モデルと画像インペインティングを組み合わせることで、単一細胞レベルでの予測を実現しました。これは疾患メカニズムの理解において重要な突破口となります。
Image2Regの画期的な意味
クロマチン画像から遺伝子調節状態を予測するImage2Regは、物理的構造と生化学的機能を直接結びつける初の手法です。単純な蛍光染色画像から遺伝子の摂動状態を予測できることは、薬物標的の特定や疾患メカニズムの解明を大幅に加速する可能性があります。特に、従来のシーケンシングベースのアプローチと比較して、コストと時間を劇的に削減できる点が注目されます。
規制と倫理への影響
これらの技術は医療診断や創薬プロセスに直接影響するため、モデルの偏り、ショートカット学習、自動化バイアスといった課題への対処が急務です。特に臨床現場での意思決定において、AIシステムの予測根拠の透明性確保は重要な課題となります。
長期的視点での意味
生物学全体を統合した基盤モデルの構築は、ChatGPTが言語分野で達成したような革命的変化を生命科学にもたらす可能性があります。現在は各スケール・各問題に特化したモデルが主流ですが、将来的には「デジタル生物」とも呼べる包括的モデルの実現が期待されています。
このデータ革命は、生命科学研究の効率化だけでなく、疾患の早期発見、個別化医療の実現、そして人類の健康寿命延伸への道筋を示しています。Schmidt Centerの取り組みは、テクノロジーが人類進化の触媒となる具体例として注目すべき事例です。
【用語解説】
Eric and Wendy Schmidt Center:MITとハーバード大学のBroad Institute内にある研究センター。データサイエンスと生命科学の学際的研究を通じて人類の健康向上を目指す。
PUPS(Prediction of Unseen Proteins’ Subcellular localization):未知のタンパク質の細胞内局在を予測するAI手法。タンパク質言語モデルと画像インペインティングモデルを組み合わせる。
Image2Reg:クロマチン画像から遺伝子調節状態を予測する機械学習手法。畳み込みニューラルネットワークとグラフ畳み込みネットワークを利用。
MORPH:組み合わせ遺伝子摂動の結果を予測し、遺伝子間の相互作用タイプを特定する手法。注意ベースのフレームワークを採用。
CASP(Critical Assessment of Structure Prediction):タンパク質構造予測アルゴリズムのベンチマークと改善を目的とした反復的機械学習チャレンジ。
CPPC(Cell Perturbation Prediction Challenge):摂動効果予測アルゴリズムを客観的にテスト・ベンチマークすることを目的としたチャレンジ。
CRISPRスクリーン:CRISPR技術を用いた高スループット遺伝子摂動実験。大量の遺伝子を同時に操作し機能を解析する。
単一細胞トランスクリプトミクス:個々の細胞レベルで遺伝子発現を測定・解析する技術。細胞の多様性と状態変化を詳細に調べる。
空間プロファイリング:組織内での細胞の空間的配置と遺伝子発現パターンを同時に測定する技術。
マルチオミクス:ゲノミクス、プロテオミクス、メタボロミクスなど複数のオミクス技術を統合したアプローチ。
【参考リンク】
【参考記事】
【編集部後記】
生物学の「データ革命」は、私たちが想像する以上に身近な未来を描いています。単純な細胞画像から病気の原因遺伝子を特定したり、未知のタンパク質の機能を予測したりする技術は、個別化医療の実現を大きく前進させるでしょう。
皆さんは、自分の細胞一つから健康状態や将来のリスクを詳細に把握できる時代をどう捉えるでしょうか?このようなAI技術の進歩が医療費削減や治療選択にどのような影響を与えると思われるでしょうか?