ーTech for Human Evolutionー

MIT・Schmidt Center、AI技術「PUPS」で未知タンパク質の細胞内局在予測に成功—生物学データ革命の新局面

AI（人工知能）ニュース｜ヘルスケアテクノロジーニュース

MITニュース　autonews　Headline News

[公開]

2025年9月7日18:36

[更新]2025年9月7日

MITのCaroline Uhler教授がMITとハーバード大学のBroad InstituteにあるEric and Wendy Schmidt Centerにおける生物学と医学のデータ革命について語った。同教授はMITのAndrewおよびErna Viterbi工学教授であり、データ・科学・社会研究所（IDSS）の電気工学およびコンピュータサイエンス教授、同センターのディレクターを務める。

Schmidt Centerはタンパク質、細胞、組織、生物体の4つの生物学的組織レベルに焦点を当てる。現在、ゲノミクス、マルチオミクス、高解像度イメージング、電子健康記録など大規模データセットが利用可能となった。単一細胞ゲノミクスにより数百万の細胞のプロファイリングが実現している。BERT、GPT-3、ChatGPTなどの機械学習モデルが進歩し、CLIPなどのマルチモーダルモデルが人間レベルの性能を達成した。

生物学分野では予測精度だけでは不十分で、因果メカニズムの解明が重要である。プールCRISPRスクリーン、単一細胞トランスクリプトミクス、空間プロファイリングなどの高スループット摂動技術が開発された。CASP（構造予測の批判的評価）がタンパク質構造予測アルゴリズムの改善に寄与している。Schmidt CenterはCell Perturbation Prediction Challenge（CPPC）を実施し、摂動効果予測アルゴリズムのベンチマークを目指す。

同センターの研究成果として、Broad InstituteのFei Chen博士との共同開発によるPUPS、ETHチューリッヒのG.V. Shivashankar教授との共同研究によるImage2Reg、組み合わせ遺伝子摂動を予測するMORPHが挙げられる。

From: 3 Questions: On biology and medicine’s “data revolution”

【編集部解説】

Caroline Uhler教授が語る「データ革命」は、単なる技術的進歩を超えて、生命科学分野におけるパラダイム転換を示しています。この革命の核心は、生命の「単位」から「プログラム」への理解の転換にあります。

生命科学のデータ革命が今起きている理由

Broad Instituteのゲノミクスプラットフォームでは、1日あたり約20テラバイトのデータを生成しており、年間では数ペタバイト規模の膨大なデータを扱っています。Human Protein Atlasには17,000以上のタンパク質が登録されていますが（2024年最新版では17,378タンパク質）、全タンパク質と細胞系列の組み合わせのうち探索されているのはわずか0.25%という事実は、未開拓領域の膨大さを物語っています。

因果関係の理解への転換点

従来の機械学習が統計的関連性の発見に留まっていたのに対し、生物学では「なぜそうなるのか」という因果メカニズムの解明が不可欠です。Uhler教授が指摘する通り、生物学は推奨システムやネット広告と異なり、物理的に解釈可能な現象を扱い、自然法則が存在する分野です。このため、生物学は機械学習の単なる応用分野ではなく、新たなML研究のインスピレーション源として位置づけられています。

PUPSが解決する技術的課題

タンパク質の細胞内局在予測技術PUPSの革新性は、未知のタンパク質に対する汎化能力にあります。従来手法が訓練データに含まれる特定のタンパク質・細胞の組み合わせでのみ機能していたのに対し、PUPSは言語モデルと画像インペインティングを組み合わせることで、単一細胞レベルでの予測を実現しました。これは疾患メカニズムの理解において重要な突破口となります。

Image2Regの画期的な意味

クロマチン画像から遺伝子調節状態を予測するImage2Regは、物理的構造と生化学的機能を直接結びつける初の手法です。単純な蛍光染色画像から遺伝子の摂動状態を予測できることは、薬物標的の特定や疾患メカニズムの解明を大幅に加速する可能性があります。特に、従来のシーケンシングベースのアプローチと比較して、コストと時間を劇的に削減できる点が注目されます。

規制と倫理への影響

これらの技術は医療診断や創薬プロセスに直接影響するため、モデルの偏り、ショートカット学習、自動化バイアスといった課題への対処が急務です。特に臨床現場での意思決定において、AIシステムの予測根拠の透明性確保は重要な課題となります。

長期的視点での意味

生物学全体を統合した基盤モデルの構築は、ChatGPTが言語分野で達成したような革命的変化を生命科学にもたらす可能性があります。現在は各スケール・各問題に特化したモデルが主流ですが、将来的には「デジタル生物」とも呼べる包括的モデルの実現が期待されています。

このデータ革命は、生命科学研究の効率化だけでなく、疾患の早期発見、個別化医療の実現、そして人類の健康寿命延伸への道筋を示しています。Schmidt Centerの取り組みは、テクノロジーが人類進化の触媒となる具体例として注目すべき事例です。

【用語解説】

Eric and Wendy Schmidt Center：MITとハーバード大学のBroad Institute内にある研究センター。データサイエンスと生命科学の学際的研究を通じて人類の健康向上を目指す。

PUPS（Prediction of Unseen Proteins’ Subcellular localization）：未知のタンパク質の細胞内局在を予測するAI手法。タンパク質言語モデルと画像インペインティングモデルを組み合わせる。

Image2Reg：クロマチン画像から遺伝子調節状態を予測する機械学習手法。畳み込みニューラルネットワークとグラフ畳み込みネットワークを利用。

MORPH：組み合わせ遺伝子摂動の結果を予測し、遺伝子間の相互作用タイプを特定する手法。注意ベースのフレームワークを採用。

CASP（Critical Assessment of Structure Prediction）：タンパク質構造予測アルゴリズムのベンチマークと改善を目的とした反復的機械学習チャレンジ。

CPPC（Cell Perturbation Prediction Challenge）：摂動効果予測アルゴリズムを客観的にテスト・ベンチマークすることを目的としたチャレンジ。

CRISPRスクリーン：CRISPR技術を用いた高スループット遺伝子摂動実験。大量の遺伝子を同時に操作し機能を解析する。

単一細胞トランスクリプトミクス：個々の細胞レベルで遺伝子発現を測定・解析する技術。細胞の多様性と状態変化を詳細に調べる。

空間プロファイリング：組織内での細胞の空間的配置と遺伝子発現パターンを同時に測定する技術。

マルチオミクス：ゲノミクス、プロテオミクス、メタボロミクスなど複数のオミクス技術を統合したアプローチ。

【参考リンク】

MIT（マサチューセッツ工科大学）（外部）
1861年設立の米国屈指の理工系大学。科学技術分野で世界をリードする研究教育機関。
Broad Institute（外部）
MITとハーバード大学の共同研究機関。ゲノミクスと生物医学研究の世界的拠点。
Eric and Wendy Schmidt Center（外部）
Broad Institute内の研究センター。データサイエンスと生命科学の学際的研究を推進。
Human Protein Atlas（外部）
ヒトのすべてのタンパク質の空間分布をマッピングする世界最大のオープンアクセスデータベース。
Nature Methods（外部）
生命科学研究の方法論に特化した国際的査読付き学術誌。技術革新を支援する専門誌。

【参考記事】

With AI, researchers predict the location of virtually any protein within a human cell（外部）
PUPS技術の詳細解説記事。Human Protein Atlasの0.25%探索率から技術革新まで詳述。
Building a two-way street between cell biology and machine learning（外部）
Broad Instituteの80ペタバイトデータ生成を含む生命科学とML研究の双方向関係論文。
Prediction of protein subcellular localization in single cells（外部）
PUPS手法のNature Methods掲載論文。技術的詳細と実験検証結果を報告。
Image2Reg: Linking chromatin images to gene regulation using genetic and chemical perturbation screens（外部）
Cell Systems誌掲載のImage2Reg論文。クロマチンと遺伝子調節の関連性実証。
AI tool predicts potential drug targets by analyzing cell images（外部）
Image2Regの臨床応用可能性解説。従来手法との比較で時間・コスト削減効果を強調。
The Human Protein Atlas—Spatial localization of the human proteome in health and disease（外部）
Human Protein Atlasの包括レビュー。1,000万枚画像データベース構築過程と6つの主要セクション解説。