Last Updated on 2025-05-17 07:39 by admin
MIT、ハーバード大学、ブロード研究所の研究チームは、AIを活用してヒト細胞内のタンパク質の位置を高精度に予測する新しい計算手法「PUPS」(Prediction of Unseen Proteins’ Subcellular localization)を開発した。この研究は2025年5月15日にNature Methods誌に掲載された。
PUPSは、これまで検査されたことのないタンパク質と細胞の両方であっても、任意のヒト細胞株における任意のタンパク質の位置を予測することができる。単一のヒト細胞内には約70,000種類の異なるタンパク質とそのバリアントが存在するが、従来の実験では一度に数種類しか検査できないため、タンパク質の位置を手動で特定するのは非常にコストと時間がかかっていた。
この新技術は、タンパク質言語モデルと画像インペインティングモデルを組み合わせた二部構成の方法を採用している。第一部はタンパク質のアミノ酸配列に基づいて局在化を決定する特性を捉え、第二部は細胞の3つの染色画像(核、微小管、小胞体)から細胞の状態に関する情報を収集する。
PUPSの特徴は、多くのAIベースの手法と異なり、特定のタイプの細胞全体の平均的な推定値ではなく、単一細胞レベルでタンパク質を局在化できることである。また、既存のヒューマン・プロテイン・アトラス(Human Protein Atlas)が40以上の細胞株にわたる13,000以上のタンパク質の細胞内挙動をカタログ化しているものの、可能な組み合わせの約0.25パーセントしか探索していない点を補完する。
研究チームは実験室での検証を行い、PUPSが未知の細胞株における新しいタンパク質の細胞内位置を正確に予測できることを確認した。また、ベースラインのAI手法と比較して、テストしたタンパク質全体で平均して予測誤差が少なかった。
研究チームには、MITの計算・システム生物学プログラムの大学院生Yitong Tseo氏、電気工学・コンピュータサイエンス学部の大学院生Xinyi Zhang氏、ブロード研究所のYunhao Bai氏、ハーバード大学の助教授Fei Chen氏、MITのCaroline Uhler教授らが参加している。
将来的に研究チームは、PUPSをさらに強化してタンパク質間相互作用を理解し、細胞内の複数のタンパク質の局在化予測を行えるようにしたいと考えている。長期的には、培養細胞ではなく、生きたヒト組織に関して予測を行えるよう発展させる計画である。
この研究は、ブロード研究所のエリック・アンド・ウェンディ・シュミットセンター、国立衛生研究所、国立科学財団などから資金提供を受けている。
References:
With AI, researchers predict the location of virtually any protein within a human cell
【編集部解説】
皆さん、今回のニュースは細胞生物学とAIの融合がもたらす画期的な進展についてです。MIT、ハーバード大学、ブロード研究所の研究チームが開発した「PUPS」は、タンパク質の位置予測という分野に大きなブレークスルーをもたらしています。
従来、細胞内のタンパク質の位置を特定するには、蛍光顕微鏡などを使った時間と費用のかかる実験が必要でした。しかし、ヒト細胞内には約70,000種類ものタンパク質とそのバリアントが存在し、これらをすべて実験的に調べることは現実的ではありませんでした。
PUPSの革新的な点は、これまで検査されたことのないタンパク質と細胞の組み合わせでも予測できることです。既存の大規模データセットであるヒューマン・プロテイン・アトラスは、40以上の細胞株にわたる13,000以上のタンパク質をカタログ化していますが、これは可能な組み合わせのわずか0.25%に過ぎません。PUPSはこの未探索の領域を効率的に調査できるのです。
特筆すべきは、PUPSが単一細胞レベルでタンパク質の位置を予測できる点です。これは多くの既存AIモデルが細胞集団の平均値として予測するのとは一線を画しています。例えば、がん治療後の特定の細胞内でのタンパク質の再配置を観察できれば、個別化医療や標的薬開発に大きく貢献するでしょう。
技術的には、PUPSはタンパク質言語モデルと画像インペインティングモデルという2つの異なるAI技術を組み合わせています。前者はタンパク質のアミノ酸配列から構造や機能を推測し、後者は細胞の染色画像から細胞の状態を読み取ります。この組み合わせにより、タンパク質と細胞の両方の特性を考慮した高精度な予測が可能になっています。
トレーニング過程での工夫も見逃せません。研究チームはモデルに主タスク(画像の欠落部分を埋める)と副タスク(細胞区画の名前付け)を同時に行わせることで、より効果的な学習を促しました。これは、生徒に花の名前を書かせるだけでなく、その部分も描かせるという教育法に似ています。
実験による検証では、PUPSはヒューマン・プロテイン・アトラスに含まれていない新しいタンパク質や細胞株でも正確に予測でき、既存のAI手法と比較して予測誤差が少ないことが確認されています。
この技術がもたらす可能性は計り知れません。タンパク質の誤った位置づけはアルツハイマー病、嚢胞性線維症、がんなど様々な疾患と関連しています。PUPSを使えば、疾患メカニズムの理解や新薬開発の初期スクリーニングが大幅に効率化されるでしょう。
研究チームは今後、PUPSをさらに発展させ、タンパク質間相互作用の理解や複数タンパク質の同時予測を目指しています。長期的には培養細胞だけでなく、生きたヒト組織での予測も視野に入れています。これが実現すれば、in vitroモデルとin vivo生理学の間のギャップを埋め、生物学的プロセスや疾患進行、治療反応の研究に革命をもたらす可能性があります。
一方で、このような技術の進展には潜在的な課題もあります。コンピュータ予測はあくまで実験検証の前段階であり、最終的な確認には従来の実験手法が必要です。また、予測モデルの精度は訓練データの質と量に大きく依存するため、データバイアスによる誤予測のリスクも考慮する必要があるでしょう。
しかし総じて、PUPSはAIと分子生物学の交差点における重要なマイルストーンであり、細胞システム生物学の研究に新たな道を開く可能性を秘めています。
【用語解説】
PUPS(Predictions of Unseen Proteins’ Subcellular localization):
未知のタンパク質の細胞内位置を予測するAIモデル。タンパク質配列と細胞画像の両方を利用して、これまで実験的に観察されていないタンパク質と細胞株の組み合わせでも予測できる。
タンパク質言語モデル:
タンパク質のアミノ酸配列をテキストのように扱い、その構造や機能を予測するAIモデル。人間の言語を理解する言語モデルと同様の原理で、タンパク質の「言語」を理解する。
画像インペインティングモデル:
画像の欠落部分を補完するAIモデル。PUPSでは細胞の染色画像から得た情報を基に、タンパク質の位置を予測する部分を「描き込む」役割を果たす。
ヒューマン・プロテイン・アトラス(Human Protein Atlas):
40以上の細胞株における13,000以上のタンパク質の細胞内挙動をカタログ化した大規模データベース。しかし可能な組み合わせの約0.25%しか探索されていない。
細胞株:
実験室で培養される均一な細胞の集団。特定の特性を持ち、研究に使用される。
【参考リンク】
MIT(マサチューセッツ工科大学)(外部)
世界トップクラスの理工系大学。PUPSの開発に関わった主要研究機関の一つ。
ブロード研究所(Broad Institute)(外部)
MITとハーバード大学が共同で設立したバイオメディカル・ゲノミクス研究センター。
MIT計算・システム生物学プログラム(外部)
生物学、工学、コンピュータサイエンスを統合した学際的な博士課程プログラム。
MIT CSAIL(コンピュータサイエンス・人工知能研究所)(外部)
MITのコンピュータサイエンスと人工知能研究の中心的機関。Caroline Uhler教授が所属。
ヒューマン・プロテイン・アトラス(外部)
ヒトタンパク質の発現と局在に関する大規模データベース。PUPSのトレーニングデータ。
Nature Methods掲載論文(外部)
PUPSに関する原著論文「Prediction of protein subcellular localization in single cells」。
【編集部後記】
皆さんの身体の中では、今この瞬間も数万種類のタンパク質が正確な場所で働いています。もし自分の細胞内でタンパク質がどこにあるのか可視化できたら、どんな発見があるでしょうか?PUPSのようなAI技術は、私たちの体の中で起きている複雑な現象を解き明かす鍵になるかもしれません。ご自身の研究や仕事で、AIによる予測技術をどのように活用できそうですか?また、こうした技術の進化によって、医療や創薬の未来はどう変わると思いますか?ぜひSNSでご意見をお聞かせください。