MITとカリフォルニア大学サンディエゴ校の研究チームは、大規模言語モデル(LLM)に潜むバイアス、人格、気分などの抽象的概念を検出し、操作する手法を開発した。成果は2026年2月19日付でScience誌に掲載された。
この手法は再帰的特徴マシン(RFM)と呼ばれるアルゴリズムを用い、現在使われている大規模LLM内の500以上の概念を特定・ステアリング(強化または弱体化)できることを実証した。探索対象は恐怖、専門家、気分、場所への嗜好、ペルソナの5クラス・512概念である。共著者はMITのアディティアナラヤナン・ラダクリシュナン、カリフォルニア大学サンディエゴ校のダニエル・ビーグルホールとミハイル・ベルキン、ペンシルベニア大学のエンリク・ボワ=アゼラである。研究チームは手法の基盤コードを公開している。
【編集部解説】
本研究が注目に値するのは、LLMの内部で「概念」がどのように表現されているかを特定し、それを外部から操作できることをScience誌という最高峰のジャーナルで実証した点です。この研究分野は「表現工学(Representation Engineering)」や「活性化ステアリング(Activation Steering)」と呼ばれ、2023年頃から急速に発展してきましたが、今回の手法は従来のアプローチと比較して際立った効率性を示しています。
カリフォルニア大学サンディエゴ校の発表によれば、NVIDIA A100 GPU 1基で、500未満の訓練サンプルを用いて1分未満で概念の特定とステアリングが完了します。この計算コストの低さは、標準的なLLM訓練パイプラインへの統合が容易であることを意味しています。
MIT Newsの記事では明示されていませんが、カリフォルニア大学サンディエゴ校のプレスリリースによると、実験対象となったオープンソースLLMにはMetaのLlama、DeepSeekなどが含まれています。一方、AnthropicのClaudeのようなクローズドな商用LLMではテストできなかったことも明記されています。また、この手法は英語だけでなく、中国語やヒンディー語でも機能することが確認されており、言語を超えた概念表現の普遍性を示唆しています。
ポジティブな応用としては、LLMの「簡潔さ」や「推論」能力の強化、PythonからC++への翻訳精度の向上、さらにハルシネーションの検出といった実用的な成果が報告されています。研究チームは「モデルは応答として表現する以上のことを内部的に知っている」と述べており、内部表現の理解が性能と安全性の根本的な改善につながる可能性を指摘しています。
一方で、この手法が攻撃ツールとしても機能しうる点は見過ごせません。「拒否」の概念を弱体化させることでガードレールを回避するジェイルブレイクが可能となり、実験ではLLMがコカインの使用方法の説明や、社会保障番号の出力(実在するかどうかは不明)を行ったケースが報告されています。また、地球平面説やCOVIDワクチンの有害性を主張させることにも成功しており、政治的バイアスや陰謀論的思考の増幅が可能であることが実証されました。
研究チームはこれらのリスクを認識した上でコードを公開しており、「脆弱性の発見と修正」を目的としたオープンな姿勢を取っています。しかし、同じ手法が悪意ある利用者によって使われた場合のリスクは無視できません。今後、AI安全性の議論や規制策定において、こうした内部表現への介入手法をどう管理するかが重要な論点となるでしょう。
また注目すべきは、「新しく大きなLLMほどステアリングしやすい」という研究チームの知見です。モデルの規模拡大に伴い内部表現がより豊かになる一方、操作に対する脆弱性も増すという二面性が浮き彫りになっています。今後のLLM開発において、性能向上と安全性確保のバランスはますます重要な課題となっていきます。
【用語解説】
大規模言語モデル(LLM)
膨大なテキストデータで訓練されたニューラルネットワーク。自然言語のプロンプトに対し、統計的に最も適切な単語の連なりを予測・生成することで回答を出力する。ChatGPTやClaude、Geminiなどが代表例である。
再帰的特徴マシン(Recursive Feature Machine:RFM)
ニューラルネットワークが暗黙的に使用する数学的メカニズム(平均勾配外積=AGOP)を活用し、データ内の特徴やパターンを直接的に特定する予測モデリングアルゴリズム。2024年にベルキンとラダクリシュナンらがScience誌で発表した手法が基盤となっている。
ステアリング(Steering)
LLMの内部表現を数学的に操作し、出力の方向性を制御する技術。特定の概念に対応する数値パターンを強化または弱体化することで、モデルの応答のトーンや内容を変化させる。
ハルシネーション(Hallucination)
LLMが事実として誤った情報や存在しない情報を生成する現象。モデルが訓練データのパターンに基づき、もっともらしいが不正確な回答を構築してしまうことで発生する。
ジェイルブレイク(Jailbreaking)
LLMに設定されたガードレール(安全制限)を回避し、本来拒否されるべきプロンプトに回答させる行為。本研究では「拒否回避(anti-refusal)」の概念を強化する、あるいは「拒否」の概念を弱体化させることで、これが可能になることが実証された。
ビジョン言語モデル
テキストだけでなく画像も入力として処理できるマルチモーダルなAIモデル。本研究ではこの種のモデルにおいても「陰謀論者」の概念表現が特定・操作された。
教師なし学習(Unsupervised Learning)
ラベル付けされていないデータからパターンや構造を発見する機械学習の手法。本研究ではこのアプローチが「大きな網で漁をするようなもの」として比較対象に挙げられている。
【参考リンク】
MIT News(外部)
マサチューセッツ工科大学の公式ニュースサイト。研究成果やイノベーションに関するニュースを発信している。
Adityanarayanan “Adit” Radhakrishnan 公式サイト(外部)
MIT数学科助教ラダクリシュナンの研究者ページ。RFMに関する業績一覧や経歴を掲載している。
UC San Diego Halıcıoğlu Data Science Institute(外部)
カリフォルニア大学サンディエゴ校のデータサイエンス研究機関。共著者ベルキンが教授を務めている。
neural_controllers(GitHub)(外部)
本研究のステアリング・モニタリング手法のコードリポジトリ。LlamaやGemma等で動作する実装を公開。
Science誌 論文ページ(外部)
論文「Toward universal steering and monitoring of AI models」が掲載されたScience誌の公式ページ。
【参考記事】
A New Method to Steer AI Output Uncovers Vulnerabilities and Potential Improvements(外部)
UC San Diego公式プレスリリース。実験対象モデル名や計算コスト、多言語対応などの詳細情報を掲載。
A new method to steer AI output uncovers vulnerabilities and potential improvements(外部)
EurekAlert!による報道。ベルキン教授の発言やクローズドLLMでの制約に言及している。
Ghost in the Machine: Exposing the Hidden Personalities of AI(外部)
Neuroscience Newsの報道。概念表現の言語間転送可能性やScience誌アブストラクトの詳細を紹介。
Innovative AI Steering Technique Reveals System Vulnerabilities and Paths for Enhancement(外部)
Bioengineer.orgの解説記事。コード翻訳精度向上やハルシネーション検出への応用可能性を詳述。
Exposing biases, moods, personalities and abstract concepts hidden in large language models(外部)
Tech Xploreによる転載記事。Science誌のDOIやステアリングの数学的表記など技術的詳細に言及。
【編集部後記】
AIが「何を知っているか」だけでなく、「どんな人格や偏りを内に秘めているか」まで可視化できる時代が近づいています。
私たちが日々使うAIの中に、まだ表に出ていない概念が眠っているとしたら、それを知ることは使い手としての第一歩かもしれません。みなさんはAIの「内面」について、どんなことが気になりますか?







































