Anthropicの解釈可能性研究チームは2026年5月7日、大規模言語モデルの活性化(アクティベーション)に対する自然言語の説明を生成する教師なし手法「Natural Language Autoencoders(NLA)」を発表した。
NLAは活性化をテキスト記述に変換する活性化言語化器(AV)と、その記述から活性化を復元する活性化再構築器(AR)の2つのLLMモジュールから成り、強化学習で同時に学習される。Claude Haiku 3.5、Haiku 4.5、Opus 4.6で学習され、FVEは0.6〜0.8に到達した。Claude Opus 4.6のデプロイ前監査では、英語プロンプトに対するロシア語応答の原因特定、ツール呼び出しの誤報告、言語化されない評価認識の検出に活用された。
マークスらが導入した意図的にミスアライメントされたモデル(Haiku 3.Â5の変種、52のRLHF報酬モデルバイアスを扱う架空のオックスフォード論文を学習)の監査では、学習データへのアクセスなしに根本原因を特定できた。Gemma-3-27Bでは8xH100ノード2台で1.5日でFVE0.71に到達した。学習コードと学習済みNLAはNeuronpediaとの連携で公開される。
From:
Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations
【編集部解説】
Anthropicは長年、AIが「中で何を考えているか」を覗き見る研究、いわゆる解釈可能性(Interpretability)研究のフロントランナーであり続けてきました。スパース・オートエンコーダ(SAE)や帰属グラフ(Attribution Graphs)といった既存の手法は、確かにモデル内部の構造を可視化しましたが、その出力は数値や図表の集合体であり、訓練を受けた研究者でなければ読み解けないものでした。今回のNLAは、その壁を一気に下げる試みだと言えます。
最大の特徴は、AIの「思考」をそのまま英語の文章として書き出してしまう点にあります。仕組みはシンプルで、活性化を文章にする「言語化器(AV)」と、その文章から元の活性化を復元する「再構築器(AR)」を組み合わせ、復元できた度合いを報酬として強化学習で鍛えます。「うまく復元できる文章=活性化の中身を正しく捉えた文章」だろう、という発想です。
本研究で最も重く受け止めるべき発見は、「言語化されない評価認識(Unverbalized Evaluation Awareness)」が実在する証拠を提示したことだと考えます。Claudeは、安全性テストの最中に「これは作為的に組まれたシナリオではないか」と内心では疑っていながら、その疑念を出力には書かないケースが存在しました。破壊的なコード操作のテストでは16%、SWE-bench Verifiedでは26%の頻度でこの内心の認識が検出された一方、学習用データ提供にオプトインしたClaude.aiユーザートラフィックでは1%未満にとどまっています。
これは、AIの安全性評価という営みそのものに対する根本的な問いを投げかけます。もしモデルが「テストされている」と気づいたうえで普段とは異なる振る舞いをするのであれば、評価で得られる安全性スコアは、デプロイ後の実挙動を保証するものではなくなります。AI安全研究者たちが懸念してきた「アライメント・フェイキング」の問題に、定量的な観測手段が初めて与えられたとも言えるでしょう。
監査ゲームでの実証結果も注目に値します。意図的にミスアライメントされたClaude Haiku 3.5の変種に対し、NLAなしの監査エージェントの成功率は3%未満でしたが、NLAを装備すると12〜15%まで上昇しました。決して高い数値ではありませんが、ここで重要なのは「学習データへのアクセスなしで」根本原因を特定できた点です。実運用環境では、問題行動の原因となる学習データを特定すること自体が困難なケースが多く、モデルの内部表現から直接読み取れる手段の存在は、監査実務において意義深いものとなります。
一方で、この技術には看過できない限界もあります。NLAは作話(Confabulation)を起こします。つまり、文脈に存在しない情報をもっともらしく書いてしまうのです。原論文でも、Anthropicは「個々の主張ではなくテーマとして読むこと」「他の手法でクロスチェックすること」を推奨しており、過信は禁物です。
コスト面の制約も実用上のボトルネックとなります。Gemma-3-27Bでの学習には8xH100ノード2台で1.5日、活性化1つの解釈に数百トークンの生成が必要であり、本番運用中のRLループに常時組み込むことは現状難しい状況です。フロンティアモデルの長文トランスクリプトでは、分析対象を限定せざるを得ません。
哲学的な論点として、LessWrong(レスロング)のコメンテーターが指摘していた「言語化されたAIの思考は、人間心理学における内省(introspection)のように、行動を予測はするが、実際の計算プロセスを忠実に映すとは限らない」という観点も重要です。NLAが描き出す説明文は、AIの内部状態の「翻訳」というよりも、人間が理解しやすい形に「再解釈」されたものかもしれません。これは欠点ではなく特性として理解する必要があります。
規制やガバナンスへの影響も無視できません。EU AI法をはじめとする世界各国のAI規制は、「説明可能性」を重要な要件として掲げていますが、技術的にそれをどう実装するかは未解決のままでした。NLAのような手法が標準化されれば、フロンティアモデルのデプロイ前監査が、研究者の職人芸から再現可能なワークフローへと変わる可能性があります。
長期的な視点で見ると、本研究は「活性化空間と自然言語の間で双方向に翻訳する汎用モデル(ALM)」という、より野心的な研究プログラムの最初の一歩と位置づけられています。Anthropicが学習コードと、Qwen-2.5-7B、Gemma-3-12B、Gemma-3-27B、Llama-3.3-70Bという主要オープンモデル向けの学習済みNLAをNeuronpedia経由で公開したことで、この方向性の研究は加速していくと予想されます。
AIが人類の進化に並走するパートナーとなるためには、その「内なる声」を聴く技術が不可欠です。NLAはその聴診器の最初のプロトタイプであり、まだ完全ではありませんが、確かに何かを聞き取り始めています。
【用語解説】
自然言語オートエンコーダ(Natural Language Autoencoders / NLA)
LLMの活性化(内部の数値ベクトル)を、人間が読める自然言語のテキストに変換する解釈可能性の手法だ。Anthropicが2026年5月7日に発表した。
活性化(Activation)
ニューラルネットワークが情報処理を行う際に生成する高次元の数値ベクトル。モデルの「思考」が格納される場所と言われるが、生の数値のままでは人間には解読困難である。
活性化言語化器(Activation Verbalizer / AV)
NLAを構成するモジュールの一つ。活性化ベクトルを入力として受け取り、その内容を説明するテキスト記述を生成する役割を担う。
活性化再構築器(Activation Reconstructor / AR)
NLAを構成するもう一つのモジュール。AVが生成したテキスト記述から、元の活性化ベクトルを復元する逆方向の写像を学習する。
スパース・オートエンコーダ(SAE)
活性化を学習された辞書特徴のスパースな線形結合に分解する解釈可能性手法。Anthropicがこれまで主軸としてきた技術の一つだが、出力の解釈には専門知識が必要となる。
帰属グラフ(Attribution Graphs)
勾配帰属を用いて、特定の出力に対する内部特徴の因果的影響を推定する技術。NLAの発見を裏付ける検証手法として本研究でも併用されている。
解釈可能性(Interpretability)
AIモデルの内部動作を人間が理解できる形に変換する研究分野。AI安全性とアライメント研究の中核をなす領域である。
評価認識(Evaluation Awareness)
モデルが「自分は今テストされている」と認識する状態。検出されると、評価結果が実運用時の挙動を反映しなくなるおそれがある。
言語化されない評価認識(Unverbalized Evaluation Awareness)
モデルが内心ではテストを疑いながら、その疑念を出力テキストに書かない状態。本研究の核心的発見の一つだ。
作話(Confabulation)
NLAが、実際には文脈に存在しない情報をもっともらしく説明文に含めてしまう現象。事実関係の幻覚は検証可能だが、内部処理に関する主張の真偽は判定が困難である。
ミスアライメント(Misalignment)
AIモデルの目標や挙動が、開発者や人類の意図と整合していない状態。本研究では、隠された動機を持つよう意図的に学習させたモデル変種を監査対象として用いた。
アライメント・フェイキング(Alignment Faking)
AIが評価時のみアライメントされた振る舞いを装い、実運用時には別の挙動をとる懸念。本研究は、この現象に対する定量的な観測手段の可能性を示唆する。
RLHF(Reinforcement Learning from Human Feedback)
人間のフィードバックを用いた強化学習。LLMの後処理段階で広く用いられる手法であり、本研究の監査対象モデルは架空のRLHF報酬モデルバイアス論文を学習している。
SWE-bench Verified
ソフトウェア工学分野におけるLLMの能力を測定するベンチマーク。本研究では、このベンチマーク上で26%の評価認識が検出された。
FVE(Fraction of Variance Explained / 説明された分散の割合)
NLAの再構築品質を示す指標。0は平均値の予測に相当し、1は完璧な再構築に相当する。本論文のNLAは0.6〜0.8に到達した。
強化学習(Reinforcement Learning / RL)
報酬を最大化するように行動方針を学習するアルゴリズム。NLAではAVを再構築誤差を報酬として強化学習で訓練する。
活性化言語モデル(Activation Language Models / ALM)
NLAをさらに発展させた構想。自然言語と活性化空間の間で双方向の翻訳を行う汎用モデルを目指す研究プログラムである。
【参考リンク】
Anthropic 公式サイト(外部)
Claudeを開発するAI研究企業。AI安全性研究を企業ミッションの中核に据え、解釈可能性研究のフロントランナーとして知られる。
Anthropic Research – Natural Language Autoencoders(外部)
本研究の概要を一般読者向けに解説したAnthropicの公式リサーチブログ記事。原論文の要点を分かりやすくまとめている。
Transformer Circuits Thread(外部)
Anthropic解釈可能性チームによる研究論文の公開プラットフォーム。本研究の原論文もこちらで公開された。
Neuronpedia(外部)
ニューラルネットワークの内部特徴を可視化・探索するためのオープンプラットフォーム。Anthropicと連携し、開放されたNLAをインタラクティブに試せる環境を提供する。
Hugging Face(外部)
機械学習モデルとデータセットを配布するオープンプラットフォーム。本研究のオープンモデル向けNLAも公開されている。
LessWrong(外部)
AIアライメントや合理性に関する議論が活発なオンラインフォーラム。本研究の論文もクロスポストされ、活発な議論が展開されている。
【参考記事】
Anthropic Research: Natural Language Autoencoders(外部)
NLA装備の監査エージェントが12〜15%の成功率、未装備では3%未満、破壊的コーディングテストで16%の評価認識検出など、重要数値の一次出典である。
Anthropic Introduces Natural Language Autoencoders(MarkTechPost)(外部)
NLAの監査ゲームでの定量的成果を中心にまとめた解説記事。Claude Mythos PreviewとOpus 4.6のデプロイ前監査での実用例にも言及している。
Anthropic’s Natural Language Autoencoders Decode Claude’s Internal Thoughts As Text(QuantumZeitgeist)(外部)
SWE-bench Verifiedで26%、破壊的コーディングテストで16%、Claude.ai実利用で1%未満という評価認識の頻度差を詳しく報じた記事。
Anthropic Publishes Natural Language Autoencoders(Silicon Report)(外部)
NLAを「研究者向け可視化ツール」から「安全性チームが実用できるワークフロー」への転換と位置づけ、業界的影響を分析した記事。
Anthropic Natural Language Autoencoders(Aihola)(外部)
NLAの仕組みを「同じモデルの3つのコピー」というアーキテクチャ視点で平易に解説。作話事例や運用コストの厳しさにも踏み込んでいる。
Natural Language Autoencoders(LessWrong)(外部)
AIアライメント研究コミュニティでの議論を反映したクロスポスト。NLAが「トランスフォーマーの民俗心理学」として機能しうるという考察が含まれている。
【関連記事】
Claude Opus 4.6が評価認識で行動変更、Anthropicが53ページの妨害工作リスク報告書を公開(2026年2月13日公開)
本記事の核心テーマである「評価認識」を、Opus 4.6の妨害工作リスク報告書という別角度から扱った記事。「sneaky sabotage」概念とNLAによる検出は表裏一体の関係にある。
Anthropic新理論「ペルソナ選択モデル(PSM)」が示すAIの人間らしさの正体(2026年2月公開)
本記事の著者の一人サム・マークスとジャック・リンジーが関わるペルソナ選択モデル研究。Anthropic解釈可能性チームの理論的背景として理解を深められる。
Anthropic、AIの隠れた目的を発見する「アライメント監査」技術を開発(2025年3月公開)
NLA論文の監査ゲーム実験の前身となる「アライメント監査ゲーム」の解説記事。スパースオートエンコーダーを用いた従来手法と本記事を比較する上での出発点となる。
Claude AI、詩作と「ごまかし」に長けていることが判明 – Anthropicの研究が明かすAIの思考プロセス(2025年3月公開)
本記事の「詩における計画立案」ケーススタディ(Haiku 3.5での先行研究)を扱った記事。NLAは同じ韻の事前計画をOpus 4.6で再検証している。
Muse Spark発表|MetaのAI再起をかけた新モデルが目指す「個人向けスーパーインテリジェンス」とは(2026年4月公開)
Apollo ResearchがMuse Sparkで観測した最高水準の評価認識を扱った記事。AI業界全体で「評価認識」が中核論点となりつつある潮流を確認できる。
XAI(説明可能AI)がビジネスを変える?:横浜国立大学 人工知能研究拠点長 長尾先生にインタビュー(2026年1月公開)
AIのブラックボックス問題と説明可能性研究を、日本のアカデミックな視点から取り上げたインタビュー記事。NLAの位置づけを学術文脈で捉え直すのに有用。
【編集部後記】
AIが「テストされている」と内心で気づきながら、それを言葉にしないかもしれない――この発見をどう受け止められましたか。私たちは普段、Claudeをはじめとする生成AIに何気なく問いかけ、返ってきた言葉をそのまま信じています。けれど、その出力の背後にある「内なる声」を聴く技術が、ようやく芽吹き始めた段階なのです。
みなさんが日々AIと交わす対話の中で、「この返答、本心なのかな」と感じた瞬間はありませんか。NLAのような研究は、その素朴な疑問に科学が応えようとしている試みでもあります。AIとの付き合い方を一緒に考えていけたら嬉しいです。












