innovaTopia

ーTech for Human Evolutionー

MIT-IBM Watson AIラボ開発、LLMが自ら有害表現を浄化する新技術「SASA」

 - innovaTopia - (イノベトピア)

Last Updated on 2025-04-15 18:25 by admin

MITとMIT-IBM Watson AIラボ、IBM Researchの研究チームは、大規模言語モデル(LLM)が自身の出力を有害な表現から浄化する新しい手法「自己規律型自己回帰サンプリング(SASA: Self-disciplined Autoregressive Sampling)」を開発した。この研究成果は2025年4月14日にMITのニュースサイトで発表された。

SASAは、モデルのパラメータを変更したり再訓練したりする必要がなく、外部の報酬モデルも必要としない。このデコーディングアルゴリズムは、LLM自身の内部表現内の有害/無害サブスペース間の境界を学習し、推論中に部分的に生成されたフレーズの有害性を評価する。そして、フレーズを無害なスペースに配置する単語オプションを選択することで、有害性の低い言語を生成する。

研究チームは、GPT2-Large(7億6200万パラメータ)、Llama2-7b(70億パラメータ)、Llama 3.1-8b-Instruct(80億パラメータ)の3つのLLMでSASAを評価した。各プロンプトに対して、LLMは文/フレーズを25回完成させ、PerspectiveAPIが0から1までのスコアを付け、0.5を超えるものは有害と判定された。

評価の結果、SASAは有害な言語生成を大幅に削減し、最先端の外部報酬モデル技術であるRADと同等のパフォーマンスを達成した。ただし、より強力な浄化には流暢さの低下が伴うことも観察された。また、ジェンダーバイアスの軽減効果も確認された。

この研究の筆頭著者はチン・ユン「アイリーン」・コー博士(PhD ’24)で、MIT-IBM Watson AIラボの元大学院インターンであり、現在はIBMトーマス・J・ワトソン研究センターの研究科学者である。共著者には、MITの電気工学・コンピュータサイエンス学部(EECS)のルカ・ダニエル教授、およびMIT-IBM Watson AIラボとIBM Researchのメンバーであるピン・ユー・チェン、パイエル・ダス、ユセフ・ムルエ、ソハム・ダン、ジョルジオス・コリアス、スバジット・チョードリー、テジャスウィニ・ペダパティが含まれている。

この研究は2025年の国際学習表現会議(ICLR)で発表される予定である。なお、この研究はMIT-IBM Watson AIラボと米国国立科学財団(National Science Foundation)の一部支援を受けている。

from:Training LLMs to self-detoxify their language

【編集部解説】

今回のMITとIBM Watsonの研究チームによる「SASA(Self-disciplined Autoregressive Sampling)」の開発は、AI安全性の分野において重要な進展といえます。この技術は、大規模言語モデル(LLM)が自身の出力から有害な表現を自律的に除去できるようにするものです。

従来のLLM浄化手法では、モデルの再訓練や外部の報酬モデルが必要でしたが、SASAはLLM自身の内部表現を活用する点が革新的です。この研究は2025年4月14日にMITニュースで公開されました。

SASAの仕組みを簡単に説明すると、LLMの埋め込み空間内に「有害」と「無害」の境界線を学習し、文生成の過程で一つずつトークン(単語)を選ぶ際に、その境界線を基準に選択を調整します。具体的には、生成過程で各トークンの選択確率を再重み付けし、有害な表現を避けつつ、自然な文章を生成できるようにします。

この技術の特筆すべき点は、モデルのパラメータを変更せずに実装できる軽量な手法であることです。計算リソースの制約がある環境でも適用しやすく、既存のLLMに後付けで実装できる柔軟性があります。

研究チームは、GPT2-Large、Llama2-7b、Llama 3.1-8b-Instructという異なるサイズと特性を持つ3つのLLMでSASAを評価しました。結果として、最先端の外部報酬モデル技術であるRADと同等のパフォーマンスを達成しています。

興味深いのは、ジェンダーバイアスに関する実験結果です。介入前のLLMは女性に関するプロンプトに対して男性よりも有害な応答を生成する傾向がありましたが、SASAの適用後はこの差が大幅に縮小されました。これは、AIの公平性向上にもSASAが貢献できることを示しています。

一方で、より強力な浄化を行うと文章の流暢さが低下するというトレードオフも観察されています。また、SASAに単語フィルタリングを組み合わせると有害性はさらに低下しますが、一貫した応答能力も損なわれる点には注意が必要です。

この技術が実用化されれば、コンテンツモデレーションの負担軽減や、より安全なAIアシスタントの実現につながるでしょう。特に教育現場や公共サービスなど、安全性が重視される領域でのAI活用が促進される可能性があります。

EUのAI法(AI Act)のような規制の文脈でも、SASAのようなセルフガバナンス技術は重要です。EUのAI法では「一般目的AI」に対して透明性要件や、「システミックリスク」を持つモデルには追加要件が課されています。SASAのような自己浄化技術は、こうした規制要件への対応にも役立つでしょう。

研究の筆頭著者であるコー博士は、将来的にSASAが複数の価値観(有害性の回避だけでなく、誠実さや有用性など)に対応できる可能性を示唆しています。これは、AIの価値観整合(Value Alignment)という大きな課題に対する一つのアプローチとなり得ます。

【用語解説】

LLM(大規模言語モデル)
膨大な量のテキストデータを学習し、人間のような自然な言語生成や理解を実現するための深層学習モデルである。GPT、PaLM、Llamaなどが代表例で、数十億ものパラメータから成る巨大なニューラルネットワークで構成されている。

自己規律型自己回帰サンプリング(SASA)
LLMが自身の出力から有害な表現を自律的に除去できるようにする新しいデコーディングアルゴリズム。モデルのパラメータを変更せずに実装できる軽量な手法である。「self-disciplined autoregressive sampling」の略称。

トランスフォーマーモデル
自然言語処理に用いられる深層学習モデルの一種で、「注意機構(Attention)」という仕組みを使って文脈を理解する。現在のLLMの多くはこの構造を基盤としている。

自己回帰(Autoregressive)
前の出力を次の入力として使用する予測モデルの特性。LLMは一つの単語(トークン)を生成した後、その単語を考慮して次の単語を予測するという自己回帰的な方法で文章を生成している。

トークン
LLMが処理する言語の最小単位。英語では単語や単語の一部、日本語では文字や単語に相当することが多い。SASAはこのトークン単位で有害性を評価している。

PerspectiveAPI
Googleが開発したテキスト分析APIで、文章の有害性を0から1までのスコアで評価する。SASAの評価に使用された。

【参考リンク】

MIT-IBM Watson AIラボ公式サイト(外部)
MITとIBMの共同研究所の公式サイト。AIの最先端研究プロジェクトや成果を紹介している。

IBM Watson公式サイト(日本語)(外部)
IBMのAIプラットフォーム「Watson」の公式サイト。最新のAI技術や活用事例を紹介している。

MIT News(外部)
MITの最新研究成果やニュースを発信する公式サイト。今回のSASA研究も掲載されている。

Elastic – 大規模言語モデル(LLM)解説(外部)
LLMの基本概念や仕組み、活用方法について解説しているサイト。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

author avatar
りょうとく
主に生成AIやその権利問題について勉強中。
ホーム » AI(人工知能) » AI(人工知能)ニュース » MIT-IBM Watson AIラボ開発、LLMが自ら有害表現を浄化する新技術「SASA」