カーディフ大学とカ・フォスカリ大学の研究チームが、大規模言語モデル(LLM)の言葉遊び理解能力を調査した結果を発表した。研究では、LLMが言葉遊びの構造を認識できるものの、実際には冗談の本質を理解していないことが明らかになった。
テストでは「I used to be a comedian, but my life became a joke」という文の「joke」を「chaotic」に置き換えても、LLMは言葉遊びとして認識した。同様に「Long fairy tales have a tendency to dragon」の「dragon」を同義語の「prolong」やランダムな単語に変えても、LLMは言葉遊びがあると判断した。カーディフ大学のホセ・カマチョ・コラドス教授によれば、馴染みのない言葉遊びに直面した場合、言葉遊びと非言葉遊びを区別するLLMの成功率は20%まで低下する可能性があるという。
研究は2025年11月に中国蘇州で開催された自然言語処理における実証的手法会議で発表され、論文「Pun unintended: LLMs and the illusion of humor understanding」にまとめられた。
From:
Can’t tech a joke: AI does not understand puns, study finds
【編集部解説】
人工知能が人間のようなユーモアを理解できるのか――この問いに、今回の研究は興味深い答えを提示しました。言葉遊び(ダジャレ)という、一見シンプルに見える言語現象を通じて、現在の大規模言語モデル(LLM)の本質的な限界が浮き彫りになったのです。
カーディフ大学とカ・フォスカリ大学の研究チームは、GPT-4o、Llama3.3-70B、DeepSeek-R1など7つの最先端LLMを対象に綿密な実験を行いました。研究チームは既存のベンチマークだけでなく、PunnyPatternとPunBreakという2つの新しいデータセットを開発し、モデルの真の理解力を試しました。
結果は予想以上に厳しいものでした。既存のPunEvalベンチマークでは平均80-90%台の精度を示したLLMですが、新しいデータセットではPunnyPatternでF1スコアが平均4-12%低下し、PunBreakでは言葉遊びの改変例において正答率が20-60%程度まで大幅に低下したのです。特に注目すべきは、言葉遊びの鍵となる単語を少し変えただけで、LLMが混乱してしまう点です。
例えば、「I used to be a comedian, but my life became a joke(私はかつてコメディアンだったが、人生が冗談になった)」というダジャレの「joke」を「chaotic(混沌とした)」に置き換えても、LLMは依然として言葉遊びが存在すると判断してしまいました。これは、LLMが言葉遊びの「形」は認識できても、その「意味」を真に理解していないことを示しています。
研究では、LLMが犯す主な誤りを4つのカテゴリーに分類しています。最も多かったのは「文脈の欠如」エラーで、二重の意味を支える文脈が実際には存在しないケースです。次に多かったのが「言葉のペアリング」エラーで、音韻的・正書法的に類似していない単語を無理やり言葉遊びとして解釈してしまうケースでした。
この問題の根底にあるのは、LLMのトークン化と訓練データの限界です。言葉遊びは音韻的な類似性に大きく依存しますが、現在のLLMはトークンベースで処理されるため、音韻的な特徴を十分に捉えられません。また、人間のユーモアには共感、文化的文脈、タイミング、そして個人的な経験といった要素が不可欠ですが、これらはLLMが訓練データから学ぶことが極めて困難な領域なのです。
興味深いことに、GPT-4oは「ukulele」が「you-kill-LLM」のように聞こえるという理由で、「Old LLMs never die, they just lose their ukulele」を言葉遊びとして認識しました。これは一種の創造性とも言えますが、同時に、LLMが元の冗談の本質を理解していないことの証左でもあります。
論文によると、3つの主要モデル(GPT-4o、Llama3.3、DeepSeek-R1)について240サンプルの詳細な誤り分析を実施した結果、GPT-4oは128件、Llama3.3は111件、DeepSeek-R1は87件のエラーが記録されました。この中でDeepSeek-R1が最も精度が高く、1サンプルあたり平均1.2件のエラーと最も少ない結果となっています。
この研究が示唆するのは、真のユーモア理解には、単なるパターン認識を超えた深い理解が必要だということです。言葉遊びや冗談を理解するには、文化的背景、社会的文脈、そして人間の感情への共感が不可欠です。現在のLLMは、これらの要素を統合的に処理する能力をまだ持っていません。
今後の改善には、より細分化された人間とのアライメント、文化的文脈の深い学習、そして音韻的特性のモデリング強化が必要とされています。また、LLMの安全性制約(「有害でなく、役立ち、正直であること」)が、時としてユーモアが持つ意外性や際どさを奪ってしまう可能性も指摘されています。
この研究は、AI研究において重要な示唆を与えています。ユーモア理解は単なる言語処理タスクではなく、人間らしい知性の本質に迫る挑戦なのです。言葉遊びという一見些細に見える現象が、実はAIと人間の知性の間に横たわる深い溝を明らかにしているのです。
【用語解説】
大規模言語モデル(LLM)
膨大なテキストデータで訓練された深層学習モデルで、自然言語の理解と生成を行う。GPT-4o、Llama、Geminiなどが代表例である。
言葉遊び(Pun)
多義性や音韻的類似性を利用したユーモラスな表現技法。同音異義語(heterographic puns)と同形異義語(homographic puns)の2種類に大別される。
PunEval
SemEval-2017データセットを改良したもので、2,589サンプルの言葉遊びと非言葉遊びの文を含む。言葉遊び研究における標準的なベンチマークとして使用される。
PunnyPattern
本研究で新たに開発されたデータセット。英語の言葉遊びによく見られる言語パターンを含む1,200サンプルで構成され、LLMが表面的な手がかりに依存していないかを評価する。
PunBreak
本研究で開発されたもう一つのデータセット。元の言葉遊びの鍵となる単語を類義語やランダムな単語に置き換えた1,100サンプルで、LLMの頑健性を試験する。
Chain-of-Thought(CoT)プロンプティング
LLMに段階的な推論プロセスを促す手法。「ステップバイステップで考えてください」といった指示により、より論理的な応答を引き出す。
トークン化
テキストを小さな単位(トークン)に分割する処理。LLMはこのトークン単位で言語を処理するため、音韻的特徴を捉えにくいという限界がある。
【参考リンク】
arXiv – Pun Unintended: LLMs and the Illusion of Humor Understanding(外部)
本研究の完全な論文。LLMの言葉遊び理解能力に関する詳細な実験結果と分析を提供している。
ACL Anthology – EMNLP 2025 Proceedings(外部)
2025年自然言語処理における実証的手法会議で発表された本研究の公式ページ。
Cardiff University – School of Computer Science and Informatics(外部)
研究を主導したカーディフ大学のコンピュータサイエンス学部の公式サイト。
DeepSeek-R1 – Hugging Face(外部)
研究で評価されたDeepSeek-R1モデルの公式ページ。推論能力に特化したLLMの詳細情報を提供。
OpenAI GPT-4o System Card(外部)
研究で最高性能を示したGPT-4oの技術仕様と能力に関する公式ドキュメント。
【参考動画】
該当する公式動画または信頼性の高い動画は見つかりませんでした。
【参考記事】
Pun Unintended: LLMs and the Illusion of Humor Understanding(外部)
PunnyPatternとPunBreakという2つの新しいベンチマークを使用し、GPT-4oなど7つのLLMを評価した論文。
Text Is Not All You Need: Multimodal Prompting Helps LLMs Understand Humor(外部)
テキストと音声情報を組み合わせたマルチモーダルプロンプティングでLLMのユーモア理解が向上することを示した研究。
Assessing the Capabilities of LLMs in Humor(外部)
LLMのユーモア生成と評価能力を多次元的に分析。特に「共感」の欠如が問題と指摘。
A Robot Walks into a Bar(外部)
コメディアンとLLMの協働に関する研究。LLMは文脈理解が不足していることを指摘。
A good pun is its own reword(外部)
言葉遊びの認識、説明、生成という3つのタスクでLLMを体系的に評価した研究。
The Last Laugh(外部)
ユーモアをLLMの洗練度を測るベンチマークとして探求した記事。
Can AI Take a Joke—Or Make One?(外部)
GPT-4o、LLaMA3、Gemini 1.5のユーモア生成と認識能力を評価した研究。
【編集部後記】
AIが言葉遊びを理解できないという事実は、私たちに何を語りかけているのでしょうか。
この研究が示したのは、単なる技術的な限界ではありません。ユーモアを理解し、共有するという行為が、いかに人間らしい営みであるかということです。言葉遊びの背後には、文化、文脈、そして何より共感が存在します。それは膨大なデータを学習すれば獲得できるものではなく、生きた経験の中で育まれるものなのかもしれません。
みなさんは、AIとの対話の中で「何か違う」と感じた瞬間はありませんか。その違和感の正体が、もしかしたらこの研究が明らかにした「理解の幻想」なのかもしれません。AIが人間に近づくほど、逆に人間の特別さが浮き彫りになる――そんな皮肉な構図を、私たちはどう受け止めればよいのでしょうか。
























