advertisements

GPT-4が10万人との創造性対決で平均超え。しかし上位10%の人間には及ばず―モントリオール大学研究

[更新]2026年1月26日

モントリオール大学のKarim Jerbi教授率いる研究チームが、10万人以上の人間と複数の大規模言語モデルの創造性を直接比較する史上最大規模の研究を実施した。2026年1月21日にScientific Reportsに発表された論文によると、GPT-4などの一部のAIシステムは、拡散的創造性を測定するタスクにおいて平均的な人間のスコアを上回った

研究では、Divergent Association Task(DAT)という心理学的テストを使用し、意味が無関係な10の単語をリストアップする能力を評価した。さらに俳句創作や短編小説執筆などの創造的ライティング課題でも比較を行った。

しかし、最も創造的な人間の上位10%は依然としてすべてのAIモデルを上回る結果を示した。研究チームには、ディープラーニングのパイオニアであるYoshua Bengioも参加している。

From: 文献リンクResearchers tested AI against 100,000 humans on creativity – ScienceDaily

【編集部解説】

モントリオール大学のKarim Jerbi教授が率いる国際研究チームは、「拡散的創造性(Divergent creativity)」と呼ばれる創造性の一側面において、最新のAIが平均的な人間のレベルに到達し、一部では上回ることを実証しました。しかし同時に、最も創造的な人間とAIの間には依然として明確な差が存在することも明らかになっています。

この研究で使用されたDivergent Association Task(DAT)は、意味的に可能な限り無関係な10個の単語を挙げるという、わずか2〜4分で完了するシンプルな創造性テストです。例えば「galaxy(銀河)、fork(フォーク)、freedom(自由)、algae(藻)、harmonica(ハーモニカ)」といった単語の組み合わせは、高い創造性を示します。このテストでは、単語間の「意味的距離」をGLoVeと呼ばれる言語モデルを使って数値化し、創造性スコアを算出します。

研究チームはGPT-4、Claude、Geminiなど複数の大規模言語モデルと10万人の人間参加者を比較しました。結果、GPT-4は平均的な人間のスコアを統計的に有意に上回りました。しかし、人間の上位50%の平均スコアは、テストされたすべてのAIモデルを上回っており、特に上位10%の最も創造的な人間との差はさらに大きくなっています。

興味深いのは、AIの創造性が技術的なパラメータによって調整可能である点です。GPT-4の「temperature」と呼ばれるパラメータを上げると、より多様で予測不可能な出力が生成され、創造性スコアが大幅に向上しました。また、プロンプトの設計方法も重要で、例えば「語源を考慮して単語を選ぶ」よう指示すると、標準的な指示よりも高いスコアが得られました。

研究チームはさらに、俳句、映画のあらすじ、短編小説といった創作課題でも人間とAIを比較しました。ここでもGPT-4は他のAIモデルを上回る性能を示しましたが、人間が作成したものには及びませんでした。特に注目すべきは、長い文章になるほどtemperatureパラメータの影響が顕著になるという発見です。

この研究にはディープラーニングのパイオニアであるYoshua Bengioも参加しており、モントリオール大学、コンコルディア大学、トロント大学、Mila(ケベックAI研究所)、Google DeepMindという錚々たる機関の協力によって実現しました。論文は2026年1月21日にScientific Reports誌に発表されています。

「AIが特定のテストで人間レベルの創造性に到達できるようになったとしても、誤解を招く競争感覚を超える必要があります」とJerbi教授は述べています。生成AIは創作者を置き換えるのではなく、彼らがどのように想像し、探索し、創造するかを深く変革するツールになるというのが研究チームの見解です。

【用語解説】

Divergent Association Task(DAT)
2021年に発表された創造性測定テストで、意味的に可能な限り無関係な10個の名詞を挙げる課題である。単語間の意味的距離をアルゴリズムで計算し、創造性スコアを算出する。2〜4分で完了でき、Alternative Uses TaskやBridge-the-Associative-Gap Taskなどの既存の創造性テストと高い相関を示すことが検証されている。

拡散的思考(Divergent thinking)
開かれた問題に対して多様で独創的な解決策を生み出す能力を指す。創造性の重要な要素とされ、アイデアの発散段階における認知プロセスを表す。収束的思考(convergent thinking)とは対照的な概念である。

GLoVe(Global Vectors for Word Representation)
単語をベクトル表現に変換する自然言語処理技術で、2014年にスタンフォード大学が開発した。単語の共起パターンを学習し、意味的な類似性を数値化できる。DATのスコア算出に使用されている。

Temperature(温度パラメータ)
大規模言語モデルにおいて、出力のランダム性を制御する技術的パラメータ。低い値では予測可能で安全な出力を生成し、高い値ではより多様で探索的な出力を生成する。創造性スコアに直接影響する。

Divergent Semantic Integration(DSI)
文章やナラティブ内の単語レベルの埋め込みベクトル間のコサイン類似度を測定する手法。創作物における意味的多様性を定量化でき、人間が評価する創造性と強い相関を示すことが確認されている。

【参考リンク】

Divergent Association Task公式サイト(外部)
DATの公式サイト。実際にテストを受けることができ、自分の創造性スコアを確認できる。

Scientific Reports論文ページ(外部)
今回の研究論文の全文。人間と大規模言語モデルの拡散的創造性の比較分析が詳細に記載。

Mila – Quebec AI Institute(外部)
カナダ・ケベック州のAI研究所。ディープラーニングのパイオニアYoshua Bengioが創設した。

DAT GitHubリポジトリ(外部)
DATのオープンソースコード。Python実装とGLoVeモデルを使用したスコア計算方法を公開。

【参考記事】

Creative talent: has AI knocked humans out?(外部)
モントリオール大学による公式プレスリリース。研究の詳細と主任研究者の見解を掲載。

Creative talent: has AI knocked humans out?(外部)
科学ニュース配信サービスEurekAlert!の記事。研究の主要な発見を解説している。

Artificial intelligence can now beat average humans in creativity(外部)
AIが平均的人間を上回る一方、トップクリエイターには及ばない研究結果の分析記事。

Naming unrelated words predicts creativity(外部)
DAT開発時の2021年PNAS論文。他の創造性テストとの相関を検証した研究。

AI Beats Average Humans At Creativity Test(外部)
AIの創造性が平均を超えた一方、上位10%の人間との明確な差が残る研究結果を報道。

【編集部後記】

AIが創造性テストで平均的な人間を上回ったというニュースは、一見すると驚きかもしれません。しかし、この研究が本当に伝えているのは、むしろ人間の創造性の奥深さではないでしょうか。最も創造的な人間の上位10%は、依然としてすべてのAIモデルを大きく引き離しています。これは、技術の進歩を恐れるのではなく、私たち自身の創造的な可能性を再認識する機会なのかもしれません。あなた自身の創造性は、どのような形で発揮されていますか?AIをツールとして活用しながら、人間ならではの独創性を磨いていく。そんな未来の在り方について、ぜひ一緒に考えていきたいと思います。

投稿者アバター
Satsuki
テクノロジーと民主主義、自由、人権の交差点で記事を執筆しています。 データドリブンな分析が信条。具体的な数字と事実で、技術の影響を可視化します。 しかし、データだけでは語りません。技術開発者の倫理的ジレンマ、被害者の痛み、政策決定者の責任——それぞれの立場への想像力を持ちながら、常に「人間の尊厳」を軸に据えて執筆しています。 日々勉強中です。謙虚に学び続けながら、皆さんと一緒に、テクノロジーと人間の共進化の道を探っていきたいと思います。

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。