スタンフォード大学の研究者たちは、法律研究を支援するために開発されたAIツールが、提供者の主張にもかかわらず、実証的に誤った出力、いわゆる「幻覚(hallucination)」を生じる割合が高いことを発見した。この研究は、AI駆動の法律研究ツールに関する最初の事前登録された実証評価であり、200以上の手作りの法律関連クエリを用いて、主要な法律研究提供者の製品とOpenAIのGPT-4を比較検討した。
研究者たちは、法律AIツールが一般的なチャットボットと比較して幻覚を減少させたものの、依然として警戒すべき高い割合で幻覚を起こしていることを発見した。法律AIツールは、知識ベースから関連文書を最初に取得し、それをモデルの応答の文脈として提供する、検索拡張生成(RAG)技術を使用して幻覚のリスクを軽減しようとしている。しかし、法律クエリはしばしば単一の明確な答えが文書セットから取得できるものではなく、どの情報を取得するかを決定することが困難である。
研究者たちは、LexisNexisのLexis+ AI、Thomson ReutersのWestlaw AI-Assisted ResearchおよびAsk Practical Law AIなど、三つの主要なAI駆動の法律研究ツールをテストし、これらのツールがGPT-4よりは大幅に優れているものの、完璧ではなく、クエリの17-33%で幻覚を起こしていることを発見した。
研究者たちは、法律AIツールの閉鎖的な性質が、弁護士がそれらに依存する際の安全性を評価することを困難にしていると主張している。しかし、伝統的なキーワード検索方法や一般的なAIと比較して、AI支援の法律研究は依然として価値を提供できる、特に最終的な答えとしてではなく出発点として使用される場合には、と論じている。
研究者たちは、法律AIにおける透明性とベンチマークの緊急性を強調し、公開ベンチマークの呼びかけを行っている。Thomson ReutersのMike Dahnは、このようなソリューションのテストとベンチマークに対する努力を支持しており、スタンフォードの研究チームが行った最近の研究に対する意図を支持しているが、AI-Assisted Researchでの幻覚に関する重大な問題の主張には驚いたと述べている。
Thomson ReutersのPablo Arredondoは、スタンフォードがこの研究で開始した会話を称賛し、これらの発見と他の潜在的なベンチマークを深く掘り下げることを楽しみにしていると述べている。
【編集者追記】用語解説
- 幻覚(hallucination):
AIが生成した情報のうち、事実と異なるものを指す。人間の幻覚とは異なり、知覚体験ではなく、不正確な情報生成を意味する。 - 検索拡張生成(Retrieval-Augmented Generation; RAG):
大規模言語モデル(LLM)が情報を生成する際、関連する文書を検索・参照することで、事実に基づいた出力を行う手法。 - LexisNexis:
法律関連の情報サービスを提供する企業。法律AIツールLexis+ AIを開発。 - Thomson Reuters:
ニュースや企業情報等を扱う企業。法律AIツールWestlaw AI-Assisted ResearchとAsk Practical Law AIを開発。
【参考リンク】
LexisNexis (Lexis+ AI)(外部)
Thomson Reuters (Westlaw AI-Assisted Research, Ask Practical Law AI)(外部)
【関連記事】
AIの幻覚(hallucination)に関する記事をinnovaTopiaでもっと読む
【ニュース解説】
スタンフォード大学の研究者たちが行った新しい研究により、法律研究を支援するために開発されたAIツールが、提供者が主張するにもかかわらず、実際には誤った出力、いわゆる「幻覚」を生じる割合が高いことが明らかになりました。この研究は、AI駆動の法律研究ツールに関する最初の事前登録された実証評価であり、200以上の手作りの法律関連クエリを用いて、主要な法律研究提供者の製品とOpenAIのGPT-4を比較検討しました。
法律AIツールは、検索拡張生成(RAG)技術を使用して幻覚のリスクを軽減しようとしています。RAG技術では、知識ベースから関連文書を最初に取得し、それをモデルの応答の文脈として提供します。しかし、法律クエリはしばしば単一の明確な答えが文書セットから取得できるものではなく、どの情報を取得するかを決定することが困難であるため、このアプローチには限界があります。
研究者たちは、LexisNexisのLexis+ AI、Thomson ReutersのWestlaw AI-Assisted ResearchおよびAsk Practical Law AIなど、三つの主要なAI駆動の法律研究ツールをテストしました。これらのツールはGPT-4よりは大幅に優れているものの、完璧ではなく、クエリの17-33%で幻覚を起こしていることを発見しました。
この研究は、法律AIツールの使用における透明性と信頼性の問題を浮き彫りにしています。法律AIツールの閉鎖的な性質は、弁護士がそれらに依存する際の安全性を評価することを困難にしています。しかし、研究者たちは、伝統的なキーワード検索方法や一般的なAIと比較して、AI支援の法律研究は依然として価値を提供できると論じています。特に、これらのツールを最終的な答えとしてではなく、研究の出発点として使用する場合には、有用であると指摘しています。
さらに、研究者たちは、法律AIにおける透明性とベンチマークの緊急性を強調し、公開ベンチマークの呼びかけを行っています。このような公開ベンチマークは、法律AIツールの性能を正確に評価し、弁護士がこれらのツールを安全に使用できるようにするために不可欠です。
この研究は、AI技術の進歩に伴い、特に専門的な分野でのAIの適用が増える中で、その正確性と信頼性を確保するための取り組みがいかに重要であるかを示しています。法律分野におけるAIの使用は、効率性とアクセス性を高める大きな可能性を秘めていますが、その一方で、誤った情報や不正確な解釈を生じさせるリスクも伴います。したがって、これらのツールの開発と使用においては、透明性、正確性、信頼性を確保するための継続的な努力が求められます。
from Stanford study finds AI legal research tools prone to hallucinations.