Legal Brain エージェント|司法試験予備試験の論文式で「最上位合格水準」、汎用AIを全10科目で上回る

汎用AIが法務の現場に浸透し始めたいま、「特化型」であることの意味が問い直されています。弁護士ドットコムの法務AIエージェント「Legal Brain エージェント」が司法試験予備試験の論文式で示した結果は、その問いに対するひとつの構造的な答えです。差を生んだのは、モデルの規模でも学習データの量でもなく、「何を根拠に答えるか」という設計の選択でした。


弁護士ドットコム株式会社が提供する統合型・法務AIエージェント「Legal Brain エージェント」が、2025年度司法試験予備試験の論文式試験(全10科目)に回答し、伊藤塾を運営する株式会社法学館の採点で500点満点中375点を獲得した。同法学館はこれを「最上位合格水準」と評価した。なお同評価は同法学館の独自基準に基づくものであり、法務省の公式認定ではない。

予備試験の合格率は例年3〜4%前後、2025年度の最終合格率は3.6%と極めて難易度が高い。「Legal Brain エージェント」は同一条件で比較したメジャーな汎用AIモデル2種を全10科目で上回り、法務省の採点区分に照らすと10科目中5科目で最高評価「優秀」を獲得、最低評価「不良」は0科目だった。汎用AIモデルでは「優秀」は0〜1科目にとどまった。

同製品は法令・判例・法律書籍を構造化した独自データ基盤「Legal Graph」と、現役弁護士によるチームが継続的に精度改善を行う体制を特徴とする。今回の論文式検証は、短答式で受験者最高得点を上回った結果(正答率96.5%)に続く第2弾の精度検証である。

From: 文献リンク統合型・法務AIエージェント「Legal Brain エージェント」が日本最難関試験「司法試験予備試験の論文式」で「最上位合格水準」|弁護士ドットコム株式会社(PR TIMES)

【編集部解説】

弁護士ドットコムの「Legal Brain エージェント」が司法試験予備試験の論文式で「最上位合格水準」を獲得したというニュースは、単なる性能PRにとどまらない問いを含んでいます。汎用AIの性能が急速に伸びているいま、「法務に特化する」ことにどれだけの意味があるのか。今回の結果は、その問いへのひとつの答えを提示しています。

Legal Brain エージェントの設計における最大の特徴は、回答の根拠を限定していることです。インターネット上の一般情報を参照せず、法令・判例・法律書籍・ガイドラインといった法的一次資料のみに回答を依拠させる設計を採っています。独自データベース「Legal Graph(リーガルグラフ)」は、これらのデータをただ収集するのではなく、法令と判例、判例と学説といった法的情報同士の「関係性」を構造化してグラフ化したものです。

汎用AIが「広く知っている」設計であるのに対し、Legal Brain エージェントは「確かな情報源だけから答える」設計です。開発チームによれば、弁護士ドットコムが20年間かけて蓄積してきた独自の法律データと、現役弁護士の知見を基に構築した検索ロジックがこの設計を支えているといいます。論文式試験では「条文・判例を正確に参照し、事実に当てはめ、論理的な結論を導く」という法的思考の構造そのものが問われます。この問いに対して、根拠の制約という設計思想が機能したと読むことができます。

今回の検証で注目すべきは、差がついたのが1〜2科目ではなく全10科目だったという点です。汎用AIモデルで「優秀」評価が0〜1科目にとどまったのに対し、Legal Brain エージェントは5科目で最高評価を獲得し、最低評価「不良」はゼロでした。

これは偶然のばらつきではなく、設計上の構造的な差が論文式の複数科目にわたって一貫して現れたことを示唆しています。法務省の採点区分では答案の「質的評価」が問われますが、汎用AIは「知識の広さ」という強みが論述の正確さに必ずしも結びつかない、というリーガルテック業界が以前から抱えていた問題の裏返しでもあります。

もうひとつ見落とせない要素が、現役弁護士で構成された専任チームによる継続的な品質改善の仕組みです。単にAIにデータを学習させるだけでなく、「意図の取り違え」「不正確な情報」といった問題の種類を特定し、原因究明から修正・テストまでのサイクルを回し続けているとされます。これはプロダクト開発の観点からも興味深い点で、ドメイン専門家がAIの出力を継続的に評価・修正するループを持つことで、汎用LLMだけでは到達できない精度水準を維持する設計です。

また、今回の発表と同日に、更新版「Legal Brain エージェント」が6月29日から提供開始されることも報じられています。文書作成機能も追加され、2027年度にARR50億円を目指す方針とのことです。

一点、慎重に読む必要があるのが、「最上位合格水準」という評価の位置づけです。プレスリリースには、この評価が株式会社法学館の独自採点基準によるものであり、法務省の公式認定ではないことが明記されています。予備試験の公式採点は受験者全体を対象とした格差調整を経て算出されるため、今回の375点と公式得点を直接比較することはできません。

この注釈は、記事を読むうえで重要な文脈です。「外部の専門機関が採点した」という客観性と、「公式ではない」という限界の両面を持つ検証であり、その意義を正確に理解した上で評価する必要があります。ただし、同一条件・同一採点者のもとで汎用AIとの比較が行われた点は、相対的な能力差を示す指標として一定の説得力を持ちます。

【用語解説】

Legal Graph(リーガルグラフ)
弁護士ドットコムが独自開発したナレッジデータベース。法令・判例・専門書籍・ガイドラインといった法的情報を単純に収録するだけでなく、情報同士の関係性(引用・参照など)をグラフ構造で体系化したもの。これにより、キーワード検索では捉えにくい「文脈を踏まえた検索」が可能になる。

RAG(Retrieval-Augmented Generation)
AIが回答を生成する際に、まず外部の信頼できるデータベースから関連情報を検索し、その内容を参照したうえで回答を出力する技術。AIが根拠のない情報を生成するハルシネーションのリスクを低減し、出典の明示が可能になるため、精度と信頼性が求められる専門領域での活用が広がっている。

リーガルテック(LegalTech)
「Legal(法律)」と「Technology(技術)」を組み合わせた言葉。契約書レビュー・法令調査・電子契約・訴訟支援など、法務業務にIT・AIを活用するサービス・技術の総称。日本ではクラウドサインやLegalOn Technologiesなどが代表的なプレイヤー。

【参考リンク】

Legal Brain エージェント 公式サイト(外部)
弁護士ドットコムが提供する法務特化型AIエージェントの公式サービスサイト。リーガルリサーチ機能の詳細、導入事例、利用開始方法などを掲載している。

弁護士ドットコム株式会社 コーポレートサイト(外部)
「弁護士ドットコム」「クラウドサイン」などを運営するリーガルテック企業。「プロフェッショナル・テックで、次の常識をつくる。」をミッションに掲げる。Legal Brain エージェントはグループが20年かけて蓄積した法律データを基盤としている。

法務省「令和7年司法試験予備試験の結果について」(外部)
2025年度司法試験予備試験の合格者数・合格率など公式データを掲載するPDF。今回の検証の対象となった試験の公式情報源。

【参考記事】

統合型・法務AIエージェント「Legal Brain エージェント」が日本最難関試験「司法試験予備試験の論文式」で「最上位合格水準」|弁護士ドットコム株式会社(PR TIMES)(外部)
本記事のソースとなったプレスリリース全文。検証方法・比較条件・伊藤塾コメント・今後の展望などが詳述されている。

法律×AIの最前線。エンジニアが語る「Legal Brain」開発の裏側と、社会を変える壮大なビジョン|弁護士ドットコム株式会社(Wantedly)(外部)
Legal BrainのエンジニアがLegal Graphの技術構造や汎用AIとの差別化要因を語ったインタビュー。編集部解説で参照した技術背景の一次情報源。

弁護士ドットコム、法務AIエージェント29日刷新 文書案を作成可能|日本経済新聞(外部)
Legal Brain エージェントの更新版(2026年6月29日提供開始)を報じた記事。文書作成機能の追加、ARR50億円目標など事業戦略も言及されている。

生成AI、法テック揺さぶる 契約管理や法務調査 実用レベルに|日本経済新聞(外部)
汎用AIの性能向上によってリーガルテック事業者が「特化型であることの意義」を問われている構造を報じた記事。本記事の解説の背景理解に有用。

【関連記事】

Legal Brain、2025年司法試験(短答式)で “人間超え” を達成。法律特化AIが正答率96.5%を記録
今回の論文式検証に先立ち、Legal Brainは2025年度司法試験の短答式でも人間の最高得点を上回る正答率96.5%を記録しています。

Anthropic、法律業界に全面参入|Claudeがリーガルテック市場を塗り替える
法務AI市場ではこうした専門特化型の動きと並行して、AnthropicなどのAI基盤企業が直接リーガルテック領域に参入する動きも加速しています。

【編集部後記】

法律という領域では、「広く答える能力」よりも「正確な根拠から答える能力」が問われます。今回の結果は、その違いを設計レベルで実装しようとする試みがひとつの形を見せたものといえます。一方で、汎用AIの性能向上が続くなか、「特化型であること」の優位がどこまで持続するのかは、まだわかりません。

汎用モデルが法的一次資料の網羅性を高め、論述精度でも特化型に追いついてきたとき、Legal Brain エージェントの差別化はどこに移るのか。それはデータの質なのか、弁護士チームによる継続改善の密度なのか、あるいはまだ見えていない別の軸なのか。

私たちにとっての問いは、「AIが司法試験に受かる」という事実ではなく、「誰が何を目的に、どんな根拠で答えを出すか」という設計の問題であり続けるように思います。

Googleで優先するソースとして追加するボタン
投稿者アバター
乗杉 海
SF小説やゲームカルチャーをきっかけに、エンターテインメントとテクノロジーが交わる領域を探究しているライターです。 SF作品が描く未来社会や、ビデオゲームが生み出すメタフィクション的な世界観に刺激を受けてきました。現在は、AI生成コンテンツやVR/AR、インタラクティブメディアの進化といったテーマを幅広く取り上げています。 デジタルエンターテインメントの未来が、人の認知や感情にどのように働きかけるのかを分析しながら、テクノロジーが切り開く新しい可能性を追いかけています。