Mistral OCR 4 登場|170言語対応・自社運用できる文書AIが「読む」から「理解する」へ

紙やPDFの山を前に、「これがそのままデータになってくれたら」と思ったことはないでしょうか。AIがどれだけ賢くなっても、最初に渡す材料が崩れていれば、その先はすべて崩れます。いま静かに作り替えられているのは、文書をAIに手渡す「入り口」です。Mistralの新しいOCRは、文字をただ読み取るのではなく、文書を「構造ごと」理解しようとしています。地味だけれど、AI時代の土台を支える一手を読み解きます。


Mistral AI は2026年6月23日、ドキュメント抽出モデル Mistral OCR 4 をリリースした。抽出テキストに加え、バウンディングボックス、ブロック分類、インラインの信頼度スコアを返す。

10の言語グループにわたる170言語に対応し、単一コンテナでのセルフホスト運用が可能である。独立した評価者による選好評価では、テストした全システムに対する平均勝率が72%、OlmOCRBench では総合85.20、OmniDocBench では93.07を記録した。社内の Crawl Multilingual 評価では8つの言語グループすべてで首位(.98)に立った。価格はAPI経由で1,000ページあたり4ドル、Batch API利用時は2ドル、Document AI は5ドルである。Mistral Studio、Amazon SageMaker、Microsoft Foundry で提供され、Snowflake Parse Document にも近日対応する。

From: Introducing OCR 4|Mistral AI

【編集部解説】

innovaTopia がこのニュースに注目するのは、OCR が華やかな話題ではないからこそです。文章生成や動画生成のような派手さはありませんが、OCR は紙やPDFに閉じ込められた情報を、AIが扱える形へ変換する「入り口」にあたります。ここが詰まれば、その先に置かれたRAGもエージェントも動きません。今回の OCR 4 は、その入り口の性能を一段引き上げる試みとして読み解けます。

本質的なのは、文字を「読む」ことから、文書を「構造として理解する」ことへ軸足が移った点です。どの要素がページのどこにあり(バウンディングボックス)、それが表なのか数式なのか署名なのか(ブロック分類)、モデルがその判断にどれだけ自信を持っているか(信頼度スコア)までを返します。人間が文書を読むときに無意識に行っている「レイアウトの把握」を、機械可読な形で外へ取り出した、と言い換えられます。

これによって現場は何が変わるのでしょうか。RAGでは抽出テキストの出所を一字一句たどれるため、AIの回答に「クリックできる出典」を付けられます。信頼度スコアの低い領域だけを人間の確認に回し、高い領域は自動承認するという運用も組めます(もちろん、業務上のリスクに応じて確認の範囲は調整が必要です)。すべてを人手で見直す必要が薄れる、という意味で、検証コストの配分そのものが変わってきます。

日本の読者にとって見逃せないのは、日本語が「特殊言語」グループの一つとして精度向上の対象に挙げられている点です。縦書き、漢字仮名交じり、手書き、罫線の多い帳票といった日本語文書の難しさは、海外発のOCRが長く苦手としてきた領域でした。行政文書や企業アーカイブのデジタル化という、地味ながら膨大な国内需要に直結するテーマです。ただし、公式が日本語の縦書きや帳票を個別に保証しているわけではないため、実際の導入では国内文書での実測検証が欠かせません。なお、モデル全体の対応は10言語グループ/170言語、この内訳評価の区分が8グループという違いによるもので、両者を混同しないようご注意ください。

ただ、製品スペックだけを追うと本質を見誤ります。OCR 4 のもう一つの主張は「自社インフラで完結させられる」ことにあります。セルフホスト構成を選べば、単一コンテナで動き、文書データを外部クラウドへ出さずに処理できる設計です(API経由で利用する場合は、この限りではありません)。ここに別の視点が立ち上がります。米国系プロバイダーが「保管場所はEU内」と説明する場合でも、米国のCLOUD Actなどにより、その文書が米国法の要請の対象になりうると指摘されています。これに対しフランスに登記された Mistral のオンプレミス型コンテナ配備は、文書が自社インフラの外へ一切出ないという選択肢を示します。

この論点は規制とも地続きです。EU AI法は2024年8月1日に発効し、多くの規定が2026年8月2日に本格適用されます(一部の規定はすでに2025年から段階的に適用されています)。機密文書をどの国の法の下で処理するか、という問いは、用途次第で義務の重さが変わるとはいえ、日本の金融・医療・公共分野にとっても他人事ではありません。

タイミングも示唆的です。Baidu が公式に告知した6月22日には、オープンソースのOCRモデル「Unlimited-OCR」が公開されました(MITライセンス、総30億・推論時5億パラメーターのMoE構成、論文上は32Kの標準最大長で数十ページを単一の処理で読み取る)。無償で手元のGPUで動く開放型と、SLAやサポートを備えた商用管理型。2026年6月の数日間で、ドキュメントAIの選択肢が「オープンウェイトで自前運用」か「エンタープライズ機能つきの管理型サービス」かの二極へ整理された、という見方ができます。

背景には市場の伸びがあります。Grand View Research は、インテリジェント文書処理市場が2030年に123.5億ドルへ達し、2025〜2030年の年平均成長率を33.1%と推計しています。OCR 4 は単体機能というより、Mistral が掲げる検索・RAG基盤への「入り口」を押さえる一手と位置づけられます。

一方で、数字の受け止めには注意が要ります。Mistral 自身がベンチマークの集計値を「決定的ではなく方向性を示すもの」と認め、競合のスコアは自社による再現値だと明記しています。また、72%の勝率や各スコアも Mistral が主導した評価である点は踏まえておきたいところです。実務者の間では、2026年になってもOCRは難しいという率直な声もあり、科学論文の数式や結合セルを持つ帳票、手書きといった領域は依然として崩れやすいと指摘されています。入り口の精度が下流の品質を直接左右する以上、「導入して終わり」ではなく、自社の文書で検証する姿勢が欠かせません。

Mistral 自身も、OCR 4 を「意思決定者ではない」と線引きしています。医療診断、法的判断、重大な金融判断、安全に直結するシステムへの利用は想定外だと明言しており、過度な期待への予防線が引かれている点は、むしろ誠実さの表れと受け取れます。

長い目で見れば、2026年は「文書がAIに入る入り口」が一気に作り替えられた年として記憶されるかもしれません。生成AIがどれだけ賢くなっても、与える材料が歪んでいれば出力も歪みます。OCR 4 のようなインジェスト層の進化は、派手さこそないものの、AI全体の信頼性を底から支える仕事です。未来に触れたい読者が注視すべきは、「賢さ」だけでなく「入り口の質」だと、私たちは考えています。

【用語解説】

OCR(光学文字認識):画像やPDF上の文字を、コンピューターが扱えるテキストデータへ変換する技術である。

バウンディングボックス:文書内の各要素が「どこにあるか」を示す座標付きの矩形領域。抽出したテキストと元の位置を結びつけ、ハイライト表示や出典提示に使われる。

ブロック分類:抽出した領域が見出し・表・数式・署名などのどの種別にあたるかを、モデルが判定してラベル付けする仕組み。

信頼度スコア:モデルが各ページ・各単語の認識結果にどれだけ自信を持つかを数値化したもの。低い箇所だけを人手の確認に回す運用に使える。

RAG(検索拡張生成):外部の文書を検索して取り込み、その内容を根拠に生成AIが回答する仕組み。Retrieval-Augmented Generation の略である。

AIエージェント:与えられた目標に対し、複数の手順を自律的に実行するAI。フォーム入力や請求書処理など、文書を「読む」だけでなく「操作する」段階を担う。

セルフホスト/オンプレミス:外部のクラウドではなく、自社が管理するサーバー上でソフトウェアを稼働させる形態。機密データを社外へ出さずに処理できる。

単一コンテナ:アプリと必要な実行環境を一つにまとめた配備単位。これ一つで動くことが、自社環境への導入や大量処理の容易さにつながる。

インジェスト(取り込み)層:文書やデータをAIシステムへ入力できる形に整える最初の工程。ここでの品質が、後段の検索・生成の精度を大きく左右する。

オープンウェイト/MITライセンス:モデルの重み(パラメーター)が公開され、改変・再配布・商用利用が広く許諾される形態。MITは制約が最も緩いライセンスの一つである。

OlmOCRBench/OmniDocBench:OCR・文書解析モデルの精度を測る公開ベンチマーク。集計値には採点上の限界があり、絶対的な優劣の指標ではない。

インテリジェント文書処理(IDP):OCRやAIを組み合わせ、非構造の文書から意味のあるデータを抽出・活用する分野の総称である。

EU AI法(EU AI Act):EUが定めるAIの包括的規制。2024年8月1日に発効し、多くの規定が2026年8月2日に本格適用される。リスクに応じた義務を課し、違反には制裁金を科す。

特殊言語/低リソース言語:学習データが相対的に乏しく、多くのAIが精度を落としやすい言語群。日本語もこの区分で語られることがある。

【参考リンク】

Mistral AI(公式サイト)(外部)
フランス発のAI企業。基盤モデルや企業向けAI製品を開発し、データ主権を重視した自社運用可能な提供形態を打ち出している。

Mistral OCR 4 モデルカード(外部)
OCR 4 の技術仕様・料金・利用方法をまとめた公式ドキュメント。mistral-ocr-latest として提供される最新モデルの情報源である。

Mistral Document AI(外部)
OCRエンジンにスキーマ指定などの構造化レイヤーを重ねる、ノーコード寄りの文書AIソリューションを紹介する公式ページ。

Introducing Search Toolkit(外部)
OCR 4 が取り込みコンポーネントとして組み込まれる、オープンソースの検索フレームワークの公式発表記事。RAG基盤向け。

Mistral Studio(コンソール)(外部)
API利用や Document AI を試せる Mistral の開発者向けコンソール。プロトタイプ作成から本番利用までを担う環境である。

baidu/Unlimited-OCR(Hugging Face)(外部)
比較対象として解説で触れた Baidu のオープンソースOCRモデル。重みとサンプルコードが公開される公式配布ページ。

baidu/Unlimited-OCR(GitHub)(外部)
同モデルのソースコードと利用手順をまとめた公式リポジトリ。MITライセンスで公開され、商用利用も許諾されている。

Amazon SageMaker(外部)
OCR 4 の提供チャネルの一つ。機械学習モデルの構築・学習・配備を一貫して担う Amazon のクラウドサービス。

Snowflake(外部)
クラウド型のデータプラットフォーム。Mistral OCR 4 / Document AI は同社の Parse Document への対応が予定されている。

【参考記事】

Mistral launches OCR 4, turning document extraction into a full enterprise AI play(VentureBeat)(外部)
OCR 4 を企業向けAI市場への布石として分析。インテリジェント文書処理市場の成長やBaiduとの二極化、データ主権の論点を扱う。

Mistral OCR 4 Ships: Structure-Aware Document AI Runs On Your Own Infrastructure(TechTimes)(外部)
データ主権の視点で OCR 4 を解説。米国法管轄の問題やEU AI法をめぐる動向まで踏み込んだ記事。

Baidu Releases Unlimited OCR, a 3B Model That Keeps the KV Cache Flat for Long-Document Parsing(MarkTechPost)(外部)
比較対象 Baidu Unlimited-OCR の解説。総30億・推論時5億パラメーター、MIT、数十ページの一括処理などを伝える。

Mistral AI Tackles Unstructured Data Challenge With OCR 4(AI Business)(外部)
アナリストの視点で「抽出から理解へ」を論じる。毎分2,000ページ処理や非構造データ80%などの数値を紹介。

Mistral OCR 4 Brings Citation-Ready Structured Output to RAG, Agentic, and Enterprise Search Pipelines(MarkTechPost)(外部)
OCR 4 の機能をRAG・エージェント・検索の各用途に即して整理。72%勝率や1,000ページ4ドルの料金も要点化。

【関連記事】

Mistral OCRが多言語対応で99%精度を実現!次世代光学文字認識(OCR)技術
本記事で扱うOCR 4の前身、初代Mistral OCR(2025年3月)の解説。1,000ページ1ドルだった当時からの進化を振り返ると、今回の「構造化」への飛躍がよくわかります。

Positive Grid REACTOR|作曲の次は「音色」、AIが弾き手のすぐ手前まで来た
生成AIが「音色」という奏者の手前の領域へ踏み込んだ一台を特集。文書の「入り口」を押さえたOCR 4と、人とAIの役割分担という論点で響き合う記事です。

【編集部後記】

冒頭で「文書をAIに手渡す入り口」と書きました。この地味な入り口こそがAI時代の静かな要所なのだと感じ入ります。どれだけ賢いモデルが登場しても、最初に渡す材料が崩れていれば、その先はすべて崩れてしまう。だからこそ入り口の精度は、これから多くの現場で問われていくはずです。私たち自身も、机の上に積もった書類や、開かれないまま眠るPDFを思い浮かべながら、この記事を書いていました。

同時に、その入り口を「どこに置くか」という問いも、避けては通れません。便利さと主権、速さと検証――自社のデータを誰の管轄のもとで処理するのか。答えは一つではなく、業種や立場によって変わります。innovaTopia は、派手な見出しの裏側にあるこうした地味で大切な論点を、これからも読者のみなさんと一緒に見つめていきたいと思います。あなたの手元には、まだデータになっていない「入り口待ち」の書類が、どれくらい眠っているでしょうか。

Googleで優先するソースとして追加するボタン
投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!