私たちが日々扱うビジネス文書は、文字だけで成り立っているわけではありません。決算資料の数値表、保守マニュアルのフロー図、契約書に挟まれた一枚のグラフ——情報の核心が、視覚的なレイアウトに閉じ込められている場面は数えきれないほどあります。これまでのAIは、こうした図表を「見る」ことが苦手でした。文書をテキストに変換した瞬間、図表は意味を失い、ただの記号の羅列になってしまうからです。NTTが2026年5月19日に発表した純国産LLM「tsuzumi 2」のアップデートは、まさにこの壁に挑むものです。図表入りの日本語ビジネス文書を画像のまま読み解き、視覚的な意味まで理解する——しかも、それを1GPUという軽量環境で実現しています。クラウドに預けたくない機微情報を、手元で安全に扱える日本発のAIは、エンタープライズの現場をどう変えていくのでしょうか。
NTT株式会社は2026年5月19日、NTT版LLM「tsuzumi 2」のアップデートを発表した。図表・グラフ・チャートを含む日本語ビジネス文書を画像として読み込み、視覚的に理解する機能を実装した「tsuzumi 2 Vision」と呼ばれるモデルで、軽量性を維持したまま視覚情報処理に対応した。あわせて、数値処理を含む論理的思考能力も強化されている。
tsuzumi 2は2025年に発表されたモデルで、1GPU環境で動作する軽量さを活かし、オンプレミスおよびプライベートクラウド環境において機微情報を扱う業務を中心に利用されてきた。今回のアップデートにより、与信審査などの業務支援における帳票からの必要事項抽出や、技術問い合わせ業務における原因判断フロー図の理解といった用途への適用が想定されている。
同サイズ帯のモデルとの比較で世界トップレベルの性能を実現したとしている。アップデート版はNTTグループ各社を通じて順次サービス提供される。代表取締役社長は島田明氏。
From:
NTT版LLM tsuzumi 2アップデート ~世界トップレベルの図表入り日本語ビジネス文書処理性能を1GPU環境で実現~

【編集部解説】
今回の発表で見逃せないのは、文字情報の処理に強みを持っていたtsuzumi 2が、図表入りの文書を画像のまま読み解けるビジョン対応モデル(tsuzumi 2 Vision)へと進化を遂げた点です。私たちが普段扱うビジネス文書を思い浮かべてみてください。決算資料、与信書類、製品仕様書、技術ドキュメント――そのどれもが、本文と同じかそれ以上に重要な情報を、図表やフロー図、グラフの中に閉じ込めています。テキスト変換だけでは抜け落ちる「視覚で語られる情報」をモデルが直接理解できるようになった意味は、想像以上に大きいと言えます。
注目すべきは、これを1GPU環境で実現してきた点です。大規模な計算資源を必要とするフロンティアモデルが多い中、tsuzumi 2は単一GPUで動作するよう設計されてきました。今回のアップデートでも、その軽量設計を維持したままマルチモーダル能力を獲得しています。これは、世界的なGPU需給逼迫やAIの消費電力問題を考えれば、極めて現実的な解答です。
オンプレミス/プライベートクラウドでの運用に強いという特性は、日本の規制環境とも噛み合います。金融機関、自治体、医療機関、製造業の機微情報を、外部のクラウドAIに送ることなく社内で完結処理できる――この「データ主権」は、生成AIのエンタープライズ普及における最大級のボトルネックを解消するアプローチです。NTTがフルスクラッチで開発し、学習データの権利関係を管理しやすい体制を整えている点も、欧米や中国のモデルに対する差別化要素となっています。
ユースケースとして示された「与信審査の帳票読み取り」「技術問い合わせの原因判断フロー図の理解」は、いずれも従来であれば人間の目視と判断に依存していた業務領域です。請求書や契約書、保守マニュアルといった画像PDFを画像のまま処理し、必要項目を抽出してデータベース化できるなら、バックオフィスの省力化インパクトは計り知れません。NTTドコモビジネスと富士フイルムビジネスイノベーションが進める、REiLI技術とtsuzumi 2を組み合わせた生成AIソリューションの検討など、エコシステム面の動きとも合わせて見ていく必要があります。
一方で、冷静に押さえておきたい点もあります。同サイズ帯では世界トップレベルとの説明ですが、扱える知識の総量や、極めて高度な推論を要するタスクでは、巨大モデルに優位性が残るのが現実です。NTTは複数の小型AIを連携させる「AIコンステレーション」構想を打ち出しており、tsuzumi 2はこの構想と親和性のある、日本語特化型の専門モデルと位置づけて捉えることができます。この視点で見ると、戦略の全体像が見えてきます。
将来を見据えると、この方向性は「LLMはひたすら巨大化する」という流れに対するアンチテーゼでもあります。GLM-4.6VやQwen2.5-VLといったオープンソースのマルチモーダルモデルが台頭し、Gemini 3 Flashなどフロンティア勢の高速・軽量バリエーションが普及する2026年において、「特定言語・特定業務に最適化した小型モデル」という選択肢が確実に育ってきています。tsuzumiはその日本代表として、グローバル競争の一角を占める存在になりつつあります。
最後に、規制や政策との接点にも触れておきます。日本政府はAI推進と利活用ガバナンスの両立を模索しており、行政文書や公共サービスにLLMを導入する際、データ取扱いに関する厳しい要件が課されます。純国産・オンプレ運用可能なtsuzumi 2は、こうした要件を満たす有力な選択肢の一つとして、今後の公共調達やレギュレーテッド産業での採用が広がっていく可能性があると見ています。
【用語解説】
LLM(大規模言語モデル)
膨大なテキストデータで学習し、人間のような自然言語の理解・生成を行う深層学習モデル。ChatGPTやClaude、Geminiなどが代表例。
マルチモーダル
テキスト、画像、音声など複数の異なる種類のデータを同時に扱える能力。文書を画像のまま処理できるモデルは、文字列に変換する過程で失われる図表のレイアウト情報まで保持できる。
ビジョン対応モデル
画像入力を直接処理できる視覚情報処理能力を備えたAIモデルの総称。文書を写真やスキャン画像として読み込み、図表のレイアウトや視覚的構造を含めて意味を解釈できる。
フルスクラッチ開発
既存のオープンソースモデルを土台にせず、設計・学習データの選定・モデル構築までをゼロから自前で行う開発手法。学習データの権利関係を管理しやすく、コンプライアンスリスクの低減に寄与する。
オンプレミス/プライベートクラウド
オンプレミスは自社内のサーバーでシステムを運用する方式、プライベートクラウドは特定組織専用に構築されたクラウド環境。いずれもパブリッククラウドと比較してデータの外部流出リスクを抑えられる。
機微情報
個人情報のうち取り扱いに特別な配慮を要するもの、および企業の機密情報や取引情報など、漏洩した場合の影響が大きい情報の総称。
与信審査
金融機関や企業が、融資や取引の前に対象者・対象企業の支払能力や信用度を評価する業務。決算書や帳票など多数の書類を読み解くプロセスが含まれる。
AIコンステレーション
NTTが提唱する、複数の小型・専門特化AIが自律的に連携し議論しながら協調的に問題解決する次世代AIフレームワーク構想。tsuzumi 2はこの構想と親和性の高い専門特化型モデルと位置づけられる。
GPU(Graphics Processing Unit)
本来は画像処理を担う半導体だが、並列計算性能の高さからAIの学習・推論に不可欠な計算資源となっている。大規模LLMの運用には高性能GPUを大量に必要とするケースが多い。
帳票
請求書、伝票、注文書、報告書など、ビジネスで使われる定型書式の書類全般を指す言葉。
【参考リンク】
NTT報道発表「更なる進化を遂げたNTT版LLM tsuzumi 2の提供開始」(外部)
2025年10月に発表されたtsuzumi 2の初回リリース資料。性能比較データやユースケースの詳細が掲載されている。
NTT R&D「tsuzumi」公式ページ(外部)
tsuzumiの技術概要・開発思想・ベンチマーク結果を網羅した、NTT R&Dによる開発元の公式技術情報ページである。
NTT Global Insights Hub「tsuzumi 2: Secure, Efficient AI for Enterprise」(外部)
tsuzumi 2の特徴をエンタープライズ視点で解説した、NTTグループのグローバル事業部門による公式コンテンツである。
富士フイルムビジネスイノベーション「REiLI」(外部)
非定型な企業文書を構造化データに変換する、富士フイルムビジネスイノベーションが提供するAI技術ブランドの公式サイト。
NTTデータ「tsuzumi 2」サービスページ(外部)
tsuzumi 2の企業向け提供に関するNTTデータの公式案内ページ。導入支援メニューや活用シーンが整理されている。
NTTグループ ポータル(外部)
日本電信電話株式会社グループの公式ポータル。経営方針や研究開発、各種ニュースリリースへのリンクが集約されている。
【参考動画】
【参考記事】
NTT、LLM「tsuzumi 2 Vision」にアップデート 世界トップクラスの図表入り日本語文書読解性能(ケータイWatch)(外部)
今回のアップデートを「tsuzumi 2 Vision」として国内テックメディアが速報した記事。性能とユースケースが整理されている。
NTTのLLM「tsuzumi 2」、図表付きの文書の読み取りに対応(AI Watch)(外部)
これまで文字ベース処理だったtsuzumi 2が画像を含む文書処理に対応した点を、日本国内AI専門メディアの視点で整理した記事。
NTT’s Next-Generation LLM “tsuzumi 2” Now Available(NTT英語版)(外部)
tsuzumi 2初期発表の英語版プレスリリース。金融・医療・自治体での特化強化や東京通信大学の採用事例を記載している。
NTT’s IOWN controls factories 300km away, tsuzumi 2 runs on single GPU(CRN Asia)(外部)
tsuzumi 2の単一GPU動作と、消費電力削減や日本のAI主権における戦略的意義を論じた海外メディアによる分析記事。
NTT Launches Tsuzumi 2: Japan’s Advanced LLM(IT Business Today)(外部)
tsuzumi 2のパラメータ数拡張や金融・医療・行政での強みを取り上げた、海外IT専門メディアによる分析記事である。
【関連記事】
「tsuzumi 2」NTTら3社、純国産医療AI情報プラットフォームを共同開発へ(2026年4月17日)
医学書院・NTT・NTTドコモビジネスの3社が、tsuzumi 2を活用した医療AI情報プラットフォームの共同開発で合意した協業発表。tsuzumi 2の業種特化適用事例として位置づけられる。
NTT「tsuzumi 2」提供開始|富士フィルムと連携、軽量・高性能な純国産日本語特化LLMを実現(2025年10月24日)
tsuzumi 2の初回リリース時の記事。1GPU動作、金融・医療・公共分野の知識強化、東京通信大学や富士フイルムビジネスイノベーションとの連携など、初期エコシステムを伝えている。
内閣府・人工知能基本計画「AIを使わないことが最大のリスク」日本が挑む反転攻勢の国家戦略(2025年10月23日)
内閣府の人工知能基本計画と日本のAI戦略を扱った記事。tsuzumi 2を純国産日本語特化LLMの代表例として取り上げており、本記事の政策的背景文脈にあたる。
【編集部後記】
私たちが日々目にする「文書」は、文字だけでは成り立っていません。資料に挟まれた一枚のフロー図、決算書の中の数値表、マニュアルの構成図——そこに含まれる「視覚で語られる情報」を、AIが理解できるようになる時代が現実のものとなってきました。
みなさんの職場や日常で扱う書類のうち、もし図表ごと丸ごとAIが読み解けるとしたら、どんな業務が変わると感じるでしょうか。クラウドに預けたくない機微な情報を、手元で安全に扱えるAIという選択肢が育ってきたこの瞬間を、一緒に観察していけたらと思います。












