ーTech for Human Evolutionー

リコー「Qwen3.6-Ricoh-27B」開発、オンプレ対応LMMが独自日本語推論ベンチマークでGemini 3 Pro Preview参考値と同水準

AI（人工知能）ニュース｜テクノロジーと社会ニュース｜テクノロジーと経済ニュース

Headline News

山本達也

[公開]

2026年6月9日19:00

リコー「Qwen3.6-Ricoh-27B」開発、オンプレ対応LMMが独自日本語推論ベンチマークでGemini 3 Pro Preview参考値と同水準 - innovaTopia

機密文書を社外に出さず、自社サーバーの中だけでAIに読ませる——そんな企業の願いに、リコーが応えた。図表まじりの請求書や設計図まで読み解くマルチモーダルAIを開発し、リコー独自のベンチマークではGoogleのGemini 3 Pro Previewに迫る性能を記録。国策プロジェクトGENIACが生んだ”オンプレミスで動く国産AI”は、日本企業の働き方をどう変えるのか。

株式会社リコーは2026年6月5日、アリババクラウドの大規模言語モデル「Qwen3.6-27B」を基に、日本語のリーズニング性能を高めたマルチモーダル大規模言語モデル「Qwen3.6-Ricoh-27B-20260522」を開発したと発表した。独自ベンチマーク「JDocQA-Reasoning」「JDocQA」での評価では、JDocQA-Reasoningで0.881を記録し、参考値として掲載されたGemini 3 Pro Previewの0.880と同水準に達した。

6月下旬から「RICOH オンプレLLMスターターキット」に搭載し、リコージャパン株式会社が提供する。FP16版に加え8bit・4bitの量子化版も用意する。あわせて「Qwen3.5-9B」を基にした「Qwen3.5-Ricoh-9B-20260522」も開発した。両モデルは経済産業省とNEDOによるプロジェクト「GENIAC」の基盤モデル開発第2期・第3期での成果である。

From: リコー、マルチモーダル大規模言語モデル「Qwen3.6-Ricoh-27B-20260522」および「Qwen3.5-Ricoh-9B-20260522」を開発

【編集部解説】

リコーが今回発表したのは、アリババクラウドのオープンモデル「Qwen3.6-27B」を土台に、日本語の図表読解とリーズニングを鍛え直した企業向けLMM（大規模マルチモーダルモデル）です。なぜ私たちが今このニュースを取り上げるのか。それは「日本企業のAIは、どこで動くべきか」という問いに、ひとつの明確な答えが示されたからにほかなりません。

まず押さえておきたいのが「オンプレミス」という言葉の重みです。これは自社のサーバーやデータセンター内でAIを動かす方式を指します。請求書、約款、設計図といった機密文書を社外のクラウドへ送らずに処理できるため、クラウド送信に伴う情報漏えいリスクを大きく低減できます。もっとも、オンプレミスにすれば内部不正や設定ミス、脆弱性といったリスクがゼロになるわけではありません。それでも、クラウドAIが主流となるなかで、あえて「閉じた環境」を選べる選択肢を用意した点が本モデルの核心です。

技術的に効いているのが「量子化」という工夫です。モデルの計算精度をFP16から8bit、4bitへと段階的に削ることで、必要なGPUの枚数とコストを抑えられます。リコーはこの量子化版でもベースモデルを上回る性能を保ったとしており、つまり「軽くしても賢さは落ちない」状態を作り込んだわけです。高価なGPUを大量に揃えられない中堅企業にとって、導入のハードルが一段下がる意味は小さくありません。

注目すべきは数字の中身です。リコー独自の図表読解ベンチマーク「JDocQA-Reasoning」で本モデルは0.881を記録し、参考値として並ぶGoogleのGemini 3 Pro Previewの0.880とほぼ同水準に達しました。一方、参考値のGPT-5.2は同じ指標で0.731にとどまっています。このベンチマークに限れば、巨大な汎用モデルが特定領域に特化した中型モデルに及ばない——という逆転が起きています。ただし、これはあくまで日本語文書の図表読解という限定された土俵での結果であり、汎用的な性能全体でリコーのモデルがGemini 3 Pro Previewを上回ったわけではない点には注意が必要です。

解釈にはさらに冷静さも求められます。このベンチマークはリコー自身が開発・公開したものであり、評価方式もAIが採点役を担う「LLM-as-a-Judge」です。比較対象のGeminiやGPTのスコアも、第三者の公式評価ではなくリコー側の測定による参考値である点は割り引いて見るべきでしょう。とはいえ、評価用データセットをHugging Faceで無償公開し、第三者が検証できる形にしている姿勢は、ブラックボックス化しがちなAI性能競争のなかでは誠実なアプローチだと評価できます。

背景として見逃せないのが、経済産業省とNEDOによる国産AI支援策「GENIAC」の存在です。第3期では24件の開発テーマが採択されました。複数の報道では、その傾向として「軽量・業界特化」への傾斜が指摘されています。リコーの今回の成果は、この方向性を体現するショーケースと言えるでしょう。生成AIの開発力を国内に根づかせるという狙いが、企業の具体的なプロダクトとして結実しつつあるのです。

一方で、ひとつの構造的な論点も浮かびます。土台となっているのは、中国アリババ製のQwenというオープンモデルです。LLMの「国産化」を語る際、その基盤が海外モデルに依存している現実は、技術主権の議論において避けて通れません。もっとも、優れたオープンモデルを賢く改良して実用に落とし込む路線は、ゼロから巨大モデルを開発するより現実的かつ合理的でもあります。

長期的に見れば、このニュースは「AIの民主化」が次の段階に入ったことを示唆しています。クラウド大手の独占から、各社が自社環境で自社データに最適化したAIを持つ時代へ——その移行を後押しする一手です。今後リコーは業種特化モデルや独自AI基盤「Hi.DEEN」への統合を進める方針で、日本企業の現場に深く食い込んでいくことになるでしょう。

私たち読者にとっての本質は、AIが「触れる場所」が広がったという点に尽きます。遠いクラウドの向こうにあった知性が、自社の壁の内側へ。未来は、手の届く距離まで降りてきています。

【用語解説】

マルチモーダル大規模言語モデル（LMM）
テキストだけでなく、画像・図表・音声・動画など複数種類のデータを同時に扱えるAIのこと。文章生成に特化した従来のLLMに「目」を加えたものと考えると分かりやすい。請求書や設計図のスクリーンショットを読ませて要点を答えさせる、といった使い方ができる。

リーズニング性能
AIが情報を単に検索・出力するのではなく、複数の段階を踏んで論理的に考え、結論を導く能力。たとえば表の数値を比較し、増減を計算して傾向を述べる、といった「多段推論」を指す。

量子化
モデル内部の数値の計算精度をあえて粗くし、容量と計算負荷を軽くする技術。FP16から8bit、4bitへと削るほど省リソースになる。性能とコストのバランスを取るための代表的な手法である。

オンプレミス
クラウド上ではなく、自社が保有するサーバーやデータセンター内でシステムを動かす運用形態。機密データを社外に出さずに済むため、セキュリティやガバナンスを重視する企業が選ぶ。

強化学習／カリキュラム学習
強化学習は、AIが試行錯誤しながら「報酬」を最大化する行動を学ぶ手法。カリキュラム学習は、易しい課題から難しい課題へと学習の順序を工夫して効率を高める手法。リコーはこの2つを組み合わせてモデルを鍛えている。

ファインチューニング
完成済みのモデルに、特定の業種や業務のデータを追加学習させて精度を最適化する作業。汎用モデルを「自社専用」に仕立て直すイメージ。

JDocQA-Reasoning／JDocQA
日本語のビジネス文書に対する読解・推論能力を測るベンチマーク。JDocQAは図表や画像を含む文書のQAデータセット、JDocQA-Reasoningはリコーが多段推論用に独自開発した発展版で、テストデータ1,362問を収録する。リコーが2026年5月に無償公開した。

LLM-as-a-Judge
AIモデルの出力の良し悪しを、別の高性能なAIに採点させる評価手法。今回のベンチマークではAzure OpenAI Serviceのモデルが採点役を担っている。

Hi.DEEN（ヒデン）
企業内に眠る「暗黙知」や非構造化データを資産化し、競争力の源泉へと昇華させるためにリコーが開発したAI技術基盤。

【参考リンク】

リコー｜技術ページ：“はたらく”を支えるリコーの大規模言語モデル（LLM）（外部）
リコーのLLM/LMM開発の技術的な狙いと系譜をまとめた公式解説ページ。本リリースの技術背景を深掘りできる。

Hugging Face｜ricoh-ai/JDocQA-Reasoning（外部）
リコーが無償公開した図表読解の推論ベンチマーク。評価手法や対象とする図表の種類を第三者が検証できる。

Alibaba Cloud｜Qwen（公式サイト）（外部）
本モデルの土台となったオープンモデル「Qwen」を提供するアリババクラウドの公式ページ。ベースモデルの位置づけを把握できる。

Google｜Gemini（外部）
比較対象として登場した商用大型モデル「Gemini」の公式サイト。性能比較の基準とした相手を確認できる。

OpenAI（外部）
比較表に登場したGPTシリーズを開発する企業の公式サイト。汎用モデルの最新動向を追える。

経済産業省｜GENIAC（外部）
本モデル開発の枠組みとなった国産生成AI支援プロジェクトの公式ページ。採択テーマや支援内容が確認できる。

NEDO（国立研究開発法人新エネルギー・産業技術総合開発機構）（外部）
GENIACを経産省とともに推進する実施機関の公式サイト。計算資源支援などの事業概要を把握できる。

リコージャパン株式会社（外部）
本モデルを搭載した「RICOH オンプレLLMスターターキット」を提供する国内販売会社の公式サイト。

【参考動画】

※以下は2025年6月に公開されたリコーのマルチモーダルLLM開発に関する記者説明会の動画です。今回（2026年6月5日）の発表そのものではありませんが、リコーのLMM開発の背景や狙いを開発元の言葉で理解する参考になります。

【参考記事】

リコー、オンプレ対応マルチモーダルLLMを開発（ZDNET Japan）（外部）
27Bが270億パラメーター規模であること、JDocQA-ReasoningでGemini 3 Pro Preview級に達した点を整理。数値の裏付けに用いた。

リコー、日本語リーズニング性能を強化したLMMを開発（AI Watch／Impress）（外部）
ベースがアリババクラウドのQwen3.6-27Bであること、図表読解とテキスト性能の両面を強化した点を報じる。事実照合に使用。

鍵は軽量・業界特化、生成AI基盤開発プロジェクト「GENIAC」第3期（日経クロステック）（外部）
GENIAC第3期で24件が採択され、傾向として「軽量・業界特化」が指摘される点を伝える。文脈づけの根拠とした。

Ricoh unveils open benchmark for AI reasoning on Japanese business documents（IBTimes JP）（外部）
JDocQA-Reasoningが計算・比較・傾向分析の多段推論を測る設計だと報じる。ベンチマークの性格確認に参照。

リコーが図表も読み取るマルチモーダル大規模言語モデル（MONOist／ITmedia）（外部）
3階層のモデル構成やオンプレミスで追加学習可能な設計を解説。アーキテクチャ理解のために参照した。

【関連記事】

リコー、生成AIの推論性能を測る日本語ベンチマークを無償公開｜GENIAC第3期の成果
2026年5月31日公開。今回のモデル評価に使われた「JDocQA-Reasoning」そのものを、リコーが無償公開したことを報じた前作記事。測る側（ベンチマーク）と測られる側（モデル）の関係で、本記事と一続きの発表にあたる。

【編集部後記】

取材を進めるなかで印象的だったのは、汎用の巨大モデルが特定領域で中型モデルに及ばないという数字でした。私たちはつい「大きいほど賢い」と考えがちですが、現場で本当に効くのは、その仕事を知っているAIなのかもしれません。もっとも、この数字はリコー独自のベンチマーク上の結果であり、鵜呑みにせず「どんな土俵での話か」を見極める姿勢も大切だと感じています。

みなさんの職場にも、まだAIに読まれていない「眠った文書」があるはずです。それが動き出したとき、何が変わるのか——私たち編集部も、同じ目線で見届けていきたいと思います。

AI（人工知能）ニュース｜テクノロジーと社会ニュース｜テクノロジーと経済ニュース

Headline News

山本達也

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧