パナソニックR&Dカンパニー オブ アメリカおよびパナソニック ホールディングス株式会社は、UCLAの研究者と共同で拡散型視覚言語モデル「LaViDa」を開発した。
LaViDaは拡散モデルを用いて文章を生成するマルチモーダルAIで、既存の自己回帰型手法と同等の精度を保ちながら約2倍の生成速度を実現した。従来の自己回帰型手法では文章量の増加に伴い生成時間が増加する課題があったが、LaViDaでは生成速度を可変にすることでこの問題を解決している。
本技術はAI・MLのトップカンファレンスであるNeurIPS 2025に採択され、2025年12月3日から12月5日までアメリカ・サンディエゴで開催される会議で発表される。
パナソニックグループは本技術を用いて現場の各種ドキュメントを統一フォーマットに整形し、AIエージェント導入の加速を目指す。
From:
Panasonic Holdings develops LaViDa, a diffusion based vision language model





【編集部解説】
今回パナソニックが発表したLaViDaは、AI技術における重要なパラダイムシフトを示しています。現在主流の自己回帰型モデルは、文章を「左から右へ一文字ずつ」生成する仕組みです。これは人間が文章を書く過程に近い一方で、長文になるほど処理時間が線形に増加してしまう構造的な限界を抱えていました。
LaViDaが採用する拡散モデルは、画像生成AI「Stable Diffusion」などで実績のある技術です。ノイズから徐々に明瞭な画像を生成するのと同様に、マスクされたトークン全体を同時並行で復元していきます。この並列処理により、従来手法の約2倍という生成速度を実現しました。特筆すべきは、速度と精度のトレードオフを柔軟に調整できる点で、用途に応じて「高速だが粗い出力」から「低速だが高精度な出力」まで選択可能になります。
実用面での革新は「構造化されたテキスト生成」にあります。自己回帰型では詩やJSON形式といった特定フォーマットの出力に苦手意識があり、プロンプトで細かくルールを指定しても誤認識が頻発していました。拡散モデルは文章全体の構造を俯瞰しながら生成するため、こうした制約付きタスクに強みを発揮します。
パナソニックは本技術を社内のAIエージェント展開に活用する方針です。現場に散在する多様なドキュメントを統一フォーマットに自動変換することで、AIが理解しやすい環境を整備できます。製造業における膨大な技術文書や業務マニュアルの標準化は、長年の課題でした。LaViDaはこの問題に対する実践的な解決策となる可能性を秘めています。
NeurIPS 2025への採択は、学術的な先進性が国際的に認められた証です。拡散モデルをマルチモーダルAIに本格適用した事例はこれまでほとんどなく、LaViDaは新たな研究領域を切り開いたといえるでしょう。今後、他の研究機関や企業がこの手法を応用していくことで、AIの表現力と効率性がさらに向上していくことが期待されます。
【用語解説】
拡散モデル(Diffusion Model)
ノイズから徐々にデータを生成する機械学習手法である。画像生成AIで広く使われており、ランダムなノイズ状態から段階的にノイズを除去することで最終的な出力を得る。並列処理が可能で、高品質な生成結果が得られる特徴を持つ。
自己回帰型モデル(Autoregressive Model)
データを順次生成する手法で、前のステップの出力を次のステップの入力として使用する。テキスト生成では文章を左から右へ一文字ずつ生成していく。GPTなど多くの大規模言語モデルがこの方式を採用している。
マルチモーダルAI(Multimodal AI)
画像、テキスト、音声など複数種類のデータを同時に処理・理解できるAIシステムである。単一のモダリティのみを扱うAIと比べ、より人間に近い情報理解が可能になる。
トークン(Token)
テキストを処理しやすくするために分割した最小単位である。単語、サブワード、文字などが該当し、AIモデルはこのトークン単位で文章を処理・生成する。
アテンション機構(Attention Mechanism)
Transformerアーキテクチャの中核技術で、入力データの各部分がどれだけ重要かを計算する仕組みである。関連性の高い情報に注意を向けることで、精度の高い処理を実現する。
NeurIPS(Conference on Neural Information Processing Systems)
機械学習と計算神経科学における世界最高峰の国際学会である。毎年開催され、AI分野の最先端研究が発表される。採択率は20%前後と非常に厳格な査読プロセスで知られる。
【参考リンク】
Panasonic×AI 公式サイト(外部)
パナソニックのAI研究開発活動を紹介する公式サイト。LaViDaを含む先端AI技術の情報を掲載。
LaViDa 論文(arXiv)(外部)
LaViDaの技術詳細を記した学術論文。NeurIPS 2025採択の研究成果を詳述。
Panasonic×AI 公式X(旧Twitter)(外部)
パナソニックのAI研究に関する最新情報を発信する公式アカウント。研究成果を配信。
UCLA(カリフォルニア大学ロサンゼルス校)(外部)
今回の共同研究パートナーである世界トップクラスの研究大学。AI研究の拠点の一つ。
NeurIPS 2025 公式サイト(外部)
AI・機械学習分野最高峰の国際会議。2025年12月3日から5日までサンディエゴで開催。
【参考記事】
拡散型視覚言語モデルによるマルチモーダルAI「LaViDa」を開発(外部)
パナソニック公式日本語プレスリリース。LaViDaの技術的特徴とNeurIPS採択を報告。
LaViDa: A Large Diffusion Language Model for Multimodal Understanding(外部)
LaViDaの学術論文。拡散モデルをマルチモーダルAIに適用した手法論を詳述。
パナソニックHDがマルチモーダルAIの生成速度を倍増(外部)
ITmedia MONOistによる報道。LaViDaの技術的革新性と産業応用の可能性を解説。
【編集部後記】
拡散モデルがテキスト生成の領域でも実用段階に入ってきたことに、私自身とても興味を惹かれています。画像生成で革命を起こした技術が、今度は言語理解の世界にも変化をもたらそうとしているわけですから。
みなさんの職場や日常で扱っている資料やドキュメントが、もしAIにとってもっと「読みやすい」形に自動変換できたら、どんな可能性が広がるでしょうか。業務効率化だけでなく、これまで埋もれていた知識やノウハウが掘り起こされるかもしれません。AIが私たちの働き方をどう変えていくのか、一緒に見守っていきたいですね。






























