innovaTopia

ーTech for Human Evolutionー

HART:MITとNVIDIAが開発した9倍高速な高品質画像生成AI ー 自己回帰と拡散モデルのハイブリッド技術が実現する次世代画像生成

 - innovaTopia - (イノベトピア)

Last Updated on 2025-03-24 14:40 by admin

MITとNVIDIAの研究チームが、高品質な画像を従来の最先端手法より約9倍速く生成できるAIツール「HART(Hybrid Autoregressive Transformer)」を開発した。この研究は2025年3月21日にMITのニュースサイトで発表され、国際学習表現会議(ICLR)で発表される予定である。

HARTは自己回帰モデルと拡散モデルの長所を組み合わせたハイブリッドアプローチを採用している。具体的には、7億のパラメータを持つ自己回帰モデルで全体像を素早く捉え、3,700万のパラメータを持つ軽量な拡散モデルで画像の詳細を洗練させる仕組みだ。

この手法により、HARTは20億のパラメータを持つ従来の拡散モデルと同等以上の品質の画像を生成しながら、計算リソースを約31%削減することに成功した。また、市販のラップトップやスマートフォンでもローカル実行が可能である。

研究チームには、MIT電気工学・コンピュータサイエンス学部(EECS)のHaotian Tang氏(2025年PhD取得予定)、清華大学の学部生Yecheng Wu氏、MITのSong Han准教授(NVIDIA著名科学者も兼任)らが参加している。

HARTは自動運転車のトレーニング用シミュレーション環境の生成、ロボット研究、ビデオゲーム用シーン制作など、幅広い応用が期待されている。

この研究はMIT-IBM Watson AIラボ、MITとAmazon Science Hub、MIT AIハードウェアプログラム、米国国立科学財団から資金提供を受け、NVIDIAからGPUインフラの寄贈を受けて実施された。

from:AI tool generates high-quality images faster than state-of-the-art approaches

【編集部解説】

MITとNVIDIAの共同研究チームが開発した「HART(Hybrid Autoregressive Transformer)」は、AI画像生成の分野に新たなブレイクスルーをもたらしています。この技術が注目される最大の理由は、高品質な画像生成の「速度」と「品質」という、これまでトレードオフの関係にあった二つの要素を両立させた点にあります。

従来の画像生成AIは大きく二つのアプローチに分かれていました。Stable DiffusionやDALL-Eに代表される拡散モデルは高品質な画像を生成できますが、処理に時間がかかり計算リソースを大量に消費します。一方、ChatGPTなどのLLMで使われる自己回帰モデルは高速ですが、画像品質に問題がありました。

HARTはこの二つのアプローチを巧みに組み合わせることで、「速くて美しい」画像生成を実現しています。具体的には、7億パラメータの自己回帰モデルで全体像を素早く捉え、その後3,700万パラメータという比較的小規模な拡散モデルで細部を洗練させるという二段階のプロセスを採用しています。

特筆すべきは、この手法により20億パラメータもの大規模拡散モデルと同等以上の品質を保ちながら、処理速度を約9倍に向上させた点です。計算リソースも31%削減されており、環境負荷の低減にも貢献しています。

この技術革新がもたらす影響は広範囲に及ぶでしょう。まず、自動運転車の訓練用シミュレーション環境の生成が高速化されることで、より安全な自動運転技術の開発が加速する可能性があります。

また、スマートフォンやラップトップでもローカル実行が可能という点は、プライバシーの観点からも重要です。現在の主流な画像生成AIはクラウドサーバーに依存していますが、HARTのようなモデルが普及すれば、個人情報を外部に送信することなく高品質な画像生成が可能になります。

ゲーム開発やデザイン分野でも革命が起きるかもしれません。リアルタイムでの高品質なグラフィック生成が可能になれば、よりインタラクティブで没入感のあるコンテンツ制作が容易になるでしょう。

一方で、このような技術の進化には潜在的なリスクも存在します。高速で高品質な画像生成が可能になると、ディープフェイクなどの悪用も容易になる恐れがあります。技術の発展と同時に、適切な規制や倫理的ガイドラインの整備も重要になってくるでしょう。

長期的な視点では、HARTのアーキテクチャは画像生成にとどまらず、ビデオ生成や音声予測タスクへの応用も計画されています。さらに、視覚と言語を統合したモデルの基盤としても期待されており、将来的には「家具の組み立て方を視覚的に説明する」といった複雑なタスクも可能になるかもしれません。

この研究はMIT-IBM Watson AIラボやAmazon Science Hubなど複数の機関から資金提供を受け、NVIDIAからはGPUインフラの寄贈を受けて実施されました。産学連携による研究開発の重要性を示す好例と言えるでしょう。

HARTの登場は、AIの民主化という観点からも重要な一歩です。高性能なAI画像生成が一般のデバイスでも利用可能になることで、クリエイティブな表現の可能性が広がり、より多くの人々がAI技術の恩恵を受けられるようになるでしょう。

【用語解説】

国際学習表現会議(ICLR: International Conference on Learning Representations)
機械学習、特に表現学習(深層学習)に焦点を当てた国際的な学術会議。NeurIPSやICMLと並んで、機械学習・AI研究における三大主要会議の一つとされている。

自己回帰モデル(Autoregressive Model)
時系列データや連続的なデータを扱うAIモデルで、前の要素に基づいて次の要素を予測する方式。例えば文章生成では、前の単語から次の単語を予測していく。日常例で言えば、「次の言葉を予測する予測変換機能」のような仕組みである。

拡散モデル(Diffusion Model)
画像にノイズを徐々に加えて完全にランダムな状態にした後、そのプロセスを逆に辿って画像を生成するAI技術。例えるなら、「絵を少しずつぼかしていき、そのぼかし方を覚えておいて、逆の手順で鮮明な絵を作り出す」ような仕組みである。

パラメータ
AIモデルの中の調整可能な値のこと。パラメータ数が多いほど複雑な処理が可能になるが、計算リソースも多く必要になる。

Amazon Science Hub
アマゾンと複数の大学が共同で設立した研究協力プログラム。人工知能(AI)やロボット工学を中心に、幅広い分野での研究開発や教育支援を目的としている。

【参考リンク】

MIT(マサチューセッツ工科大学)(外部)
世界トップクラスの理工系大学。コンピュータサイエンス、工学、AIなど先端技術研究で知られる。

MIT-IBM Watson AIラボ(外部)
MITとIBMの共同研究所。AIの基礎研究からビジネス応用まで幅広い研究を行っている。

清華大学(外部)
中国を代表する名門大学。コンピュータサイエンスや工学分野で世界的に高い評価を受けている。

NVIDIA(エヌビディア)(外部)
GPU開発大手で、近年はAI技術の中核を担うハードウェア・ソフトウェアプラットフォームを提供している。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

author avatar
りょうとく
主に生成AIやその権利問題について勉強中。
ホーム » AI(人工知能) » AI(人工知能)ニュース » HART:MITとNVIDIAが開発した9倍高速な高品質画像生成AI ー 自己回帰と拡散モデルのハイブリッド技術が実現する次世代画像生成