innovaTopia

ーTech for Human Evolutionー

Microsoft WHAMM:リアルタイムAIゲーム生成技術が実現、Quake IIのプレイ可能デモを公開

 - innovaTopia - (イノベトピア)

Last Updated on 2025-04-07 14:54 by admin

Microsoftは最近、リアルタイムでゲームプレイを生成できる新しいAIモデル「WHAMM(World and Human Action MaskGIT Model)」を発表した。WHAMMは同社のゲーム向けワールドモデルファミリー「Muse」の最新版であり、Copilot Labsを通じてQuake IIのAIレンディションをプレイできるデモが公開されている。

WHAMMは2025年2月に発表された「WHAM」の改良版で、毎秒10フレーム以上の画像生成が可能になり、リアルタイムでのインタラクションを実現した。これに対し、従来のWHAM-1.6Bは毎秒約1フレームの生成速度だった。

この高速化は、LLMのような自己回帰モデルからMaskGITアーキテクチャへの移行によって達成された。WHAMMは2段階のトランスフォーマーモデル構成を採用しており、「Backbone Transformer」(約5億パラメータ)と「Refinement Transformer」(約2億5000万パラメータ)の組み合わせで効率的な画像生成を実現している。

また、WHAMMの出力解像度も300×180ピクセルから640×360ピクセルへと2倍に向上した。これはViTのパッチサイズを10から20に増加させるという比較的小さな変更で実現された。

さらに、WHAMMの訓練に必要なデータ量も大幅に削減された。WHAM-1.6Bの訓練には7年分のゲームプレイデータが使用されたのに対し、Quake II版WHAMMはわずか1週間分のデータで訓練された。これはプロのゲームテスターと協力し、特定のレベルに焦点を当てた意図的なデータ収集によって可能になった。

現在公開されているデモでは、Quake IIの最初のレベルの一部をプレイでき、移動、視点変更、ジャンプ、しゃがみ、射撃などの基本操作が可能となっている。ただし、このモデルには敵キャラクターとの相互作用の不正確さや、0.9秒(10fpsで9フレーム)という短いコンテキスト長など、いくつかの制限がある。

なお、Quake IIは1997年にid Softwareによって開発された一人称シューティングゲームである。

from WHAMM! Real-time world modelling of interactive environments.

【編集部解説】

Microsoftが発表した「WHAMM」は、AIによるゲーム生成技術の新たな一歩として注目に値します。この技術は単なるデモにとどまらず、ゲーム開発の未来を垣間見せるものといえるでしょう。

WHAMMの最も革新的な点は、リアルタイム性の実現にあります。従来のWHAM-1.6Bモデルが毎秒1フレームしか生成できなかったのに対し、WHAMMは毎秒10フレーム以上を生成できるようになりました。これはゲームとしての最低限のフレームレートには届かないものの、AIモデル内でインタラクティブな体験を可能にする閾値を超えた重要な進化です。

技術的には、自己回帰型からMaskGITアーキテクチャへの移行が鍵となっています。これは画像生成の方法論的転換を意味し、LLMのように1トークンずつ順番に生成するのではなく、画像全体のトークンを並列的に生成する手法です。この変更により、生成速度が大幅に向上しました。

また、データ効率の向上も見逃せません。WHAM-1.6Bの訓練には7年分のゲームプレイデータが必要だったのに対し、WHAMMはわずか1週間分のデータで訓練されています。これは意図的なデータ収集とキュレーションの成果であり、AIモデル開発におけるデータ効率化の好例といえるでしょう。

解像度も300×180から640×360へと倍増し、視覚的な品質が向上しています。これはViTのパッチサイズを10から20に増加させるという比較的小さな変更で実現されました。

しかし、現状のWHAMMには多くの制限があることも忘れてはなりません。敵キャラクターとの相互作用の不正確さ、0.9秒という短いコンテキスト長、限られたゲーム範囲、そして操作の遅延などが挙げられます。これらは技術的な課題であると同時に、今後の改善の余地を示しています。

この技術がもたらす可能性は広範囲に及びます。ゲーム開発者にとっては、プロトタイピングや創造的な実験の新たなツールとなるでしょう。例えば、新しいゲームメカニクスやレベルデザインのアイデアを素早く視覚化し、テストすることが可能になります。

また、ゲームプレイヤーにとっては、AIが生成する無限の可能性を持つ世界での新しい体験が提供されるかもしれません。従来のゲームでは不可能だった、プレイヤーの行動に応じて動的に変化する環境や、予測不可能な展開を楽しめる可能性があります。

一方で、この技術には課題もあります。リアルタイム性をさらに向上させるための計算効率の改善、より長いコンテキスト長の実現、そして敵キャラクターとの相互作用の精度向上などが必要でしょう。

長期的には、WHAMMのようなAIモデルがゲーム開発のワークフローを変革する可能性があります。開発者がゲームの基本的な要素を定義し、AIがそれを拡張して多様なコンテンツを生成するという協働モデルが考えられます。これにより、開発コストの削減や、より創造的な表現の可能性が広がるかもしれません。

また、このような技術は、ゲーム以外の分野にも応用できる可能性を秘めています。例えば、建築やデザインの分野でのインタラクティブなシミュレーション、教育分野での没入型学習環境の創出などが考えられるでしょう。

WHAMMは現時点では研究プロジェクトの段階ですが、その進化の速度を考えると、近い将来により洗練されたバージョンが登場することが期待されます。私たちinnovaTopiaでは、この技術の進化を引き続き注視していきたいと思います。

【用語解説】

ワールドモデル(World Model): AIがゲームや環境の動作原理を学習し、その環境がどのように変化するかを予測できるモデル。人間の脳が世界をシミュレーションするように、AIも環境をシミュレーションできるようになる技術。

MaskGIT: 画像生成のためのトランスフォーマーモデル。従来の自己回帰型モデル(一つずつトークンを生成)と異なり、画像全体のトークンを並列的に生成できる手法。これにより生成速度が大幅に向上する。

トークン化(Tokenization): 画像や文章などのデータを小さな単位(トークン)に分解する処理。WHAMMでは画像を576個のトークンに分解して処理している。

ViT-VQGAN: 画像をトークンに変換するためのモデル。Vision Transformer(ViT)とVector Quantized Generative Adversarial Network(VQGAN)を組み合わせたもの。

コンテキスト長: AIモデルが一度に処理できる情報の長さ。WHAMMの場合は0.9秒(9フレーム)分のゲームプレイ情報を記憶できる。

フレームレート: 1秒間に表示される画像(フレーム)の数。WHAMMは毎秒10フレーム以上生成でき、人間が滑らかさを感じる最低限の基準(約10fps)に達している。

【参考リンク】

Microsoft Research(外部)Microsoftの研究部門。WHAMMなどの最先端AI技術の研究開発を行っている。

Copilot Labs(外部)MicrosoftのAIアシスタント「Copilot」の実験的機能を提供するプラットフォーム。

【参考動画】

【関連記事】

テクノロジーとエンターテインメントニュースをinnovaTopiaでもっと読む

author avatar
乗杉 海
新しいものが大好きなゲーマー系ライターです!
ホーム » テクノロジーとエンターテインメント » テクノロジーとエンタメニュース » Microsoft WHAMM:リアルタイムAIゲーム生成技術が実現、Quake IIのプレイ可能デモを公開