ーTech for Human Evolutionー

Vidu Q1：ブラウザだけで映画品質のAI動画・音声生成を実現するShengShu社の新技術

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2025年4月24日18:56

[更新]2025年4月24日

tatsu0256_A_futuristic_browser_window_displaying_a_split_scre_49136f00-c9ea-42fa-bbc3-29543440dae8_1 - innovaTopia

中国のShengShu Technology社は2025年4月21日、AI動画生成プラットフォーム「Vidu」の最新モデル「Vidu Q1」をグローバルリリースした。Vidu Q1は、ブラウザベースの生成型動画モデルで、2枚の静止画像とテキストプロンプトから5秒間の1080p高画質動画を生成できる。

特徴的な機能として「First-to-Last Frame」システムを搭載しており、関連性のないフレーム間でもスムーズな動きを実現し、これまではプロのVFXチームが必要だった映像トランジションを個人クリエイターでも利用可能にした。

また、音声機能も統合されており、テキスト入力から業界初となる48kHzの背景音楽と効果音を生成し、10秒間のマルチトラックレイヤリングやタイムスタンプ付きキューに対応することで、外部のサウンドライブラリを必要としない。アニメスタイルの出力も改善され、より鮮明なラインとフレームの一貫性が向上している。

ShengShu Technology社の社内ベンチマークによると、Vidu Q1はOpenAIのSora、Runway Gen-2、Luma Dream Machineといった競合製品よりもプロンプト忠実度とフレーム一貫性で優位に立っており、VBenchの標準評価でも高い評価を得ている。

ShengShu Technologyは2023年3月に設立された北京を拠点とし、シンガポールにも拠点を持つAIスタートアップで、清華大学と提携している。同社はマルチモーダル大規模言語モデルと映画、広告、デジタルクリエイター向けの創造的ツールを専門としている。

Vidu Q1は2025年3月29日に発表され、4月21日から世界中で利用可能になった。すでにハリウッドでも注目されており、Aura Productionsは先月、Vidu Q1を使用したAI生成アニメのSFシリーズ50エピソードの共同制作を発表している。

from:ShengShu rolls out Vidu Q1, puts full-stack AI video and audio in a browser tab

【編集部解説】

ShengShu社の「Vidu Q1」は、生成AI動画の分野に新たな可能性をもたらす注目すべき進化です。この技術の特筆すべき点は、ブラウザタブ内で完結する操作性と、動画と音声の統合ワークフローにあります。

従来の生成AI動画ツールでは、高品質な出力を得るために複数のツールを組み合わせる必要がありましたが、Vidu Q1はこのプロセスを大幅に簡略化しています。特に「First-to-Last Frame」システムは、関連性のない2枚の画像間をスムーズにつなぐ技術として革新的です。例えば、「ドアが開く写真」と「アクションヒーローとヴィランが戦うシーン」という全く関係のない2枚の画像から、「ドアを開いてアクションヒーローが敵と戦うのを見る」という自然な流れの動画を生成できます。

音声生成機能の統合も大きな特徴です。業界初となる48kHzの高品質音声を生成し、10秒間のマルチトラックレイヤリングやタイムスタンプ付きキューに対応することで、「0〜2秒の間に風の音を追加」といったシンプルなテキスト指示だけで音声編集が可能になっています。これにより、動画と音声の同期が容易になり、クリエイティブワークフローの効率化に大きく貢献するでしょう。

Vidu Q1の実際の性能については、社内ベンチマークではOpenAIのSora、Runway Gen-2、Luma Dream Machineといった競合製品を上回るとされていますが、独立した第三者評価としてVBenchのベンチマークでも高い評価を得ています。特にアニメーションスタイルの出力品質向上は、日本のクリエイターにとっても魅力的な機能となるでしょう。

興味深いのは、Vidu Q1がすでに商業的な活用段階に入っていることです。Aura Productionsとの提携により、50エピソードのSFアニメシリーズ制作が進行中であり、これは生成AI技術がエンターテイメント産業に本格的に導入される先駆けとなる可能性があります。

この技術がもたらす影響は広範囲に及ぶでしょう。個人クリエイターやマーケター、教育者など、様々な分野で創造的な表現が加速する一方で、VFX業界など既存の産業構造にも変革をもたらす可能性があります。特に、高額な予算や専門的な技術がなくても映画品質の映像制作が可能になることで、コンテンツ制作の民主化が進むことが期待されます。

一方で、生成AIによる映像制作の普及は、著作権や知的財産権の問題、偽情報の拡散リスク、クリエイティブ職の雇用への影響など、新たな課題も生み出す可能性があります。特に、リアルな映像と音声を簡単に生成できるようになることで、ディープフェイクなどの悪用リスクも懸念されます。

ShengShu社のCEO、Yihang Luo氏は「Vidu Q1は、ビデオ生成をよりスマートに、より表現力豊かに、よりアクセスしやすくするための重要な一歩です」と述べており、今後の展開が注目されます。

【用語解説】

生成AI動画（Generative AI Video）:
キストや画像から人工知能が自動的に動画を生成する技術。従来の映像制作では複数の専門家とソフトウェアが必要だったが、AIにより一般ユーザーでも高品質な動画制作が可能になっている。

First-to-Last Frameシステム:
2枚の無関係な画像（最初と最後のフレーム）を滑らかにつなぐ技術。例えるなら、「ドアが開く写真」と「アクションヒーローが戦うシーン」という全く異なる2枚の写真から、ドアを開けて戦闘シーンを見るような自然な流れの動画を自動生成できる技術。

マルチトラックレイヤリング:
複数の音声トラック（BGM、効果音、ナレーションなど）を重ねて配置する技術。例えば、波の音、風の音、鳥のさえずりを同時に再生しながら、特定のタイミングで雷の音を追加するといった複雑な音響効果を実現できる。

VFX（Visual Effects）:
視覚効果。実写映像に合成や特殊効果を加える技術。ハリウッド映画などで使われる高度な映像加工技術で、従来は専門チームと高額な予算が必要だった。

U-ViTアーキテクチャ:
Vidu Q1の基盤となる技術。高精度な一貫性と高解像度出力を実現するための独自の深層学習アーキテクチャ。

Multiple-Entity Consistency:
Vidu 1.5で導入された機能で、無関係な人物、物体、環境を1つのシームレスな動画に統合する技術。

【参考リンク】

ShengShu Technology公式サイト（外部）
Vidu Q1の公式サイト。無料クレジットを使って実際にAI動画生成を試すことができる。

Vidu Q1:（外部）
ShengShu社が開発した生成AI動画プラットフォーム。ブラウザベースで動画と音声の生成が可能。無料クレジットを提供しているが、より高度な利用やフル機能へのアクセスには有料サブスクリプションが必要。

【参考動画】

【編集部後記】

皆さん、AI動画生成技術の進化は目覚ましいですね。ShengShu社のVidu Q1のように、ブラウザだけで映画品質の動画と音声を生成できる時代が到来しています。あなたも創作活動に取り入れてみませんか？例えば、プレゼン資料や商品紹介、SNS投稿など、どんな場面でAI動画生成を活用できるか想像してみてください。まだ試したことがない方も、この機会に一度体験してみると、クリエイティブの可能性が広がるかもしれません。Vidu Q1は無料クレジットも提供しているので、気軽に試せますよ。皆さんのAI活用アイデアや実際に作成した作品があれば、ぜひSNSでシェアしてくださいね。innovaTopiaでは今後も最新のAI技術動向をお届けしていきます。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧