HappyHorse 1.1、Alibaba CloudがAPI提供開始─Sora撤退後の動画生成AI勢力図

「動画を撮る」から「動画を生成する」へ──その競争が、今いちばん熱い局面に入っています。OpenAIがSoraを畳み、各社が著作権リスクと向き合うなか、ByteDanceは矢継ぎ早に新型を投入し、GoogleはVeoで応戦。そこへAlibaba Cloudが「HappyHorse 1.1」をAPIで本格投入してきました。なぜ今このタイミングなのか。本番運用を見据えたこの一手の狙いを、技術と市場の両面から追いかけます。


Alibaba Cloud は、動画合成モデル「HappyHorse 1.1」を Alibaba Cloud Model Studio で正式に提供開始したと発表した。HappyHorse 1.1 の全機能は API 経由で利用でき、企業や開発者向けに統合ソリューションとして提供される。本リリースは主要なコンテンツ生成シーンを横断して最適化された、本番運用対応の動画合成を実現するものである。あわせて提供開始キャンペーンとして、最初の 2 週間、サイト全体を対象に 40% オフの割引が実施される。

From: 文献リンクAlibaba Cloud(@alibaba_cloud)「Introducing HappyHorse 1.1」

【編集部解説】

動画生成AIの勢力図は、この数か月で驚くほど書き換わりました。だからこそ、Alibaba Cloud が HappyHorse 1.1 を「API ですぐ組み込める本番運用向けの製品」として前面に出したことには、単なるバージョンアップ以上の意味があると私は見ています。

まず背景を押さえましょう。OpenAI の「Sora」は、採算面の懸念が報じられるなか、Web・アプリ版を4月26日に終了し、API も9月24日に停止予定です(終了日程は OpenAI 公式が告知しています)。報道では運用コストが1日あたり約100万ドル(約1億6000万円)、生涯収益は約210万ドル(約3億4000万円)にとどまったとされ、一部メディアは1日約1500万ドルとも伝えています。ただしこれらの収支は公式発表ではなく、あくまで報道・推計値である点には注意が必要です

もう一方の有力候補だった ByteDance の「Seedance 2.0」は、ハリウッド大手との著作権紛争を受け、国際展開で慎重な対応を迫られました(Reuters は、グローバル公開の計画が保留されたと報じています)。ただし開発そのものが止まったわけではなく、その後も新モデルの投入は続いています。欧米市場に向けては、Google の「Veo 3.1」が主要な対抗馬として残るという見方が広がっています。Sora が退場し、Seedance が国際展開で足踏みを強いられた、その隙間に本番運用向けの製品で滑り込んできたのが今回の発表というわけです。

では HappyHorse 1.1 で何ができるのか。テキストから動画、画像から動画、参照画像の被写体を活かした動画、そして動画編集まで含めた4モードを、単一の API でまかなえます。なお動画編集は1.0系から提供されている機能で、1.1の新規追加ではありません。1.1では動きの自然さや被写体の一貫性、指示への忠実さ、音声生成などが底上げされた、というのが公式の説明です。最大15秒・1080p の複数カット映像に、リップシンクや環境音といった音声を同時生成できる点が、現場の制作フローを大きく簡素化します。

技術面に少しだけ踏み込みます。第三者の解説情報によれば、HappyHorse は約150億パラメータ規模の Transformer で、テキスト・画像・動画・音声を一本の系列にまとめて処理する設計とされます。映像と音を別々のパイプラインで後付けする一般的な手法(Wan 系や HunyuanVideo などの拡散型/DiT 系)とは異なり、音と映像のズレを後処理ではなく生成の過程そのもので学習している、という解説が目立ちます。ただしパラメータ数や推論速度の具体値は公式の技術資料で裏取りできていないため、現時点では「報じられている設計思想」として受け止めるのが妥当です。

読者のみなさんにとっての実利は、やはりコストでしょう。HappyHorse は複数の第三者 API 経由でも提供されており、単価はサービスや解像度によって幅があります。そこに開始2週間の全体40%オフが乗るため、これまで「試作止まり」だった中堅企業や制作代理店でも、量産ラインに乗せられる射程に入ってきます。導入を検討する際は、利用するプラットフォームの最新の料金表で、解像度・尺・音声の有無ごとの単価を必ず確認してください。

ただし、明るい面ばかりではありません。Sora が行き詰まり、Seedance が国際展開で著作権の壁にぶつかった一因は、性能ではなく権利処理とコスト構造でした。HappyHorse も同じ落とし穴の手前に立っています。生成物の権利処理やディープフェイク・肖像権への配慮は、導入企業側にも相応の責任が生じる領域です。

加えて、Sora の終了が浮き彫りにしたのは、特定ベンダーに深く依存する怖さ、いわゆるベンダーロックインの問題でした。これはあくまで私の見立てですが、本番の制作パイプラインに組み込むほど、サービス停止や価格改定のリスクは無視できません。安さや速さだけでなく、継続性をどう担保するかという視点が、今後の選定では一段と重くなるでしょう。

規制と地政学も避けて通れません。中国発のモデルを欧米企業の制作現場に組み込むことには、データの取り扱いや輸出管理、コンプライアンスをめぐる論点がつきまといます。Alibaba Cloud Model Studio には関連する SLA やセキュリティ認証、コンプライアンス体制が整えられており、ここを固められるかが「研究デモ」と「業務インフラ」を分ける分水嶺になります。

長期で眺めると、市場は「API で品質と速度を売るクローズドな製品」と、重みを公開するオープンウェイト勢の二極に分かれていきそうです(Wan 2.2 や HunyuanVideo、LTX-2 などは公開モデル・重みを提供しています)。HappyHorse はあくまで前者の路線。Alibaba が3年で RMB3800億(約530億ドル)を AI・クラウドに投じると発表している追い風と、競合が場を去ったという時の利を、息の長い企業との関係に変えられるか──そこが、これから1年の見どころだと考えています。

【用語解説】

動画生成AI(動画合成/video synthesis)
テキストや画像などの指示から、映像を自動で作り出す技術である。HappyHorse は映像と音声を同時に生成できる点が特徴とされる。

4つの生成モード
テキストから動画(T2V)、画像から動画(I2V)、参照画像の被写体を活かす動画(S2V/R2V)、そして既存映像を編集する動画編集を指す。動画編集は1.0系から提供されており、1.1での新規追加ではない。

リップシンク
登場人物の口の動きと音声(セリフ)を一致させる処理を指す。HappyHorse は音声を同期生成できるとされる。

Transformer(単一系列での処理)
テキスト・画像・動画・音声を一本の系列にまとめて処理する設計を指す。第三者情報では、音声と映像のずれを後処理ではなく学習の過程で整える点が一般的な手法と異なるとされる。公式の技術詳細は未確認である。

拡散型(DiT/Diffusion Transformer)
動画生成で広く使われる主流のアーキテクチャである。Wan 系や HunyuanVideo などが該当し、HappyHorse はこれとは異なる方式を採るとされる。

オープンウェイト
モデルの「重み」を公開し、手元での実行や微調整を可能にする方針を指す。ローカル実行や微調整を求める開発者には、Wan 2.2 や HunyuanVideo、LTX-2 などの公開モデルが選択肢として残る。

ベンダーロックイン
特定の事業者のサービスに深く依存し、乗り換えが困難になる状態を指す。Sora の終了は、サービスの継続性をどう見込むかという論点を企業に突きつけた。

SLA(Service Level Agreement)
サービスの品質や稼働率を事業者が保証する取り決めを指す。Alibaba Cloud Model Studio には関連する SLA やコンプライアンス体制が整えられている。

【参考リンク】

Alibaba Cloud(公式サイト)(外部)
Alibabaのクラウド事業の公式サイト。生成AI基盤Model Studioや各種クラウド製品、技術文書への入り口となる総合ページである。

Alibaba Cloud ブログ|HappyHorse 1.0 限定ベータ提供開始(外部)
1.0発表記事。最大15秒・1080pの複数カット、音声同期出力、V2V/SV2Vの動画編集など基本仕様が開発元視点でまとまっている。

Alibaba Cloud Model Studio|関連規約・SLA(外部)
Model Studioの提供条件やSLA、関連規約をまとめた公式ページ。企業導入時のコンプライアンス確認に役立つ一次情報である。

OpenAI ヘルプ|Sora 提供終了に関する案内(外部)
SoraのWeb・アプリ版とAPIの終了時期をOpenAI自身が示した公式案内。終了日程の一次情報として参照できる。

Reuters|ByteDanceがSeedance 2.0の公開を著作権紛争後に保留(外部)
ByteDanceがSeedance 2.0のグローバル展開を保留したと報じる報道。競合の動向を確認できる信頼性の高い情報源。

【参考動画】

Alibaba Cloud 公式 YouTube チャンネルによる HappyHorse の紹介動画。1080p の映像品質や主要機能を、実際の生成例とともに確認できる。

【参考記事】

What to know about the Sora discontinuation(OpenAI)(外部)
SoraのWeb・アプリ版が4月26日、APIが9月24日に終了とOpenAIが明記。競合動向の日付を裏取りした一次情報である。

ByteDance suspends launch of video AI model after copyright disputes(Reuters)(外部)
ByteDanceがSeedance 2.0のグローバル展開を著作権紛争後に保留と報道。市場再編の文脈を支える信頼性の高い報道。

Alibaba to Invest RMB380 billion in AI and Cloud(Alibaba Group)(外部)
Alibabaが3年でRMB3800億(約530億ドル)をAI・クラウドに投じると発表。記事中のインフラ投資額の一次情報として参照した。

Alibaba Rolls Out HappyHorse 1.0 in Limited Beta(Alibaba Cloud)(外部)
1.0発表記事。最大15秒・1080pや音声同期出力、V2V/SV2Vの動画編集を確認。動画編集が1.0系から存在する根拠でもある。

Alibaba unveils HappyHorse 1.1, launches global AI filmmaking competition(TechNode)(外部)
1.1の発表と、動き・一貫性・音声などの強化点、AI動画コンペ開始を伝える当日付の報道。改善内容の把握に用いた。

Generate videos with Veo 3.1(Google AI for Developers)(外部)
Veo 3.1がGoogle公式APIで提供されるネイティブ音声付き動画生成モデルと確認。欧米勢の対抗馬を裏取りした一次情報。

【関連記事】

Alibaba Cloud、東京に5拠点目を開設|Model StudioとQwen3.7-Plusが日本リージョンで利用可能に(6/22)
HappyHorse が日本リージョンで「近日提供予定」と明記された記事。最も近い文脈で、相互リンクの価値が高い。

SeeGen AI正式ローンチ|Seedance 2.0搭載、AI動画生成はシーンをまたぐ時代へ(4/17)
HappyHorse 1.0 が「映像品質で首位だが API・重み未公開で実用面は別」と論じた記事。今回の「1.1でAPI提供開始」の意義が際立つ。

Seedance 2.5とは|火山引擎が披露した30秒AI動画生成モデルの実力と狙い(6/23)
同日の最大の競合動向。相互リンクで「勢力図」記事として補完し合える。

【編集部後記】

動画を「撮る」のではなく「生成する」時代が、思ったより早く現場に届きはじめています。Soraが静かに退場し、HappyHorseのような選択肢が前に出てくる──この入れ替わりを、みなさんはどう受け止めるでしょうか。もし自分の仕事や趣味で短い動画を作るとしたら、何を一番試してみたいですか。

私自身まだ答えを探している途中で、みなさんの視点からも一緒に考えられたらうれしいです。気になった点があれば、ぜひ聞かせてください。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。