Genmo社は2024年10月22日、オープンソースのAI動画生成モデル「Mochi 1(モチワン)」のプレビュー版をリリースしました。テキストプロンプトから短編動画を生成できる本モデルは、Apache 2.0ライセンスで公開され、研究者やデベロッパーが自由に利用・改良できることが特徴です。
主な技術仕様
- 100億パラメータの拡散モデルを採用
- AsymmDiT(非対称拡散トランスフォーマー)アーキテクチャを使用
- 30fpsで最大5.4秒の動画生成が可能
- 現行版は480p解像度
- 2024年内に720p対応のHD版をリリース予定
【編集部解説】
Mochi 1の特筆すべき技術的特徴は、AsymmDiTアーキテクチャの採用です。このアーキテクチャは、テキスト処理よりも視覚的な処理に4倍のパラメータを割り当てることで、より自然な動きの表現を実現しています。また、Video VAE(変分オートエンコーダー)の採用により、動画データを128分の1に圧縮することで、計算リソースの効率化を図っています。これにより、より多くのユーザーが利用できる環境を整えています。
開発企業について
Genmo Inc.(本社:サンフランシスコ)は、シリーズAラウンドで2,840万ドル(約42.6億円)を調達し、主要投資家にNEA(New Enterprise Associates)を迎えています。技術アドバイザーには、以下の著名な専門家が名を連ねています:
- Ion Stoica(Databricks共同創業者)
- Pieter Abbeel(Covariant共同創業者)
- Joey Gonzalez(言語モデルシステムの先駆者)
利用方法と今後の展開
現在、Mochi 1は以下の方法でアクセス可能です:
- Genmo公式プレイグラウンド(genmo.ai/play)での無料試用
- Hugging Faceでのモデル公開(開発者向け)
今後の展開として、2024年末までにHD版(720p)のリリースが予定されており、画像から動画を生成する機能の追加も計画されています。
産業への影響
Mochi 1の登場は、以下の分野に大きな影響を与えると予想されます:
- エンターテインメント
- コンセプト映像の迅速な制作
- アニメーションのプロトタイピング
- 教育
- 教材用動画の効率的な制作
- 視覚的な学習コンテンツの充実
- マーケティング
- 商品プロモーション動画の作成
- ソーシャルメディアコンテンツの生成
【編集者追記】やってみた
Genmo公式サイトからGoogleアカウントで登録して動画を生成してみました。

CHATGPTに「genmoで動画を生成してもらおうと思います。侵略者から地球を守るために可愛い猫が宇宙船に乗って飛び立つというプロンプトを書いてください」と言ってできたプロンプトを入力して出てきた動画がこちら!
宇宙なのに、耳が隠れてないww
一発でつくった割にはうまくできてますよね(自画自賛)
【編集者のつぶやき】未確認情報
「Mochi 1」という名称を使用したmochi1ai.comというサイトが存在しますが、これはGenmo社のMochi 1とは同じサービスである確信が持てなかったので、ここに未確認情報として追記しておきます。
FAQなどを見るとGenmoのサービスに言及していたりと関連する可能性が高いと考えられますが、生成できる動画には「This demo is for academic research and experiential use only」と書いてます。Apache 2.0ライセンスじゃない??
13か国語に対応したこのプラットフォームについても引き続きチェックしていきます。