ーTech for Human Evolutionー

Runway Characters発表―写真1枚で会話するAIアバター、24fps・応答1.75秒の衝撃

AI（人工知能）ニュース｜テクノロジーとエンタメニュース｜テクノロジーと社会ニュース｜テクノロジーと経済ニュース

Headline News

TaTsu

[公開]

2026年5月7日6:30

Runway Characters発表―写真1枚で会話するAIアバター、24fps・応答1.75秒の衝撃 - innovaTopia

Runwayが2026年5月4日、リアルタイム会話型ビデオエージェント「Runway Characters」の技術詳細を公開しました。同社のGeneral World Model「GWM-1」を基盤とし、1枚の参照画像からHD画質24fpsで会話する動画キャラクターを生成します。

フレームあたりのモデル処理時間は実効37ms、ユーザーの発話終了からキャラクターの応答開始までのサーバーサイド往復時間は1.75秒で、内訳は音声エージェントが1185ms、ビデオパイプラインが567msです。Distribution Matching Distillation、CUDA Graphs、CuteDSL Flash Attention 4などの最適化を採用し、機能としてVision、Custom Voice、Tool Calling、Knowledge base、Embeddable widget、Zoom・Google Meet・Microsoft Teamsへの統合を備えています。

Runway APIおよびRunwayのWeb・モバイルアプリで提供されます。

From: Runway News | Building Real-Time Video Agent from a Single Image with Runway Characters

【編集部解説】

今回の発表は、Runwayが2025年12月に公開したGeneral World Model「GWM-1」と、その派生版である「GWM Avatars」を基盤に、2026年3月から段階的に提供してきた「Runway Characters」の技術アーキテクチャを、研究・エンジニアリングチーム自身が公式に開示したものです。3月の発表時点では「何ができるか」が語られましたが、今回のポストでは「どうやって実現したか」が数値とともに明かされている点が、読者にとっての価値だと感じます。

ポイントは、24fpsという数値の意味です。映画やテレビが体感的に「動いている」と感じる下限がおおよそ24fpsで、これより低いとカクつきが知覚されます。HD画質24fpsの映像を、しかも会話の往復の中で生成するには、1フレームあたり約42msという厳しい予算をクリアする必要があります。Runwayはここを実効37msで通しているため、技術的には「映像生成」というより「リアルタイムレンダリング」の領域に踏み込んだといえる水準です。

これを可能にしている工夫が、ディフュージョン処理とVAEデコーダーをパイプライン分割で並列化する手法です。本来なら直列で積み上がる処理時間を、計算と復号を重ね合わせることで実質的に短縮しています。Distribution Matching Distillation(DMD)による反復ステップ削減や、Flash Attention 4などの低レイヤー最適化も、この成果を支える重要なピースです。

ただし、ユーザーが体感する遅延である1.75秒の内訳を見ると、ビデオパイプラインは567msに収まっている一方、音声エージェント側に1185msかかっています。Runway自身も「これ以上の短縮の最大のレバーは音声エージェント」と認めており、競合のTavusが1秒未満のレイテンシを謳っている点を考えれば、ここはまだ伸びしろがある領域です。

機能面で注目したいのは、Vision、Tool Calling、Knowledge base、そしてZoom・Google Meet・Microsoft Teamsへの統合です。これは「動く顔の生成器」を超えて、業務フローに溶け込む対話型エージェントを目指しているという宣言に近いと受け取れます。BBCやSilversideといった早期パートナーが採用していることからも、報道・教育・カスタマーサポート領域での実用が射程に入っていることがうかがえます。

ポジティブな側面としては、参考画像1枚から多様なビジュアルスタイルのアバターを即時に立ち上げられるため、これまで予算的にアバター活用が難しかった中小企業や教育機関、自治体にも間口が広がります。ブランドマスコットを「会話できる存在」に変えるマーケティング活用や、家庭教師アバターによる個別最適化された学習支援は、すぐにでも芽を出しそうな領域でしょう。

一方で、リスクは見過ごせません。本人の同意なく顔写真からアバターを生成すれば、ディープフェイクや詐欺、なりすましに直結します。Runway自身も発表とほぼ同時期に「Building Interactive AI Characters Responsibly」というポストを公開し、この問題に向き合う姿勢を示していますが、技術が普及する速度に倫理ガイドラインや法制度が追いつくかは、社会全体で問われ続けるテーマです。

規制への影響も無視できません。EUのAI Actや日本の「AI事業者ガイドライン」は、AI生成コンテンツの開示義務や、対話している相手がAIであることを明示する責務を企業に求めつつあります。リアルタイムで人間と見分けがつきにくい対話相手が日常化すれば、「これはAIです」という告知をどう設計するかが、UI/UXの新しい必須要件になっていく可能性が高いと考えます。

長期的な視点では、Runwayが繰り返し主張する「インターネットの次の形は、テキストボックスではなく、リアルタイムで生成される動画とキャラクターである」という構想が、いよいよ実装段階に入ったと捉えられます。検索エンジンから対話型AIへの移行が前段だったとすれば、ここからは「対話型AIから、顔と声を持った存在へ」という第二の移行期に差し掛かっているのかもしれません。私たちの「未来を知りたい、触りたい、関わりたい」という欲求に対し、画面の向こう側が少しずつ「人格」を持ち始めている、という実感を覚える発表でした。

【用語解説】

General World Model(汎用ワールドモデル)
環境の内部表現を学習し、その中で未来の出来事をシミュレートするAIシステムのことだ。Runwayは映像生成モデルGen-4.5を基盤として、フレーム単位で逐次的に生成する自己回帰型のGWM-1を構築している。

自己回帰生成(Autoregressive Generation)
クリップ全体を一度に生成するのではなく、過去のフレームと制御入力をもとに、次のフレームを1枚ずつ順番に生成する方式である。リアルタイムでの応答性に優れ、対話的な制御に向く。

ディフュージョン(拡散)モデルとVAEデコーダー
ディフュージョンモデルはノイズから徐々に画像を復元するように学習された生成モデルで、VAE(変分オートエンコーダ)デコーダーは圧縮された潜在表現をピクセル画像に戻す役割を担う。Runwayはこの2つを別デバイスで並列実行することで、処理時間の重ね合わせを実現している。

Distribution Matching Distillation(DMD)
Flow Matchingという生成手法では本来多数の反復ステップが必要となるところを、生徒モデルが教師モデルの出力分布を真似ることで、ステップ数を大幅に削減する蒸留技法だ。リアルタイム生成に不可欠な高速化要素である。

KVキャッシュ(Key-Value Cache)
TransformerモデルがAttention計算で再利用するためにキー・バリューを保存しておく仕組みである。自己回帰でフレームを重ねるほど膨張するため、効率的な追い出しと圧縮が時間的一貫性とスループットを両立する鍵となる。

CUDA Graphsとカーネル最適化
CUDA GraphsはNVIDIA GPU上で一連の処理を「静的なグラフ」としてキャプチャし、カーネル起動オーバーヘッドを削減する仕組みである。Flash Attention 4やTritonによる融合カーネルは、AttentionやMatmul演算をハードウェア特性に合わせて最適化する低レイヤーの技法だ。

Genie-3
Googleが開発するワールドモデルの一つで、リアルタイム制御可能な3Dビデオゲーム的環境を生成する。Runway GWM-1の主要な比較対象として位置付けられている。

ディープフェイク
AIによって生成・改変された、本物と見分けがつきにくい人物の映像や音声のこと。リアルタイムアバター技術の進展に伴い、なりすまし詐欺や名誉毀損への悪用リスクが指摘されている。

EU AI Act
2024年に成立した欧州連合の包括的AI規制法で、AI生成コンテンツへの開示義務や、対話相手がAIであることを明示する責務などを企業に課している。

【参考リンク】

Runway 公式サイト(外部)
動画生成AI「Gen-4.5」やワールドモデル「GWM-1」を提供する米国のAI企業。Runway Charactersの開発元である。

Runway Characters 製品ページ(外部)
リアルタイム会話型ビデオエージェントの製品紹介ページ。デモ映像や利用シーンの説明が確認できる。

Runway GWM-1 リサーチページ(外部)
2025年12月に発表されたGeneral World Modelの公式解説。3つのバリアントについて詳述されている。

Runway 開発者プラットフォーム(外部)
Runway Characters APIを含む各種APIの開発者向けポータル。ドキュメントとSDKが提供されている。

Silverside AI 公式サイト(外部)
サンフランシスコ拠点のAIマーケティングイノベーションラボ。Runway Charactersの早期パートナーである。

BBC 公式サイト(外部)
英国の公共放送局。Runway Charactersの早期導入企業の1社として報じられている。

Tavus 公式サイト(外部)
リアルタイム会話型AIヒューマン「CVI」を提供する競合企業。1秒未満のレイテンシを謳っている。

Zoom 公式サイト(外部)
Runway Charactersのミーティング統合機能の対応プラットフォームの一つ。

Google Meet 公式サイト(外部)
Googleが提供するビデオ会議サービス。Runway Charactersの統合対応プラットフォーム。

Microsoft Teams 公式サイト(外部)
Microsoftが提供する企業向けコラボレーションツール。Runway Charactersの統合対応プラットフォーム。

【参考記事】

Runway News | Introducing Runway Characters(外部)
2026年3月公開のRunway Characters発表第一報。GWM-1基盤やファインチューニング不要などの製品概要が記載されている。

Runway News | Building Interactive AI Characters Responsibly(外部)
Runwayが公開したリアルタイムAIキャラクター技術の悪用リスクと安全対策に関する公式ポスト。

Runway launches GWM-1 models for worlds simulation, robotics, and avatar creation(外部)
Data PhoenixによるGWM-1発表報道。720p解像度で24fps出力、3バリアント展開などが整理されている。

Runway releases its first world model, adds native audio to latest video model(外部)
TechCrunchによるGWM-1発表報道。GoogleのGenie-3との比較やGen-4.5の評価が言及されている。

Runway’s GWM-1 Models Generate Videos With Consistent Physics(外部)
DeepLearning.AIによる解説記事。最大2分・1280×720・24fps出力や自己回帰アプローチが詳述されている。

The top 3 HeyGen alternatives – Tavus(外部)
Tavusによる競合比較記事。CVIが1秒未満のレイテンシを実現していると主張しており、比較対象として参考になる。

【関連記事】

RunwayのGen 4.5、GoogleとOpenAIを上回りAI動画生成で首位獲得
今回のRunway Charactersの基盤となるGen-4.5の発表記事。Video Arenaで首位獲得時の文脈とGWMにも言及している。

RunwayのGen 4.5、GoogleとOpenAIを上回りAI動画生成で首位獲得

AI動画生成スタートアップRunwayが新モデルGen 4.5を発表。独立ベンチマークVideo ArenaでEloスコア1,247点を記録し首位に。GoogleのVeo 3（1,226点）…

innovaTopia -（イノベトピア） – …

Runway Gen-4、AIビデオ制作の最大の壁「キャラクター一貫性」を突破
「1枚の参照画像からキャラクターを一貫して生成する」というRunwayの思想を扱った記事。Charactersの前史を理解する補助になる。

Runway Gen-4、AIビデオ制作の最大の壁「キャラクター一貫性」を突破 – 映像制作の未来が変わる

Runway AIが革新的なAIビデオ生成モデル「Gen-4」を発表。AIビデオ制作最大の課題だった「キャラクター一貫性」を解決し、複数のシーンを通して同一の…

innovaTopia -（イノベトピア） – …

Google「ワールドモデル」戦略でAI覇権争い激化
Runwayの主要な比較対象であるGoogle Genie-3を含むワールドモデル戦略を解説。今回の競合文脈を補強する内容。

Google「ワールドモデル」戦略でAI覇権争い激化 – Gemini 2.5で月間480兆トークン処理、Microsoft・OpenAI…

GoogleがI/O 2025で「ワールドモデル」戦略を発表。Gemini 2.5で月間480兆トークン処理、700万開発者が利用する規模に成長。物理法則を理解するAI開発…

innovaTopia -（イノベトピア） – …

NoLang、写真1枚でリアルアバター生成機能を搭載
「写真1枚からアバター生成」という同コンセプトを日本市場で提供する事例。HeyGenやD-IDなど主要プレイヤーにも触れている。

NoLang、写真1枚でリアルアバター生成機能を搭載──Mavericksが動画制作の新時代を切り拓く

株式会社Mavericksが動画生成AI「NoLang」にリアルアバター機能を搭載。写真1枚から本人そっくりのアバターを生成し、約1分の音声でボイスクローンも…

innovaTopia -（イノベトピア） – …

xAI「Custom Voices」発表 1分の音声で本人クローン
Runway Characters発表の前日に公開された声のクローン技術記事。アイデンティティとなりすましのテーマで対比される。

xAI「Custom Voices」発表 1分の音声で本人クローン、二段階検証で他人の声を構造的に防ぐ

xAIは2026年4月30日、Grokの新機能「Custom Voices」を発表。約1分の録音で2分以内に音声クローンが完成し、TTSとVoice Agent APIで利用可能。二段階…

innovaTopia -（イノベトピア） – …

【編集部後記】

画面の向こうの「相手」が、AIで生成された動く顔と声を持ち始めたとき、私たちはそれをどう受け止めるでしょうか。Runway Charactersが切り開く世界は、便利さとともに、本物と作り物の境界線について新しい問いを投げかけてきます。

もし1枚の写真から自分のアバターを作れるとしたら、何に使ってみたいでしょうか。逆に、知らないうちに自分の顔が誰かのアバターになっていたら、どう感じるでしょうか。この技術と上手に付き合っていく距離感を、私自身もまだ探っている最中です。よければ皆さんの感じたことを聞かせてください。

AI（人工知能）ニュース｜テクノロジーとエンタメニュース｜テクノロジーと社会ニュース｜テクノロジーと経済ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧