innovaTopia

ーTech for Human Evolutionー

Google Cloud、Vertex AIに音楽生成AI「Lyria」を追加

Google Cloud、Vertex AIに音楽生成AI「Lyria」を追加 - 業界初の全メディア対応生成AIプラットフォームに - innovaTopia - (イノベトピア)

Last Updated on 2025-04-11 11:25 by admin

Google Cloudは2025年4月10日、生成AIプラットフォーム「Vertex AI」にテキストから音楽を生成するモデル「Lyria」をプレビュー版(アローリスト付き)として追加したことを発表しました。これにより、Vertex AIは動画、画像、音声、音楽のすべてのメディアモダリティをカバーする唯一の生成AIプラットフォームとなりました。

この統合により、ユーザーはテキストプロンプトから始めて、画像、完全な動画アセット、音楽、音声までを一貫して制作できるようになります。Lyriaは高品質な音声を生成し、様々な音楽ジャンルにわたる繊細なニュアンスを捉え、豊かで詳細な作曲を提供します。

同時に、既存の生成AIモデルも強化されました

Veo 2:動画生成モデルに新たな編集機能とカメラコントロール機能が追加され、インペインティング(不要なオブジェクトの除去)、アウトペインティング(フレームの拡張)、洗練された映画技術の実装、既存アセットの接続などが可能になりました。

Chirp 3:音声生成・理解モデルに「インスタントカスタムボイス」機能が追加され、10秒の音声入力から現実的なカスタムボイスを生成できるようになりました。また、「話者分離機能付き文字起こし」も追加され、複数話者の録音から個々の話者を正確に分離・識別できるようになりました。Chirp 3は35以上の言語で自然で現実的な音声を提供します。

Imagen 3:テキストから画像生成モデルの品質と編集機能が向上し、特に画像の欠損部分の再構築能力が大幅に改善されました。

これらのモデルはすべて、GoogleのAI原則に沿って安全性と責任を優先し、SynthIDによるデジタルウォーターマーキング、安全性フィルター、データガバナンスなどの予防措置が組み込まれています。また、業界初のアプローチとして、Googleは生成コンテンツに関する第三者の知的財産権(著作権を含む)に関する請求に対して補償を提供しています。

実際に、L’Oreal Groupe、Kraft Heinz、Goodby Silverstein & Partnersなどの大手企業がすでにこれらの生成AIモデルを活用しています。例えば、L’Oreal Groupeは20カ国・言語にわたるビデオと画像制作を拡大し、Kraft Heinzは従来8週間かかっていた制作プロセスを8時間に短縮しています。また、Goodby Silverstein & PartnersとThe Dalí Museumは、Veo 2とImagen 3を使用してサルバドール・ダリの未完の映画「馬に乗ったキリン(Giraffes on Horseback Salad)」のビジョンを実現しました。

from:Vertex AI is now the only platform with generative media models across video, image, speech, and music

【編集部解説】

Google Cloudが発表したVertex AIの拡張は、生成AIの世界に大きな一歩を記した出来事です。特に注目すべきは、テキストから音楽を生成する「Lyria」モデルの追加により、Vertex AIが業界で唯一、あらゆるメディア形式(動画、画像、音声、音楽)をカバーする総合的な生成AIプラットフォームになったという点でしょう。

これは単なる技術的進化ではなく、クリエイティブワークフローの根本的な変革を意味します。例えば、マーケティングチームはテキストプロンプトから始めて、ブランドに合った画像を生成し、それを動画に発展させ、さらに適切な音楽とナレーションを追加するという一連の制作プロセスを、単一のプラットフォーム上で完結させることが可能になりました。

特にLyriaの登場は音楽制作の民主化を促進する可能性があります。Lyriaは2023年11月にGoogle DeepMindチームによって最初に発表され、YouTubeのAI音楽実験で使用されてきましたが、今回のVertex AIへの統合により、より広範な企業ユーザーが利用できるようになります。高品質な音楽制作は従来、専門的な知識や高価な機材、著作権の問題などの障壁がありましたが、Lyriaはこれらの課題を解決し、企業が独自のサウンドトラックを簡単に作成できる環境を提供します。

また、Veo 2の編集機能の拡充は、動画制作のワークフローを大きく変える可能性を秘めています。インペインティング(不要なオブジェクトの除去)やアウトペインティング(フレームの拡張)機能により、後処理の手間を大幅に削減しながら、プロフェッショナルな品質の編集が可能になります。特に、異なるアスペクト比への適応(例:横向き動画を縦向きのソーシャルメディア用に変換)は、マルチプラットフォーム展開が必須となった現代のデジタルマーケティングにおいて非常に価値のある機能といえるでしょう。

Chirp 3の「インスタントカスタムボイス」機能も注目に値します。わずか10秒の音声入力から現実的なカスタムボイスを生成できる技術は、コールセンターのパーソナライズ化やアクセシブルなコンテンツ開発、一貫したブランドアイデンティティの維持に役立ちます。また、35以上の言語をサポートしていることで、グローバル展開を目指す企業にとって大きな価値があります。ただし、この機能の悪用を防ぐため、Googleは「適切な音声使用許可を確認するための厳格な調査」を含むアローリスティングプロセスを導入しています。

Googleが安全性と責任を重視していることも特筆すべき点です。SynthIDによるデジタルウォーターマーキングは、Imagen、Veo、Lyriaが生成するすべての画像、ビデオ、オーディオフレームに目に見えないウォーターマークを埋め込み、生成AIコンテンツの透明性を確保し、誤情報の拡散防止に貢献します。これはAdobeのContent Credentials systemに類似したアプローチですが、Adobeが「ライセンスされたコンテンツとパブリックドメインのコンテンツのみでトレーニングされている」と主張しているのに対し、Googleは膨大なウェブデータを使用したトレーニング方法のため、同様の主張はできないという違いがあります。

また、第三者の知的財産権に関する補償を提供する姿勢は、企業が生成AIを安心して採用するための重要な後押しとなるでしょう。著作権に関する懸念は生成AIの大きな課題の一つであり、Googleの補償アプローチは業界初の取り組みとして注目されています。

実際の活用事例も興味深いものがあります。L’Oreal Groupeは20カ国・言語にわたるビデオと画像制作を拡大し、Kraft Heinzは従来8週間かかっていた制作プロセスを8時間に短縮しています。また、Goodby Silverstein & PartnersとThe Dalí Museumは、Veo 2とImagen 3を使用してサルバドール・ダリの未完の映画「馬に乗ったキリン(Giraffes on Horseback Salad)」のビジョンを実現しました。これらの事例は、生成AIが単なる実験的技術ではなく、実際のビジネス成果を推進する強力なツールとなっていることを示しています。

しかし、このような技術の進化には潜在的なリスクも存在します。特に、音声クローニング技術は悪用されれば詐欺や偽情報の拡散に利用される可能性があります。Googleはこれらのリスクを認識し、「責任ある使用を確保するため」の安全機能を組み込んでいますが、技術の進化に伴い、規制や倫理的ガイドラインの整備も重要になってくるでしょう。

長期的には、これらの技術は創造的な職業の性質を変える可能性があります。しかし、完全な代替というよりは、クリエイターの能力を拡張し、より多くの人々が高品質なコンテンツを作成できるようにする方向に進むと考えられます。L’Oreal Groupeのマネージャーが述べているように、これらのモデルは「強力な創造的パートナーとして機能」し、「創造性へのアプローチ方法を変える」ものとなるでしょう。

今後、AmazonのBedrockをはじめとする競合プラットフォームも同様の機能を提供していくことが予想されます。企業はこれらの技術を活用してコンテンツ制作の効率を高め、新たな創造的可能性を探求していくことになるでしょう。私たちinnovaTopiaも、これらの技術の進化を注視し、読者の皆様に最新の情報と洞察をお届けしていきます。

【用語解説】

Vertex AI
Googleが提供する機械学習プラットフォーム。様々なAIモデルを統合的に利用できる環境を提供しており、企業がAIを導入・活用するための基盤となる。

Lyria
Googleが開発したテキストから音楽を生成するAIモデル。ユーザーが入力した文章から、その内容に合った音楽を自動生成する。

Veo 2
Googleの高度な動画生成AIモデル。テキスト入力から高品質な動画を生成したり、既存の動画を編集したりできる。「言葉だけで映像制作ができる仮想映像ディレクター」のような存在。

Chirp 3
Googleの音声生成・理解モデル。テキストから自然な音声を生成したり、音声を認識して文字に起こしたりする。35以上の言語に対応し、わずか10秒の音声サンプルから個人の声を模倣することも可能。

Imagen 3
Googleのテキストから画像を生成するAIモデル。詳細なテキスト指示から高品質な画像を生成し、既存画像の編集も可能。

インペインティング:画像や動画の一部を選択して、AIが周囲の内容に合わせて自然に修正・置換する技術。

アウトペインティング:既存の画像や動画の外側に新たな内容を拡張する技術。例えば横長の写真を縦長のSNS投稿用に変換する際、上下に自然な背景を追加できる。「キャンバスを広げて絵を続きを描く」ようなイメージ。

SynthID:GoogleのAI生成コンテンツに目に見えない電子透かしを埋め込む技術。AIで作られた画像、動画、音声であることを識別できるようにする。

アローリスト(Allowlist):特定のサービスやツールへのアクセスを許可されたユーザーのリスト。一般公開前に限定ユーザーのみが利用できる状態を指す。

【参考リンク】

Google Cloud(外部)
Googleが提供するクラウドコンピューティングサービス。Vertex AIを含む様々なAIサービスやクラウドインフラを企業向けに提供している。

Vertex AI(外部)
Googleのエンタープライズ向け統合機械学習プラットフォーム。様々なAIモデルを開発・デプロイ・管理できる。

Google DeepMind(外部)
Googleの先端AI研究部門。Lyria、Veo、Imagen、Chirpなどの先進的なAIモデルを開発している。

L’Oreal Groupe(外部)
世界最大の化粧品会社。Vertex AIのVeoとImagenを活用して、マーケティングコンテンツ制作を効率化している。

Kraft Heinz(外部)
世界的な食品メーカー。Tastemakerプラットフォームを通じてVeo 2とImagen 3を活用し、クリエイティブワークフローを加速している。

Goodby Silverstein & Partners(外部)
アメリカの広告代理店。Veo 2とImagen 3を使用してサルバドール・ダリの未完の映画「馬に乗ったキリン」を実現した。

【編集部後記】

生成AIの進化が加速する中、Google CloudのVertex AIが実現した「全メディア対応」の可能性に、皆さんはどのような未来を描かれますか? マーケティング担当者として新しいブランド体験を創出するアイデアが湧いてきませんか?あるいは、クリエイターとして制作の効率化や表現の幅を広げるヒントが見えてきませんか? 音楽、動画、画像、音声を一貫して生成できる時代に、皆さんのビジネスやクリエイティブワークはどう変わるでしょうか。ぜひSNSで皆さんの視点をシェアしていただければ嬉しいです。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

author avatar
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com
ホーム » AI(人工知能) » AI(人工知能)ニュース » Google Cloud、Vertex AIに音楽生成AI「Lyria」を追加