2024年12月17日、GoogleはAI画像生成ツール「Whisk」を発表した。Whiskの特徴は、テキストではなく画像をプロンプトとして使用できる点だ。ユーザーは被写体、シーン、スタイルの3要素に対して画像を提供し、AIが新たな画像を生成する。
Whiskは最新のImagen 3モデルを使用している。Google AI研究者のダグラス・エック氏によると、Imagen 3は前バージョンと比較して画像生成の品質が大幅に向上しているという。
同時に、Googleはビデオ生成AI「Veo 2」も発表した。Veo 2は映像制作の専門知識を理解し、OpenAIのSoraなど他のモデルと比較して、余分な指などの不自然な要素を生成する頻度が低いとされる。
Veo 2は、まずGoogleのVideoFXで利用可能となる。VideoFXは現在Google Labsのウェイトリストで申し込みを受け付けている。2025年にはYouTube Shortsやその他のGoogle製品にも導入される予定だ。
これらの発表は、OpenAIやMeta、Anthropicなど他のAI企業との競争が激化する中で行われた。市場調査会社Statista社によると、生成AIの世界市場規模は2024年に約320億ドルに達し、2030年までに1,260億ドルに成長すると予測されている。
from:Google’s Whisk AI generator will ‘remix’ the pictures you plug in
【編集部解説】
GoogleがWhiskという新しいAI画像生成ツールを発表したことは、AIの創造性と使いやすさの向上を示す重要な一歩です。従来のテキストベースのプロンプトに代わり、画像をプロンプトとして使用できる点が革新的です。
Whiskの特徴は、被写体、シーン、スタイルという3つの要素を画像で指定できることです。これにより、ユーザーは直感的に自分のアイデアを表現できるようになります。例えば、自分の写真を被写体として、未来的な風景をシーンとして、アニメ風のスタイルを指定することで、全く新しい作品を生み出すことができます。
技術面では、WhiskはGoogleの最新の画像生成モデルImagen 3と、言語モデルGeminiを組み合わせています。Geminiが入力画像の詳細な説明を生成し、それをImagen 3が新しい画像の生成に活用するという仕組みです。
Whiskの登場は、クリエイティブ業界に大きな影響を与える可能性があります。デザイナーやアーティストにとって、アイデアの可視化や新しい表現方法の探索が容易になるでしょう。また、一般ユーザーにとっても、高度なデザインスキルがなくても独自の視覚表現が可能になります。
しかし、この技術にはポテンシャルとともにリスクも存在します。著作権の問題や、AIによる創作物の帰属の問題など、法的・倫理的な課題が浮上する可能性があります。また、人間の創造性とAIの関係性についても、新たな議論を呼ぶかもしれません。
長期的には、Whiskのような技術が進化することで、視覚コミュニケーションの在り方が大きく変わる可能性があります。個人が簡単に高品質な視覚コンテンツを作成できるようになれば、メディアや広告業界にも変革をもたらすかもしれません。
Googleは安全性にも配慮しており、有害なコンテンツの生成を防ぐためのフィルタリングや、SynthIDという電子透かしを導入しています。これは、AI生成コンテンツの透明性と追跡可能性を確保する上で重要な取り組みです。
現在、WhiskはGoogle Labsを通じてアメリカ国内でのみ試用可能です。今後、世界中のユーザーがこの技術を体験し、フィードバックを提供することで、さらなる進化が期待されます。

私たちinnovaTopiaは、このような技術の進歩を注意深く見守り、その可能性と課題について読者の皆様に情報を提供し続けていきます。Whiskのような革新的なツールが、人間の創造性をどのように拡張し、社会にどのような影響を与えるのか、今後も注目していく必要があるでしょう。