innovaTopia

ーTech for Human Evolutionー

Googleの「Imagen 3」開発、テキストから高品質画像生成への飛躍

 - innovaTopia - (イノベトピア)

Last Updated on 2024-05-17 08:13 by admin

Googleは、テキストから画像を生成するモデル「Imagen 3」を開発中であると発表した。この新モデルは、以前のバージョンよりも高いレベルの詳細性を提供し、自然言語の理解が向上し、テキストのレンダリングが改善されている。Imagen 3は、選ばれたクリエイターによるプライベートプレビューで利用可能であり、開発者はウェイティングリストに登録することができる。また、Vertex AIでも利用可能になる予定である。

Google DeepMindのシニアリサーチディレクターであるDouglas Eckは、Imagen 3がこれまでで最も能力の高い画像生成モデルであると述べている。このモデルは、よりフォトリアリスティックで、豊かな詳細を持ち、視覚的なアーティファクトや歪んだ画像が少ない。また、人々が書くようなプロンプトを理解し、より創造的で詳細なプロンプトほど良い結果をもたらす。さらに、長いプロンプトにおいても小さな詳細を取り入れることを忘れない。これまでのモデルでは課題であったテキストのレンダリングにおいても、最高の性能を実現している。

Googleは、Imagen 2を一般公開してから6ヶ月後に今回のモデルを発表した。また、4月にはテキストからライブ映像を生成する機能をモデルに追加した。しかし、AI分野の競争者が多い中で、Googleがこの分野でリードを保つためには、このような開発が重要である。OpenAIのDALL-E、Midjourney、AdobeのFirefly、MetaのAI、MicrosoftのDesignerなど、多くの競合他社が画像生成ツールを持っている。

一方で、GoogleのAIは、アメリカ建国の父を黒人男性として描いたり、第二次世界大戦のドイツ兵を黒人男性とアジア女性として生成したりするなど、批判にさらされたこともある。Googleはこの問題について謝罪し、CEOのSundar Pichaiもこのメッセージを繰り返した。

【編集者追記】用語解説

  • テキストから画像を生成するモデル:テキストの入力から、そのテキストの内容を表現する画像を生成するAIモデルのことです。自然言語処理と画像生成を組み合わせた技術で、近年急速に発展しています。
  • Imagen:GoogleのテキストからリアルなHD画像を生成するAIシステムです。2022年5月に発表され、高い画質と表現力が注目されています。
  • DALL-E、Stable Diffusion、Midjourney:OpenAI、Stability AI、Midjourneyが開発したテキスト・トゥ・イメージモデルで、Imagenと並ぶ代表的なシステムです。それぞれ特徴がありますが、どれも自然言語の入力から質の高い画像生成を可能にしています。

【参考リンク】
Imagenオフィシャルサイト(外部)

【関連記事】
Imagenに関する記事をinnovaTopiaでもっと読む

【ニュース解説】

Googleが開発中の「Imagen 3」というテキストから画像を生成する最新モデルは、これまでにない高品質な画像生成能力を持つとされています。このモデルは、よりリアルな画像を生成し、自然言語の理解が向上しており、テキストのレンダリングも改善されています。選ばれたクリエイターによるプライベートプレビューで利用可能であり、将来的にはVertex AIでの利用も予定されています。

Imagen 3の開発は、AI技術における画像生成分野での競争が激化している中で行われています。Googleは、OpenAIのDALL-EやAdobeのFireflyなど、他の企業が開発する画像生成ツールとの競争において、技術的なリードを保持しようとしています。このモデルは、より詳細で創造的なプロンプトに対しても、高品質な画像を生成する能力を持ち、これまでのモデルで課題とされていたテキストのレンダリングにおいても、顕著な改善が見られます。

しかし、GoogleのAI技術は過去に、生成された画像の内容に関して批判を受けたこともあります。特に、歴史的な人物や出来事を表現する際の画像生成において、不適切な表現が問題となった例があります。これに対してGoogleは謝罪し、CEOのSundar Pichaiもこの問題に対するメッセージを発信しています。

この技術のポジティブな側面としては、クリエイティブな分野での応用が期待されます。例えば、デザイナーやアーティストが思い描くビジョンを、より簡単に、そして高品質な画像として具現化できるようになります。また、教育や研究分野での利用も考えられ、複雑な概念や歴史的なシーンを視覚化する手段として活用できるでしょう。

一方で、この技術には潜在的なリスクも存在します。生成された画像が現実と区別がつかないほどリアルになることで、偽情報の拡散やプライバシーの侵害など、新たな問題が生じる可能性があります。また、著作権や肖像権などの法的な問題も、今後の課題となるでしょう。

規制に与える影響としては、AIによるコンテンツ生成に関するガイドラインや法律が、今後さらに整備される必要があるかもしれません。特に、生成されたコンテンツの使用に関する倫理的な基準や、不適切なコンテンツの取り扱いについて、明確な規制が求められることになるでしょう。

将来への影響としては、Imagen 3のような高度な画像生成モデルが一般に広く利用されるようになると、クリエイティブな作業のプロセスが大きく変化する可能性があります。また、この技術の発展は、AIの能力とその応用範囲をさらに拡大させることになり、長期的には人間とAIの関係性にも大きな影響を与えるかもしれません。

from Google introduces Imagen 3, its highest-quality text-to-image model, available in private preview.

ホーム » AI(人工知能) » AI(人工知能)ニュース » Googleの「Imagen 3」開発、テキストから高品質画像生成への飛躍

“Googleの「Imagen 3」開発、テキストから高品質画像生成への飛躍” への2件のフィードバック

  1. Bogeyのアバター
    Bogey

    いずれ、美しい景色を探しに世界各地に行かなくても好きなだけ望んでいる画像がデスクトップで作られることになる。
    将来的な影響は大きい、カメラ業界とか画像の販売業界まで。むろん画像関係に従事している方も。
    これまでの「写真はその場所に足を運んで、時を待って撮る」という原始的な手法が半減するかもしれない。(本当はそれが良かったけれど)
    ※記事の文中、「開発者はウェイトリストに登録することができる」という部分は翻訳ミスではないか?

    1. 荒木啓介@Webmasterのアバター
      荒木啓介@Webmaster

      コメント、ありがとうございます。
      この記事を読んだだけでは「美しい景色を探しに世界各地に行かなくても~」という将来を想像できませんでしたが、確かにそうですね。
      Imagen 3が人間の脳内から生み出される美をどこまで表現してくれるのか・・とても楽しみです。

      ご指摘のあった原文は以下ですね。
      It’s available for select creators in private preview in ImageFX, but developers can sign up for a waitlist.
      ウェイトリストと訳しているところ、ウェイティングリストに修正いたしました。