Last Updated on 2024-02-07 by admin
Appleは、自然言語の指示に基づいて画像を編集できる革新的なオープンソースAIモデル「MGIE」を発表しました。MGIEは、MLLM(多モーダル大規模言語モデル)を活用してユーザーのコマンドを解釈し、ピクセルレベルでの操作を実行します。このモデルは、Photoshopスタイルの修正、全体的な写真の最適化、局所的な編集など、さまざまな編集アスペクトを扱うことができます。MGIEは、Appleとカリフォルニア大学サンタバーバラ校の研究者との共同研究の成果です。このモデルは、AI研究のトップ会議である国際学習表現会議(ICLR)2024で受理された論文で紹介されました。論文では、MGIEが自動メトリックスと人間の評価を改善し、競争力のある推論効率を維持することを示しています。
MGIEは、テキストと画像の両方を処理できる強力なAIモデルであるMLLMを使用して、指示に基づく画像編集を強化するというアイデアに基づいています。MLLMは、クロスモーダル理解と視覚認識応答生成において顕著な能力を示していますが、画像編集タスクに広く適用されていませんでした。MGIEは、MLLMを画像編集プロセスに2つの方法で統合します。まず、ユーザー入力から表現力豊かな指示を導き出すためにMLLMを使用します。これらの指示は簡潔で明確であり、編集プロセスに対する明確なガイダンスを提供します。次に、MLLMを使用して視覚的想像力を生成します。これは、望ましい編集の潜在的な表現であり、ピクセルレベルの操作をガイドするために使用されます。MGIEは、指示導出、視覚的想像力、および画像編集モジュールを共同で最適化する新しいエンドツーエンドのトレーニングスキームを使用します。
MGIEは、シンプルな色調整から複雑なオブジェクト操作まで、幅広い編集シナリオを扱うことができます。このモデルは、ユーザーの好みに応じて、グローバルおよびローカルの編集を実行することもできます。MGIEはGitHub上でオープンソースプロジェクトとして利用可能で、コード、データ、事前訓練済みモデルを提供しています。プロジェクトは、さまざまな編集タスクにMGIEを使用する方法を示すデモノートブックも提供しています。MGIEは、Hugging Face Spaces上でホストされているWebデモを通じてオンラインで試すこともできます。MGIEは、使用が簡単でカスタマイズが柔軟であり、自然言語の指示を提供するだけで画像を編集し、導き出された指示とともに編集された画像を生成します。
【ニュース解説】
Appleが開発した「MGIE」という新しいオープンソースAIモデルは、自然言語の指示に基づいて画像を編集することができる革新的な技術です。このモデルは、多モーダル大規模言語モデル(MLLM)を活用して、ユーザーからの指示を解釈し、画像のピクセルレベルでの操作を実行します。これにより、Photoshopスタイルの修正から全体的な写真の最適化、局所的な編集まで、幅広い編集が可能になります。
MGIEの特徴は、テキストと画像の両方を理解できるMLLMを使用している点にあります。これまでMLLMは、クロスモーダル理解や視覚認識応答生成において優れた能力を示してきましたが、画像編集にはあまり活用されていませんでした。MGIEはこのMLLMを2つの方法で画像編集プロセスに統合します。一つ目は、ユーザーの入力から編集のための明確な指示を導き出すこと、二つ目は、望ましい編集の潜在的な表現である視覚的想像力を生成することです。これにより、編集プロセスがより直感的で効果的になります。
MGIEの応用範囲は広く、色調整からオブジェクトの操作まで、ユーザーのニーズに応じた多様な編集が可能です。また、GitHubでオープンソースプロジェクトとして公開されており、誰でもアクセスして使用することができます。これにより、個人のクリエイティブな活動だけでなく、ソーシャルメディア、eコマース、教育、エンターテイメント、アートなど、様々な分野での画像作成や最適化に貢献することが期待されます。
MGIEの開発は、AIと人間のクリエイティビティの間の新たな可能性を開くものであり、画像編集におけるクロスモーダルなインタラクションとコミュニケーションを強化します。しかし、このような多モーダルAIシステムのさらなる改善には、今後も多くの研究と開発が必要です。MGIEのようなアシスティブAIが、クリエイティブなサイドキックとして不可欠な存在になる日も遠くないかもしれません。
一方で、この技術の普及に伴い、画像の真偽を判断することが難しくなるなど、新たな課題も生じる可能性があります。また、著作権やプライバシーの問題も考慮する必要があります。これらの課題に対処するためには、技術の進歩と同時に、適切な規制やガイドラインの整備が求められます。MGIEの登場は、AI技術の進化がもたらすポジティブな影響とともに、社会的な対話と倫理的な考察を促す機会を提供しています。
from Apple releases ‘MGIE’, a revolutionary AI model for instruction-based image editing.
コメントを残す