MIT CSAIL(コンピュータサイエンス・人工知能研究所)とスタンフォード大学の研究チームが、人間のようなスケッチを一筆一筆描けるAI描画システム「SketchAgent」を開発した。
同システムはAnthropic社のClaude 3.5 Sonnetなどのマルチモーダル言語モデルを使用し、自然言語プロンプトを数秒でスケッチに変換する。研究チームは筆頭著者のYael Vinkerポスドク(MIT CSAIL)、Tamar Rott Shahamポスドク(MIT CSAIL)、Alex Zhao学部研究者(MIT)、Antonio Torralba教授(MIT CSAIL)、Kristine Zheng研究フェロー(スタンフォード大学)、Judith Ellen Fan助教授(スタンフォード大学)で構成される
SketchAgentは事前訓練データを使わず、スケッチを番号付きの筆順に翻訳する「スケッチ言語」を開発した。実験では複数のAIモデルを比較し、Claude 3.5 SonnetがGPT-4oやClaude 3 Opusを上回る性能を示した。研究成果は2025年6月11日から15日にナッシュビルで開催されるCVPR 2025で発表される。
From: Teaching AI models the broad strokes to sketch more like humans do
【編集部解説】
MIT CSAILとスタンフォード大学が発表したSketchAgentは、従来のAI画像生成技術とは根本的に異なるアプローチを採用しています。DALL-E 3やMidjourneyなどの既存システムが完成された画像を一度に生成するのに対し、SketchAgentは人間と同様に一筆一筆順番に描いていく点が革新的です。
この技術の核心は「スケッチ言語」という独自の表現方法にあります。研究チームは、スケッチをグリッド上の番号付き筆順として翻訳し、各ストロークに意味を持たせました。例えば「7番目のストロークは正面玄関を表す長方形」といった具合に、AIが描画の意図を理解できるよう設計されています。
注目すべきは、このシステムが追加の学習データを必要としない点です。既存のマルチモーダル言語モデルの知識を活用することで、訓練していない概念でもスケッチできる汎用性を実現しました。実際の実験では、Claude 3.5 SonnetがGPT-4oやClaude 3 Opusを上回る性能を示しており、モデル間の視覚処理能力の違いが明確になっています。
人間とAIの協働スケッチ機能は、創造的なプロセスにおける新たな可能性を示唆しています。従来のテキストベースの対話を超えて、視覚的なコミュニケーションが可能になることで、教育現場での概念説明や研究開発における初期アイデアの可視化などに応用が期待されます。
ただし、現時点では制約も存在します。複雑な生物や人物の描画、ロゴや文字の表現には課題があり、時として意図しない結果(2つの頭を持つウサギなど)を生成することもあります。これは「思考の連鎖」推論による計画の誤解釈が原因とされています。
長期的な視点では、この技術は人間とAIの協働における新たなパラダイムを提示しています。視覚的思考を支援するツールとして発展すれば、デザイン業界や教育分野での活用が広がる可能性があります。また、創作プロセスの民主化という観点からも注目に値するでしょう。
規制面では、現在のところ大きな懸念は見当たりませんが、将来的にAIが高度な芸術作品を生成できるようになった場合、著作権や創作者の権利保護について議論が必要になるかもしれません。
【用語解説】
マルチモーダル言語モデル
テキストだけでなく、画像、音声、動画などの複数のデータ形式を同時に処理・理解できるAIモデル。従来のテキスト専用言語モデルを発展させ、人間のように複数の感覚情報を統合して判断できる。
ベクターグラフィックス
数学的な座標と図形情報で構成される画像形式。拡大縮小しても画質が劣化せず、テキストベースのファイルとして保存できるため、編集や変換が容易である。
Chain of Thought推論
AIが問題解決の過程を段階的に分解し、途中の思考プロセスを明示的に示しながら結論に至る手法。複雑なタスクをより小さなステップに分けることで、推論の精度と透明性を向上させる。
CVPR(Conference on Computer Vision and Pattern Recognition)
コンピュータビジョンとパターン認識分野における世界最高峰の国際学会。毎年開催され、最新の研究成果が発表される。AI・機械学習分野の研究者にとって最も権威ある発表の場の一つである。2025年は6月11日から15日まで米国テネシー州ナッシュビルで開催される。
拡散モデル
ノイズから段階的に画像を生成するAI技術。DALL-E、Stable Diffusionなどの画像生成AIで広く使用されている手法で、高品質な画像生成が可能である。
【参考リンク】
MIT CSAIL(MITコンピュータ科学・人工知能研究所)(外部)
マサチューセッツ工科大学の学際的研究所で、AI、ロボット工学、コンピュータサイエンス分野の世界最先端研究を行う。
スタンフォード大学(外部)
カリフォルニア州に位置する世界屈指の私立研究大学。シリコンバレーの中心に立地し、IT・AI分野で数多くの革新的研究と起業家を輩出。
Anthropic(外部)
Claude 3.5 Sonnetを開発したAI安全性研究企業。2021年設立で、安全で有益なAIシステムの構築を目指している。
CVPR 2025(外部)
コンピュータビジョンとパターン認識分野の世界最高峰国際会議。2025年6月11日から15日まで米国テネシー州ナッシュビルで開催。
【参考動画】
【参考記事】
SketchAgent: Language-Driven Sequential Sketch Generation(arXiv論文)(外部)
SketchAgentの技術詳細を記述した原著論文。言語駆動による逐次スケッチ生成手法の理論的背景と実験結果を詳細に解説。
AI Learns Human-Like Sketching with Broad Strokes – Mirage News(外部)
SketchAgentの技術的特徴と限界について、MIT発表を基に詳細に報じた記事。他のAI画像生成技術との比較分析も含む。
[Literature Review] SketchAgent: Language-Driven Sequential Sketch Generation – The Moonlight(外部)
SketchAgentの技術的手法と評価結果について学術的視点から詳細に分析したレビュー記事。システムの限界と今後の研究方向についても言及。
【編集部後記】
SketchAgentが示すAIと人間の協働創作は、私たちの創造性に対する考え方を根本から変える可能性があります。皆さんは普段、アイデアを視覚化する際にどのような方法を使っていますか?手描きのスケッチ、デジタルツール、それとも言葉だけで表現していますか?もしAIが思考の過程を一緒にスケッチしてくれるとしたら、あなたの発想プロセスはどう変化すると思いますか?また、創作における「人間らしさ」とは何だと考えますか?ぜひSNSで皆さんの体験や考えをお聞かせください。