CNETのAI画像・動画生成レビュワーが、AI画像生成ツール使用時に発生するハルシネーション(幻覚)の修正方法を実体験に基づいて解説した。対象ツールはChatGPT、Midjourney、Stable Diffusion、Leonardo AI、Canva Magic Media AI、Dall-E 3である。
主な問題として人間の顔と表情の不正確な生成、商標・ロゴ・キャラクターの再現困難、重複する複雑な要素の処理エラー、過度な編集によるハルシネーションを挙げている。商標・ロゴ・キャラクターについては技術的には高精度のキャラクター画像生成が可能ではあるものの、著作権で保護されたこれらの描画は許可されていない。
修正方法として人数削減、穏やかな形容詞使用、プロンプト簡略化、生成後編集ツール活用、特定エリア編集機能使用を提案している。AI画像共有時はAI生成である旨の明記を推奨している。
From: How I Fix AI Image Hallucinations While Using ChatGPT, Midjourney and More
【編集部解説】
AI画像生成技術のハルシネーション問題について、今回のCNETの記事は現場の実務者視点から非常に実践的な知見を提供しています。2025年の研究によると、AI画像生成におけるハルシネーション問題は依然として存在しており、改善や制御技術が進展しているものの最新モデルでもこの問題が解決されていないことを裏付けています。
特に注目すべきは、Google Pixel 9シリーズにおけるGemini AIの画像生成機能です。この技術はGemini AIを活用しており、プライバシーを保護しながらマルチモーダルなAI処理を実現している点で、従来のクラウドベースの画像生成とは一線を画しています。
一方で、X(旧Twitter)のGrokチャットボットについては、より複雑な状況があります。Black Forest Labs社のFluxモデルを使用し、さらにAuroraという新しいモデルも開発されているGrokは、他のAIサービスが制限するコンテンツも生成可能な「反検閲」的な設計思想を持っています。これは技術的自由度の向上と同時に、コンテンツモデレーションという新たな課題を浮き彫りにしています。
現在のハルシネーション対策技術として、事実整合性チェック、情報源検証、トークンレベルの信頼度スコア、論理的一貫性の自動推論、人間によるファクトチェックといった多層防御システムが提案されています。しかし、これらの対策は完璧ではなく、ハルシネーションは大規模言語モデルの本質的な限界として研究者によって位置付けられています。
この技術の進歩により、クリエイティブワークの民主化が加速する一方で、フェイクコンテンツの大量生成というリスクも現実のものとなっています。AI生成画像の品質向上は、真偽判定の困難さを増大させ、メディアリテラシーの重要性をこれまで以上に高めています。
規制面では、AI生成コンテンツの表示義務化が世界各国で検討されており、技術の進歩と社会的責任のバランスが重要な議題となっています。この技術が人間の創造性を拡張するツールとして機能する可能性と、同時に新たな倫理的課題を生み出すジレンマに注目が必要です。
【用語解説】
ハルシネーション(Hallucination)
AIが学習データにない情報を補完しようとする際などに生じる現象であり、現在のAI技術における主要な課題の一つ。
プロンプト(Prompt)
AI画像生成ツールに対して画像の内容を指示するテキスト。具体的で明確な指示が高品質な結果を得るために重要とされる。
トークンレベル信頼度スコア(Token-Level Confidence Score)
AI生成時に各単語(トークン)に対してモデルが算出する確信度。低い値は不確実性やハルシネーションの可能性を示すため、品質管理に活用される。
BERT(Bidirectional Encoder Representations from Transformers)
Googleが開発した双方向変換器ベースの自然言語処理モデル。文脈理解に優れ、意味的類似性の測定に広く使用される。
Vector Similarity(ベクトル類似度)
テキストや画像を数値ベクトルに変換して類似性を計算する手法。コサイン類似度などの指標を用いてコンテンツの一致度を定量的に評価する。
AURORA
XのGrokチャットボットが使用する最新の画像生成モデル。Black Forest Labs社のFluxモデルを基盤として開発されている。
【参考リンク】
OpenAI(外部)
ChatGPT、DALL-E、GPT-4などの大規模言語モデルと画像生成AIを開発する企業。2025年9月にハルシネーション問題に関する研究論文を発表している。
Midjourney(外部)
高品質なAI画像生成サービスを提供。芸術的で創造性豊かな画像生成に特化し、プロのクリエイターにも広く利用されている。
Stability AI(外部)
Stable Diffusion等のオープンソースAI画像生成モデルを開発。研究コミュニティに広く採用されている生成AIプラットフォームを提供。
Google AI(外部)
Gemini AI、Google Pixel 9シリーズの画像生成機能など、マルチモーダルAI技術の研究開発を行うGoogleのAI部門。
Leonardo AI(外部)
クリエイター向けAI画像・動画生成プラットフォーム。ゲーム、デザイン、マーケティング分野で広く活用されている。
Canva(外部)
Magic Media AIを含む生成AI機能を搭載したデザインプラットフォーム。一般ユーザー向けの使いやすいインターフェースが特徴。
【参考記事】
Why language models hallucinate | OpenAI(外部)
OpenAIが2025年9月4日に発表したハルシネーション問題に関する研究論文。標準的な訓練と評価手順が不確実性の認識よりも推測を奨励することでハルシネーションが発生する仕組みを統計学的視点から解明。
AIの「幻覚」はかつてないほど悪化している。幻覚率ランキング1位(外部)
2025年5月12日の記事。OpenAIのo3モデルで33%、o4-miniモデルで48%という高いハルシネーション率を記録したことを報告。
Generative AI Hallucination Detect: LLM Methods & Human Loop(外部)
2025年9月2日に発表された生成AIハルシネーション検出に関する包括的ガイド。事実整合性チェック、情報源検証、トークンレベル信頼度スコア、自動推論による論理的一貫性、人間参加型ファクトチェックという5つの検証手法を技術的詳細とともに解説。
This Tiny Startup Is Helping Musk’s Grok With Image Generation(外部)
2024年8月21日のBloomberg記事。XのGrokチャットボットの画像生成機能を支援するBlack Forest Labs社について詳述。同社のFluxモデルがGrokの「反検閲」的な画像生成能力の基盤技術となっていることを報告。
【編集部後記】
AI画像生成ツールを使っていて「あれ、なんか変だな?」と感じたことはありませんか。私たちも日々新しいツールを試していますが、完璧な画像が生成されることの方が珍しかったりします。でも、そこが面白いところでもあるんですよね。
皆さんはどんな場面でハルシネーションに遭遇しましたか?また、今回紹介された修正方法のうち、実際に試してみたい手法はありますか?もしご自身なりの対処法や面白い失敗例があれば、ぜひ教えてください。一緒にAI画像生成の未来について考えていけたら嬉しいです。