Appleの機械学習研究チームが、『DALL-E』や『Midjourney』に匹敵する高解像度画像生成AI技術「STARFlow」を開発したと発表した。
Apple Inc.の機械学習研究チームは、正規化フローと自己回帰トランスフォーマーを組み合わせた新しい画像生成AIシステム「STARFlow」を開発したことを明らかにした。この技術は2025年6月第1週(現地時間、日本時間同週)に公開された研究論文で詳細が発表され、OpenAIの『DALL-E』やMidjourneyなどの既存の拡散モデルベースの画像生成ツールと競合する性能を示している。
研究チームには、Appleの機械学習研究者であるジアタオ・グー、ジョシュア・サスキンド、シュアンフェイ・ザイが参加し、カリフォルニア大学バークレー校やジョージア工科大学などの学術機関との共同研究として実施された。共著者にはジョージア工科大学博士課程のロン・チェン、UCバークレー数学科のシクシアン・チェン、元Google Brain・DeepMind研究者のローラン・ディンが含まれている。
STARFlowシステムは「深浅設計」と呼ばれる新しいアーキテクチャを採用し、深いトランスフォーマーブロックと浅いトランスフォーマーブロックを組み合わせることで計算効率を向上させている。また、生のピクセルデータではなくオートエンコーダーの潜在空間で動作することで処理効率を大幅に改善した。従来の拡散モデルが反復的なノイズ除去プロセスに依存するのに対し、STARFlowは正規化フローの数学的特性を保持し、潜在空間での正確な最尤訓練を可能にしている。
性能評価では、ImageNet 256×256での条件付き生成においてFIDスコア2.40を記録し、最先端の拡散モデルDiT-XL/2の2.27に肉薄している。512×512の高解像度でもFIDスコア3.00を維持し、スケーラビリティの高さを実証した。MS-COCOデータセットでもFIDスコア9.1という競争力のある結果を示している。
この発表は、Appleが2025年6月9日月曜日(現地時間、日本時間6月10日火曜日)に開催した世界開発者会議(WWDC 2025)でApple Intelligenceプラットフォームの控えめな更新のみを発表した直後に行われた。研究チームは、これが正規化フローを大規模かつ高解像度で効果的にスケーリングする初の実証であると主張している。
完全な研究論文はarXivで公開されており、条件付きおよび無条件生成タスクの両方で最先端の拡散モデルに近い品質を達成したとされている。この技術は、生成コンテンツの正確な制御が必要なアプリケーションや、Appleが重視する企業向けアプリケーションおよびオンデバイス機能において利点を提供する可能性がある。
【編集部解説】
今回のSTARFlow発表は、AI画像生成分野における技術的なパラダイムシフトの可能性を秘めています。現在の画像生成AI市場では、拡散モデル(Diffusion Models)が圧倒的な支配力を持っており、2025年5月時点でのZapierの調査でも、ChatGPT(GPT-4o)、Midjourney、Adobe Fireflyなどの拡散モデルベース技術が上位を占めています。これらのシステムは反復的なノイズ除去プロセスを採用し、高品質な結果を生み出す一方で、膨大な計算リソースと時間を必要とするという根本的な課題を抱えていました。
STARFlowが採用する正規化フロー(Normalizing Flows)は、従来あまり注目されてこなかった技術アプローチです。この手法の最大の利点は、数学的に厳密な確率分布の変換を行うため、生成プロセスの制御性と予測可能性が高いことにあります。拡散モデルが「ノイズから画像を彫り出す」アプローチであるのに対し、正規化フローは「確率分布を直接変形させて画像を生成する」という根本的に異なる哲学を持っています。
WWDC 2025の文脈で見ると、この技術発表の意味はより深刻です。同カンファレンスでは「Liquid Glass」デザインのiOS 26やmacOS 26 Tahoeが発表されましたが、AI関連の発表は控えめで、投資家からは「段階的改善」との評価を受けました。Apple株価も軽微な下落を記録し、市場はAppleのAI戦略に対する懸念を示していました。
この技術的差異は、実用面で重要な意味を持ちます。AppleがオンデバイスAI処理を重視する戦略を考えると、STARFlowの計算効率性は極めて重要な要素となります。現在のiPhoneやiPadのような限られたハードウェアリソース上で高品質な画像生成を実現するためには、従来の拡散モデルよりも効率的なアプローチが必要不可欠だからです。
性能面では、STARFlowは確かに印象的な結果を示しています。ImageNet 256×256での条件付き生成においてFIDスコア2.40を記録し、最先端の拡散モデルDiT-XL/2の2.27に肉薄しています。512×512の高解像度でも3.00というスコアを維持し、MS-COCOでも9.1という競争力のある数値を達成しており、スケーラビリティの高さを実証しています。
しかし、この技術革新には潜在的なリスクも存在します。Apple Intelligence関連では、既にニュース要約機能で誤情報を生成する問題が報告されており、新しい画像生成技術についても同様の懸念が生じる可能性があります。特に、正規化フローの数学的厳密性が逆に、予期しない方向での画像生成を引き起こすリスクも考えられます。
競合他社への影響も無視できません。GoogleやOpenAIが拡散モデルの改良に注力している中で、Appleが全く異なるアプローチで同等以上の性能を達成したことは、AI業界全体の研究方向性に影響を与える可能性があります。Reddit上でのAI画像生成ツール比較議論でも、2025年1月時点でFluxやStable Diffusionが注目されていましたが、STARFlowの登場により選択肢が大幅に拡大することになります。
長期的な視点では、この技術はAppleのエコシステム全体に深く統合される可能性が高いと考えられます。2026年に予定されているSiriの完全なパーソナライゼーション機能との統合により、より高品質で制御可能な画像生成体験を提供することで、Appleデバイスの差別化要因となる可能性があります。
ただし、消費者向け製品への実装時期については慎重な見極めが必要です。Morningstar分析では、AppleのAI統合は段階的に進行しており、ハードウェア・ソフトウェア統合の強みを活かした長期戦略が重視されています。STARFlowも同様に、研究段階での成果と実用化には大きなギャップが存在し、Appleが重視するプライバシー保護やオンデバイス処理の要件を満たしながら、どの程度の性能を維持できるかが鍵となります。
【用語解説】
正規化フロー(Normalizing Flows):確率分布を数学的に変換する生成モデルの一種。単純な分布(ガウス分布など)を複雑な分布に段階的に変換することで、データを生成する。拡散モデルとは異なり、数学的に厳密な確率計算が可能で、生成プロセスの制御性と予測可能性が高い。
拡散モデル(Diffusion Models):ノイズだらけの画像から徐々にノイズを除去していく反復プロセスで画像を生成するAI技術。DALL-E、Stable Diffusion、Midjourneyなどで採用されている2025年現在の主流手法だが、計算コストが高い。
自己回帰トランスフォーマー(Autoregressive Transformers):言語モデルのGPTなどで使われている技術で、前の要素から次の要素を順次予測していく仕組み。OpenAIの最新画像生成でも採用されており、STARFlowではこれを正規化フローと組み合わせている。
潜在空間(Latent Space):高次元データを低次元に圧縮した表現空間。生のピクセルデータではなく、この圧縮された表現で処理することで計算効率を大幅に向上させる。STARFlowの効率性の核心技術。
FIDスコア(Fréchet Inception Distance):生成された画像の品質を評価する指標。実際の画像分布と生成画像分布の距離を測定し、値が小さいほど高品質とされる。STARFlowは2.40という優秀なスコアを記録。
Apple Intelligence:Appleの包括的AI戦略プラットフォーム。2025年現在も段階的な統合が進行中で、2026年にSiriの完全パーソナライゼーション機能が予定されている。
【参考リンク】
Apple(日本)(外部)革新に満ちたAppleの世界へようこそ。AppleのウェブサイトではiPhoneからiPad、Apple Watch、Mac、Apple TVまで、すべての製品の購入ができる。
Midjourney(外部)高品質なAI画像生成サービスを提供するプラットフォーム。アーティスティックな画像生成で定評があり、拡散モデル技術のリーディングカンパニー。
Stability AI(外部)Stable Diffusionを開発したオープンソースAI企業。画像生成、動画生成、音声生成など幅広いAI技術を提供している。
Adobe Firefly(外部)Adobe Creative Cloudに統合されたAI画像生成技術。商用利用に配慮した学習データを使用し、プロフェッショナル向けの機能を提供。
カリフォルニア大学バークレー校(外部)1868年設立のカリフォルニア大学システムの創設校。AI・コンピューターサイエンス分野でトップクラスの実績を誇り、STARFlow研究に参加。
【参考動画】
【参考記事】
Scaling Latent Normalizing Flows for High-resolution Image Synthesis | arXiv
STARFlowの技術詳細を記載した原著論文。正規化フローを高解像度画像生成に応用した初の成功事例として、理論的基盤と実験結果を詳述している。
Apple makes major AI advance with image generation technology rivaling DALL-E and Midjourney | Ground News
複数メディアの報道状況を集約したニュース分析サイト。STARFlow発表に関する報道の偏りや信頼性を客観的に評価している。
【編集部後記】
今回の発表で個人的に興味深いのは、GoogleやOpenAIが拡散モデルの改良競争に血眼になっている中で、Appleが全く違うアプローチを選んだこと。正規化フローって、実は10年以上前からある技術なんですが、画像生成では「地味な脇役」扱いでした。それをここまでスケールアップさせたのは、さすがAppleの研究力というか。
FIDスコア2.40という数字も地味にすごくて、これってDALL-E 3の初期性能に匹敵するレベル。しかも計算効率が良いということは、将来的にiPhone上でリアルタイム画像生成とか、夢じゃないかもしれません。想像してみてください、Siriに「猫がピアノを弾いている絵を描いて」って頼んだら、その場でサクッと生成してくれる未来を。
ただ、研究発表から実用化まではまだ道のりが長そう。AppleのAI統合は慎重派なので、2026年のSiri完全リニューアルに間に合うかどうか。でも、この技術がApple Intelligenceに統合されたら、他社とは一線を画した体験になりそうで、今から楽しみです。
それにしても、AI業界の技術競争って本当に面白い。誰もが同じ方向を向いているときに、斜め上から新しいアプローチで殴り込みをかけるAppleのスタイル、やっぱり好きですね。次はどんなサプライズを用意してくれるのでしょうか。