advertisements

Ant Group、マルチモーダルAI「Ming-Flash-Omni 2.0」をオープンソース化。Gemini 2.5 Pro超えの性能を実現

Ant Groupは2026年2月11日、マルチモーダル大規模モデルMing-Flash-Omni2.0をオープンソース化した。このモデルは公開ベンチマークテストにおいて、一部の指標でGemini 2.5 Proを上回る性能を示した。Ming-Flash-Omni2.0は業界初の音声統合生成モデルであり、同一のオーディオトラック上で音声、環境音効果、音楽を同時に生成できる。

推論段階での推論フレームレートは3.1Hzを実現している。このモデルはLing-2.0アーキテクチャ(MoE、100B-A6B)に基づいて訓練されており、視覚言語理解、音声制御生成、画像生成・編集の3つの領域で最適化されている。ゼロショット音声クローニング機能も備える。モデルウェイトと推論コードはHugging Faceで公開されており、AntのプラットフォームLing Studioでも利用可能だ。Bai Lingモデルチームの責任者はジョウ・ジュン氏が務める。

From: Ant Group Open-Sources the Full-Modal Large Model Ming-Flash-Omni 2.0: Comprehensive Enhancements in Multimodal Understanding, Image Editing, and Voice Generation

【編集部解説】

Ant Groupによる今回のMing-Flash-Omni 2.0のオープンソース化は、マルチモーダルAI開発における重要な転換点を示しています。

まず注目すべきは、このモデルが「業界初の統合音声生成モデル」として、音声、環境音、音楽を単一のオーディオトラック上で同時生成できる点です。従来のマルチモーダルモデルは、各モダリティ(視覚、聴覚、言語)を別々のモデルで処理し、後から統合する手法が主流でした。しかしMing-Flash-Omni 2.0は、異なるモダリティを単一のアーキテクチャで処理することで、モデル間の調整コストを削減し、より自然な生成を実現しています。

技術的には、Ling-2.0アーキテクチャに基づくMoE(Mixture-of-Experts)構造が鍵となっています。総パラメータ数100Bのうち、推論時にアクティブになるのは6Bのみという設計により、大規模な能力を維持しながら計算効率を高めています。推論フレームレート3.1Hzという数値は、分単位の音声をリアルタイムで生成できることを意味し、インタラクティブなアプリケーションでの実用性を大きく高めています。

音声生成においては、ゼロショット音声クローニング機能が特筆に値します。事前学習なしで話者の声質を再現できる能力は、パーソナライゼーションが求められる音声アシスタントやコンテンツ制作の分野で革新をもたらす可能性があります。自然言語による細かいパラメータ制御(感情、方言、話速など)は、非技術者でも高度な音声生成を扱えることを意味します。

画像生成・編集機能では、「生成的セグメンテーション」というアプローチが採用されています。従来の画像編集が「マスクを作成してから編集」という2段階プロセスだったのに対し、Ming-Flash-Omni 2.0はセグメンテーションと編集を統合したエンドツーエンドのプロセスとして扱います。これにより、光と影の調整やシーン置換といった複雑な編集でも、画像の一貫性と質感を保持できるとされています。

オープンソース戦略の観点からも、この発表は示唆に富んでいます。Googleのような巨大テック企業と競合するには、開発者コミュニティの支持を獲得することが不可欠です。Hugging FaceとModelScopeでの公開により、世界中の開発者がこのモデルを基盤として独自のアプリケーションを構築できるようになります。特にAntが提供するLing Studioプラットフォームとの連携により、プロトタイピングから本番環境への移行がスムーズに行えることは、企業での採用を促進する要因となるでしょう。

一方で、懸念事項も存在します。100Bパラメータのモデルを実行するには相応の計算リソースが必要であり、中小規模の開発者や研究者にとってはハードルが高い可能性があります。また、オープンソース化により悪用のリスクも高まります。ディープフェイク音声や画像の生成に利用される可能性は否定できません。Ant Groupがどのようなセーフガードを実装しているか、継続的な監視が必要です。

規制の観点では、EUのAI規制法やその他の地域での規制動向が、こうしたマルチモーダルAIの展開に影響を与えるでしょう。特に音声クローニング機能は、なりすまし詐欺や選挙干渉といった悪用のリスクが高く、今後規制対象となる可能性があります。

長期的には、このようなマルチモーダル統合モデルが、人間とコンピュータのインタラクションを根本的に変革していくことが予想されます。視覚、聴覚、言語を統合的に理解・生成できるAIは、より自然で直感的なインターフェースを実現し、教育、医療、エンターテインメントなど幅広い分野で新しい体験を創出するでしょう。Ant Groupの今回の取り組みは、そうした未来への重要な一歩と言えます。

【用語解説】

マルチモーダル大規模モデル
テキスト、画像、音声、動画など複数の異なる種類のデータ(モダリティ)を統合的に処理・生成できるAIモデルである。従来は各モダリティを別々のモデルで扱っていたが、マルチモーダルモデルは単一のアーキテクチャで複数のモダリティを同時に理解・生成できるため、より自然で一貫性のある出力が可能となる。

MoE(Mixture-of-Experts)
大規模モデルの効率化技術の一つで、モデル全体を複数の専門家(エキスパート)に分割し、入力に応じて必要な専門家のみを選択的に活性化させる手法である。Ming-Flash-Omni 2.0では総パラメータ数100Bのうち、推論時には6Bのみが活性化され、大規模な能力を維持しながら計算コストを抑えている。

ゼロショット音声クローニング
事前の学習や微調整なしに、わずかな音声サンプルから話者の声質を再現する技術である。従来の音声合成では特定の話者の声を再現するために大量の音声データと訓練が必要だったが、ゼロショット技術により、初めて聞く話者の声でも即座にクローンできるようになった。

ベンチマークテスト
AIモデルの性能を客観的に評価するための標準化されたテストである。視覚言語理解、数学的推論、コード生成など、特定のタスクにおけるモデルの能力を数値化し、他のモデルと比較可能にする。Gemini 2.5 Proとの比較など、モデルの相対的な性能を示す指標として広く用いられている。

推論フレームレート
AIモデルが1秒間に何回推論(予測や生成)を実行できるかを示す指標で、Hz(ヘルツ)で表される。Ming-Flash-Omni 2.0の3.1Hzという数値は、1秒間に約3回の推論が可能であることを意味し、リアルタイムでの音声生成や対話型アプリケーションに適した速度である。

生成的セグメンテーション
画像内の特定の領域を識別・分離する作業(セグメンテーション)と、その領域を編集・生成する作業を統合したアプローチである。従来は「まず領域を特定してから編集する」という2段階プロセスだったが、生成的セグメンテーションでは両者を一体化し、より自然で一貫性のある画像編集を実現している。

【参考リンク】

Ant Group(公式サイト)(外部)
中国のアリババグループ傘下のフィンテック企業。Alipayを運営し、近年はLingモデルファミリーを展開。

Hugging Face(公式サイト)(外部)
機械学習モデル共有プラットフォーム。200万以上のモデルをホストするオープンソースAIコミュニティ。

ModelScope(公式サイト)(外部)
アリババ運営のAIモデル共有プラットフォーム。Model-as-a-Serviceの概念に基づく。

Ming-Flash-Omni 2.0(Hugging Faceリポジトリ)(外部)
Ming-Flash-Omni 2.0のモデルウェイトと推論コード。100B総パラメータのMoEアーキテクチャ。

Ant Group inclusionAI(Hugging Face)(外部)
Ant GroupのAGIイニシアチブのHugging Face公式ページ。Ling、Ring、Mingモデルを公開。

Ming GitHub リポジトリ(外部)
Mingシリーズの公式GitHubリポジトリ。モデルのドキュメントと技術情報を提供。

【参考記事】

inclusionAI/Ming-flash-omni-2.0 · Hugging Face(外部)
Ming-Flash-Omni 2.0の公式モデルページ。視覚百科知識、音声合成、画像生成での性能を記載。

Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation(外部)
Ming-Flash-Omniの技術論文。MoEアーキテクチャと各種ベンチマークでの性能を詳述。

Gemini 2.5 Pro: Features, Tests, Access, Benchmarks & More | DataCamp(外部)
Gemini 2.5 Proのベンチマーク情報。MMMU 81.7%、MRCR 91.5%を達成。

【編集部後記】

音声、画像、テキストを単一のモデルで扱えるMing-Flash-Omni 2.0のような技術は、私たちの日常にどのような変化をもたらすのでしょうか。特に音声クローニング機能には、便利さと同時に悪用のリスクも潜んでいます。

みなさんは、こうした強力な技術がオープンソース化されることについて、どう感じますか?開発の民主化が進む一方で、セーフガードの整備は追いつくのか。みなさんと一緒にこの問いを考え続けたいと思っています。

投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。