innovaTopia

ーTech for Human Evolutionー

Meta、「Llama 4」シリーズを発表 – 1000万トークンの超長文理解と革新的MoEアーキテクチャを実現

 - innovaTopia - (イノベトピア)

Last Updated on 2025-04-09 15:40 by admin

文庫本10冊分の会話を、AIが一度に読み解く時代がやってきた。
Metaが発表した「Llama 4」シリーズは、AIモデルの限界を一気に押し広げる革新的なアップグレードだ。1000万トークンという超長文を処理可能な「Scout」、画像と言語の統合理解でGPT-4oを凌駕する「Maverick」、そしてその背後に控える“巨大教師モデル”「Behemoth」。MoEアーキテクチャによる省電力と高速化、バイアス軽減の試みも含め、Llama 4は生成AIの新たな基準となる。

Metaは2025年4月、AIモデルの新シリーズ「Llama 4」を発表した。このシリーズには、オープンウェイトのネイティブマルチモーダルモデルとして初めて登場する「Llama 4 Scout」と「Llama 4 Maverick」、そして教師モデルとなる「Llama 4 Behemoth」が含まれている。

特筆すべき技術的特徴として、これらのモデルは初めてMixture of Experts(MoE)アーキテクチャを採用し、計算効率とパフォーマンスを両立させている。Llama 4 Scoutは業界最高レベルの1000万トークンという長大なコンテキスト長をサポートし、Llama 4 Maverickはコーディング、推論、多言語、長文コンテキスト、画像ベンチマークでGPT-4oやGemini 2.0を上回る性能を発揮する。

Metaはこれらのモデルを「llama.com」と「Hugging Face」で公開し、WhatsApp、Messenger、Instagram Direct、Meta.AIウェブサイトでも利用可能にしている。Metaは「オープン性がイノベーションを促進する」という信念のもと、開発者コミュニティに最先端のAI技術を提供することで、次世代のパーソナライズされた体験の構築を支援する姿勢を示している。

Citations: Meta_llama-4-multimodal-intelligence/
[1] [2] [3] [4] [5] [6] [7] [8]

【編集部解説】

Meta(旧Facebook)が発表した「Llama 4」シリーズは、AIモデルの新たな進化を象徴する画期的な取り組みです。特に注目すべきは、これらのモデルが採用している「Mixture of Experts(MoE)」アーキテクチャです。

従来の大規模言語モデル(LLM)では、すべてのパラメータが常にアクティブになっていましたが、MoEでは入力トークンごとに必要なパラメータのみを活性化させます。これにより、Llama 4 Maverickは総パラメータ数が4000億に達するにもかかわらず、実際に使用するアクティブパラメータは170億程度に抑えられ、計算効率と推論速度を大幅に向上させています。

また、Llama 4 Scoutが実現した1000万トークンというコンテキスト長は、複数の長文書類の要約や大規模コードベースの理解など、これまで困難だった複雑なタスクを可能にします。これは、従来のLlama 3の128Kトークンから約78倍の拡張であり、長文理解においてAI業界の新たな基準を打ち立てています。

さらに、これらのモデルはテキストと画像を統合的に理解するネイティブマルチモダリティを備えており、最大48枚の画像を同時に処理できる能力を持っています。これにより、視覚的な質問応答や複数画像にまたがる推論など、より高度な視覚理解タスクが可能になります。

Metaのオープンソースへの取り組みも特筆すべき点です。強力なAIモデルを公開することで、開発者コミュニティに最先端技術へのアクセスを提供し、イノベーションを促進する姿勢は、AIの民主化に大きく貢献するものと言えるでしょう。

 - innovaTopia - (イノベトピア)
各モデルの比較

これらのモデルは、従来のLlama 3と比較して大幅な性能向上を実現しています。特に、Llama 4 Scoutのコンテキスト長は、Llama 3の128Kから1000万トークンへと約78倍に拡張されました。また、Llama 4 Maverickは、GPT-4oやGemini 2.0などの競合モデルをコーディング、推論、多言語、長文コンテキスト、画像ベンチマークで上回る性能を示しています。

【編集部追記】

Llama 4シリーズの開発において、Metaは「バイアスの排除」にも注力しています。従来のLLMは、インターネット上のトレーニングデータの性質上、政治的・社会的な議論においてリベラル寄りの傾向を示すことが知られていました。

Metaは、AIモデルからバイアスを取り除き、議論の余地のある問題の両面を理解・表現できるようにすることを目標としています。Llama 4は、質問に応答し、判断を下すことなく様々な視点に対応し、特定の見解を優先しないよう設計されています。この取り組みにより、Llama 4はLlama 3と比較して大幅に改善され、Grokと同等のバランスの取れた応答能力を実現しています。

また、Metaはモデルの安全性確保のために複数層の対策を講じています。事前学習段階ではデータフィルタリングを実施し、事後学習では様々な技術を適用してモデルがユーザーと開発者に役立つポリシーに準拠するようにしています。さらに、システムレベルでは、潜在的に有害な入力と出力を特定し防御するためのセーフガードをオープンソース化しています。

Metaは、「Generative Offensive Agent Testing(GOAT)」という新しいテスト手法も開発しました。これは、中級スキルの敵対的アクターによる複数ターンのインタラクションをシミュレートすることで、従来のレッドチーミング(脆弱性テスト)の限界を克服し、テストカバレッジを向上させ、脆弱性をより迅速に発見することを可能にしています。

【用語解説】

MoE(Mixture of Experts)アーキテクチャ:
Llama 4シリーズで採用された新しいモデル構造で、入力トークンごとに必要なパラメータのみを活性化させる仕組み。例えばLlama 4 Maverickは総パラメータ数が400Bに達するが、実際に使用するアクティブパラメータは17B程度に抑えられ、計算効率と推論速度を大幅に向上させている。各トークンは共有エキスパートと128の専門エキスパートのうち1つに送られる仕組みになっている。

コンテキスト長:
AIモデルが一度に処理できるテキストの長さ。Llama 4 Scoutは業界最高レベルの1000万トークンというコンテキスト長をサポートしており、これは従来のLlama 3の128Kトークンから約78倍の拡張となる。長文書類の要約や大規模コードベースの理解などの複雑なタスクを可能にする。

ネイティブマルチモダリティ:
テキストと画像を統合的に理解する能力。Llama 4はアーリーフュージョン技術を採用し、テキストと視覚トークンをモデルのバックボーンに統合している。最大48枚の画像を同時に処理でき、視覚的な質問応答や複数画像にまたがる推論などの高度なタスクが可能。

iRoPE(interleaved Rotary Position Embeddings)アーキテクチャ:
Llama 4で採用された新しいアーキテクチャで、位置埋め込みなしの交互配置された注意層を使用する。「i」は「interleaved(交互配置された)」注意層を表し、最終的には「infinite(無限の)」コンテキスト長をサポートする長期目標を強調している。「RoPE」は多くの層で採用されている回転位置埋め込みを指す。

GOAT(Generative Offensive Agent Testing):
Metaが開発した新しいテスト手法で、中級スキルの敵対的アクターによる複数ターンのインタラクションをシミュレートする。従来のレッドチーミング(脆弱性テスト)の限界を克服し、テストカバレッジを向上させ、脆弱性をより迅速に発見することを可能にする。

教師モデル(Teacher Model):
より小さなモデルを訓練するために使用される大規模モデル。Llama 4 Behemothは288Bのアクティブパラメータと16のエキスパートを持ち、総パラメータ数は約2兆に達する強力なモデルで、Llama 4 MaverickやScoutの教師モデルとして機能している。

【参考リンク】

公式リソース

技術解説記事

LlamaCon 2025:
Metaが主催する初のオープンソースAIに特化した開発者向けカンファレンスで、2025年4月29日に開催されます。このイベントでは、MetaのAIモデル「Llama」に焦点を当て、開発者が最新技術や応用例を学び、共有する場となります。会場はMeta本社(米国カリフォルニア州メンロパーク)で、一部セッションはライブ配信される予定です。Llama 4に関するさらなる詳細が公開されますので、Meta AIのビジョンと今後の展開について知りたい方はLlama公式サイトを要チェックです。

author avatar
荒木 啓介
innovaTopiaのWebmaster
ホーム » AI(人工知能) » AI(人工知能)ニュース » Meta、「Llama 4」シリーズを発表 – 1000万トークンの超長文理解と革新的MoEアーキテクチャを実現