Meta×Cerebras「Llama API」発表――AI推論が18倍高速化、2,600トークン/秒でOpenAIに挑戦

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2025年4月30日6:56

[更新]2025年4月30日

tatsu0256_Inside_a_futuristic_data_center_a_massive_AI_chip_waf_85dd2ded-c28e-4f95-92ed-110cb86da96c - innovaTopia

Metaは2025年4月29日、米カリフォルニア州メンロパークで開催した開発者会議「LlamaCon」にて、AIモデル「Llama」シリーズ向けの新API「Llama API」を発表した。

このAPIはCerebras Systems（米カリフォルニア州サニーベール）との提携により、従来のGPUベースの推論サービスと比べて最大19倍、Llama 4 Scoutモデルで毎秒2,648トークンという高速推論を実現する。

ベンチマークでは、ChatGPT（OpenAI）が約130トークン/秒、DeepSeekが約25トークン/秒であるのに対し、Cerebrasのシステムは圧倒的な性能を示した。

MetaはこれまでオープンソースAIモデルの提供に注力してきたが、今回の発表によりAI推論サービス市場に本格参入し、API経由でトークンを販売するビジネスを開始する。

Llama APIは開発者向けにファインチューニングや評価ツールも提供し、Llama 3.3 8Bモデルから対応する。また、Metaは顧客データを自社モデルの学習に利用しない方針を明言し、APIで構築したモデルは他社環境へ移行可能とした。

Cerebrasの北米データセンターネットワークが本サービスを支え、MetaはGroqとも提携し、複数の高速推論オプションを開発者に提供する。Llama 4は2025年4月にリリースされており、MetaのLlamaモデルは累計10億回以上ダウンロードされている。

from:Meta unleashes Llama API running 18x faster than OpenAI: Cerebras partnership delivers 2,600 tokens per second

【編集部解説】

MetaとCerebras Systemsの提携によるLlama APIの高速化は、AI業界の新たな転換点です。従来、AIの進化は主にモデルの精度や規模に注目されてきましたが、今回の発表は「推論速度」という新たな競争軸を浮き彫りにしています。

CerebrasのWafer-Scale Engineは、1枚の巨大なシリコンウェハー全体を使うことで、従来のGPUのボトルネックであったメモリ転送を劇的に改善しています。

これにより、リアルタイムエージェントや低遅延の音声会話、インタラクティブなコード生成、即時マルチステップ推論など、今まで実現が難しかったアプリケーションが現実味を帯びてきました。

MetaとCerebras Systemsの提携によるLlama APIの高速化は、AI業界の新たな転換点です。従来、AIの進化は主にモデルの精度や規模に注目されてきましたが、今回の発表は「推論速度」という新たな競争軸を浮き彫りにしています。

CerebrasのWafer-Scale Engineは、1枚の巨大なシリコンウェハー全体を使うことで、従来のGPUのボトルネックであったメモリ転送を劇的に改善しています。

これにより、リアルタイムエージェントや低遅延の音声会話、インタラクティブなコード生成、即時マルチステップ推論など、今まで実現が難しかったアプリケーションが現実味を帯びてきました。

Metaはこれまでオープンソース戦略で開発者を惹きつけてきましたが、今回のAPIサービス提供によってAIインフラ企業としての側面を強化し、OpenAIやGoogleらが先行するトークン販売型AIビジネスに本格参入します。顧客データの扱いに関しても透明性を重視し、API利用者が自社モデルを他社環境へ移行できる点は、クローズドな競合他社との差別化ポイントです。

一方で、Cerebrasの専用ハードウェアは従来のGPUインフラとの互換性がなく、開発者の環境適応やエネルギー消費増大といった課題も残ります。とはいえ、MetaとCerebrasの動きは、AIの応答速度が人間の会話レベルに近づく未来を現実のものとし、AIエージェントや自律型システムの実用性を大きく押し上げるでしょう。今後の市場競争や技術進化の行方に注目が集まります。

【用語解説】

Meta（メタ）：
米国の大手テクノロジー企業。旧Facebook。SNSやAI、VRなどを展開。
Cerebras Systems：米国サニーベール拠点のAI専用ハードウェア企業。巨大なAIチップ「Wafer-Scale Engine」で知られる。

Llama API：
Metaが提供するAIモデル「Llama」シリーズをクラウド経由で利用できるAPIサービス。

Wafer-Scale Engine：
Cerebrasが開発した世界最大級のAIプロセッサ。1枚のシリコンウェハー全体を使う。

トークン/秒：
AIが1秒間に処理できる単語や記号の単位数。

推論（Inference）：
AIモデルが入力に対して答えを出す処理。

Groq：
AI推論専用のハードウェア企業。MetaはGroqとも提携し、複数の高速推論オプションを提供している。

エージェントAI：
複数のAIモデルや機能を組み合わせて、複雑なタスクを自律的に実行するAIシステム。

【参考リンク】

Meta公式（外部）
米国の大手テクノロジー企業Metaの公式サイト。SNSやAI、VRなどの事業情報を掲載。

Cerebras Systems公式（外部）
世界最大級AIチップ「Wafer-Scale Engine」を開発するCerebras Systemsの公式サイト。

Llama API公式ドキュメント（外部）
MetaのLlama APIの使い方や導入方法を解説する公式ドキュメント。

【参考動画】

【編集部後記】

AIが「速さ」を武器にする時代がやってきました。もし、あなたの仕事や趣味にAIの応答速度が劇的に向上したら、どんな新しい体験やサービスが生まれると思いますか？私たちも、この変化がどんな未来を切り開くのか、とても気になっています。ぜひ、みなさんのアイデアや期待も聞かせてください。

【関連記事】

AI(人工知能）ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧