Last Updated on 2025-04-30 06:56 by admin
Metaは2025年4月29日、米カリフォルニア州メンロパークで開催した開発者会議「LlamaCon」にて、AIモデル「Llama」シリーズ向けの新API「Llama API」を発表した。
このAPIはCerebras Systems(米カリフォルニア州サニーベール)との提携により、従来のGPUベースの推論サービスと比べて最大19倍、Llama 4 Scoutモデルで毎秒2,648トークンという高速推論を実現する。
ベンチマークでは、ChatGPT(OpenAI)が約130トークン/秒、DeepSeekが約25トークン/秒であるのに対し、Cerebrasのシステムは圧倒的な性能を示した。
MetaはこれまでオープンソースAIモデルの提供に注力してきたが、今回の発表によりAI推論サービス市場に本格参入し、API経由でトークンを販売するビジネスを開始する。
Llama APIは開発者向けにファインチューニングや評価ツールも提供し、Llama 3.3 8Bモデルから対応する。また、Metaは顧客データを自社モデルの学習に利用しない方針を明言し、APIで構築したモデルは他社環境へ移行可能とした。
Cerebrasの北米データセンターネットワークが本サービスを支え、MetaはGroqとも提携し、複数の高速推論オプションを開発者に提供する。Llama 4は2025年4月にリリースされており、MetaのLlamaモデルは累計10億回以上ダウンロードされている。
【編集部解説】
MetaとCerebras Systemsの提携によるLlama APIの高速化は、AI業界の新たな転換点です。従来、AIの進化は主にモデルの精度や規模に注目されてきましたが、今回の発表は「推論速度」という新たな競争軸を浮き彫りにしています。
CerebrasのWafer-Scale Engineは、1枚の巨大なシリコンウェハー全体を使うことで、従来のGPUのボトルネックであったメモリ転送を劇的に改善しています。
これにより、リアルタイムエージェントや低遅延の音声会話、インタラクティブなコード生成、即時マルチステップ推論など、今まで実現が難しかったアプリケーションが現実味を帯びてきました。
MetaとCerebras Systemsの提携によるLlama APIの高速化は、AI業界の新たな転換点です。従来、AIの進化は主にモデルの精度や規模に注目されてきましたが、今回の発表は「推論速度」という新たな競争軸を浮き彫りにしています。
CerebrasのWafer-Scale Engineは、1枚の巨大なシリコンウェハー全体を使うことで、従来のGPUのボトルネックであったメモリ転送を劇的に改善しています。
これにより、リアルタイムエージェントや低遅延の音声会話、インタラクティブなコード生成、即時マルチステップ推論など、今まで実現が難しかったアプリケーションが現実味を帯びてきました。
Metaはこれまでオープンソース戦略で開発者を惹きつけてきましたが、今回のAPIサービス提供によってAIインフラ企業としての側面を強化し、OpenAIやGoogleらが先行するトークン販売型AIビジネスに本格参入します。顧客データの扱いに関しても透明性を重視し、API利用者が自社モデルを他社環境へ移行できる点は、クローズドな競合他社との差別化ポイントです。
一方で、Cerebrasの専用ハードウェアは従来のGPUインフラとの互換性がなく、開発者の環境適応やエネルギー消費増大といった課題も残ります。とはいえ、MetaとCerebrasの動きは、AIの応答速度が人間の会話レベルに近づく未来を現実のものとし、AIエージェントや自律型システムの実用性を大きく押し上げるでしょう。今後の市場競争や技術進化の行方に注目が集まります。
【用語解説】
Meta(メタ):
米国の大手テクノロジー企業。旧Facebook。SNSやAI、VRなどを展開。
Cerebras Systems:米国サニーベール拠点のAI専用ハードウェア企業。巨大なAIチップ「Wafer-Scale Engine」で知られる。
Llama API:
Metaが提供するAIモデル「Llama」シリーズをクラウド経由で利用できるAPIサービス。
Wafer-Scale Engine:
Cerebrasが開発した世界最大級のAIプロセッサ。1枚のシリコンウェハー全体を使う。
トークン/秒:
AIが1秒間に処理できる単語や記号の単位数。
推論(Inference):
AIモデルが入力に対して答えを出す処理。
Groq:
AI推論専用のハードウェア企業。MetaはGroqとも提携し、複数の高速推論オプションを提供している。
エージェントAI:
複数のAIモデルや機能を組み合わせて、複雑なタスクを自律的に実行するAIシステム。
【参考リンク】
Meta公式(外部)
米国の大手テクノロジー企業Metaの公式サイト。SNSやAI、VRなどの事業情報を掲載。
Cerebras Systems公式(外部)
世界最大級AIチップ「Wafer-Scale Engine」を開発するCerebras Systemsの公式サイト。
Llama API公式ドキュメント(外部)
MetaのLlama APIの使い方や導入方法を解説する公式ドキュメント。
【参考動画】
【編集部後記】
AIが「速さ」を武器にする時代がやってきました。もし、あなたの仕事や趣味にAIの応答速度が劇的に向上したら、どんな新しい体験やサービスが生まれると思いますか?私たちも、この変化がどんな未来を切り開くのか、とても気になっています。ぜひ、みなさんのアイデアや期待も聞かせてください。