Sakana AI×NVIDIA、新フォーマット「TwELL」でLLM推論を最大30%高速化 H100でメモリ24%超削減

LLMの推論を最大30%、学習を最大24%高速化し、メモリ消費も24%以上削減する—。Sakana AIとNVIDIAが2026年5月7日に共同発表した新スパース技術「TwELL」は、AIインフラの経済性を根本から書き換える可能性を秘めた研究成果です。


Sakana AIとNVIDIAは、大規模言語モデル(LLM)の推論および学習を効率化する新しいスパースデータ構造とGPUカーネルを発表した。本研究はICML 2026で発表される。著者はSakana AIのエドアルド・チェティン、ステファノ・ペルケッティ、リオン・ジョーンズ、NVIDIAのエミリオ・カスティーヨ、ナルセ・アキラ、ムラカミ・マナの6名である。両者は、タイル化された行列積カーネルとの統合を可能にする新フォーマットTwELL(Tile-wise ELLPACK)と、推論・学習向けのカスタムCUDAカーネルを開発した。

10億パラメータ規模での検証において、緩やかなL1正則化で下流タスクの性能を保ったまま高いスパース性を実現した。H100 GPU上で、1.5Bモデルは推論で最大30%、学習で最大24%高速化し、ピークGPUメモリも24%超削減した。2Bモデルでは推論を20.5%、学習を21.9%高速化し、効果はモデル規模が大きくなるほど拡大することを示した。カーネルはオープンソース公開される。

From: 文献リンクSparser, Faster, Lighter Transformer Language Models

【編集部解説】

このニュースが持つ意味を理解するうえで、まず押さえておきたいのが、現代のLLM運用が抱える根本的なジレンマです。GPT-4やClaudeのような大規模モデルは、ひとたび動かすたびに膨大な電力を消費します。ある研究では、2026年に世界のLLM推論需要がペタワット時規模に達する可能性が指摘されており、推論のエネルギー消費が学習に匹敵、あるいはこれを上回りつつあるとの議論も出始めています。

ところが、LLMの内部を覗いてみると、奇妙な事実が見えてきます。フィードフォワード層と呼ばれる中核部品の中では、各トークンを処理する際に「実際に意味のある計算」はごく一部にすぎず、残りの大部分は事実上ゼロを掛け算しているだけ、という現象が長年知られてきたのです。元のブログ記事では95%超と説明されており、より詳細なテクニカルレポート(arXiv版)では、L1正則化により99%超のスパース性を誘発できることが定量的に示されています

つまり、LLMの計算の大半は、原理的には「サボれる」のです。

では、なぜ今までサボれなかったのか。理由はGPUというハードウェアの特性にあります。NVIDIAのGPU、とくにTensor Coreは「密な行列積」に極端に特化しており、スパースな計算はむしろ苦手なのです。ゼロをスキップしようとすると、どこがゼロかを管理するためのオーバーヘッドが発生し、節約したはずの時間がそれで相殺されてしまう。これがこれまでスパース化が「机上の空論」に留まっていた理由でした。

今回Sakana AIとNVIDIAが提案したTwELL(Tile-wise ELLPACK)と専用CUDAカーネルは、この長年の構造的問題に正面から取り組んだものです。GPUがもともと採用している「タイル」と呼ばれる計算単位に、スパースデータの構造そのものを揃えてしまうことで、追加のメモリアクセスやカーネル起動を発生させずに、密計算と同じパイプライン上でスパース計算を回せるようにしたわけです。

注目すべきは、改善幅がモデル規模が大きくなるほど拡大している点です。0.5Bから2Bへとモデルを大きくすると、非ゼロ活性の割合が38%下がり、推論速度は20.5%、学習速度は21.9%向上したと報告されています。これは「スケーリングするほど効果が増す技術」の出現を意味し、フロンティアモデル開発における新しい軸になりうる発見です。

技術的な意義を踏まえたうえで、社会的なインパクトも見ておきましょう。推論コストの低下は、AIサービスの料金体系を直接揺さぶる要因です。同じハードウェアで20〜30%多くのリクエストをさばけるようになれば、API価格の引き下げや、これまで採算が合わなかった用途、たとえばオンデバイスでのリアルタイムAI連携なども現実味を帯びてきます。

環境面でも見過ごせません。データセンターの電力消費は、各国でAI規制やESG投資の文脈で焦点になりつつあります。EU AI Actは安全性・透明性を中核としつつも、汎用AIモデル提供者にはエネルギー消費の報告義務など一部の透明性要件が課されており、AIの環境負荷を可視化しようとする動きが各国で進んでいます。効率化技術は、こうしたコンプライアンス対応や企業のサステナビリティ戦略の観点でも価値を増していきます。

潜在的なリスク、というよりは留意点としては、スパース化された活性のパターンが「非均質」だという点でしょう。論文中でも、ごく一部のトークンが平均の100倍以上のニューロンを活性化させていると報告されています。これは、モデルが「重要だと判断したトークン」に計算を集中させていることを示唆しますが、その判断基準そのものがブラックボックスである以上、出力の解釈可能性や公平性の評価には新たな観点が必要になるかもしれません。

そして、innovaTopiaの読者にとって最も注目すべき点は、おそらくこの研究の「出自」です。Sakana AIは2023年に東京で設立された、わずか2年余りの企業ですが、2025年11月時点で評価額2.65Bドル、日本の未上場スタートアップとして史上最大級の規模に成長しています。共同創業者のリオン・ジョーンズ氏は、Transformerアーキテクチャを世に問うた論文「Attention Is All You Need」の共著者であり、現代AIの基盤を作った人物の一人です。

その彼らが、巨額の計算資源で殴り合うフロンティアモデル競争ではなく、「ハードウェアレベルの効率化」という、地味だが本質的な領域でNVIDIAと組んで成果を出している。これは、日本発のAI研究が世界の最先端で勝負できることを示す、象徴的な事例だと言えるでしょう。

長期的には、こうした効率化技術の積み重ねが、AIを「特権的な計算資源を持つ少数の企業の独占物」から、「より多くの人が触れられる道具」へと変えていく可能性があります。今回のカーネルとコードはオープンソースで公開される予定であり、研究成果を独占せず、コミュニティ全体に還元しようとする姿勢そのものが、テクノロジーと人類の関係を一段と豊かにする取り組みとして注目に値します。

【用語解説】

LLM(Large Language Model、大規模言語モデル)
膨大なテキストデータを学習し、文章生成や推論を行うAIモデル。パラメータ数は数十億〜数兆規模に及ぶ。

フィードフォワード層
Transformerモデルを構成する基本部品の一つ。各トークンを独立に処理する2段の線形変換層で、モデル全体のパラメータとFLOPs(浮動小数点演算量)の大半を占める。

スパース性(疎性)/非構造的スパース性
行列やベクトルにゼロ要素が多い状態を指す。「非構造的」とは、ゼロの位置が規則的でなくランダムに分布していることを意味し、ハードウェアで効率的に処理するのが難しい。

TwELL(Tile-wise ELLPACK)
本研究で提案された新しいスパースデータ・パッキング・フォーマット。従来のELLPACKを、GPUのタイル化計算単位に合わせて再設計したもの。

CUDAカーネル
NVIDIA GPU上で実行される並列処理プログラム。CUDAはNVIDIAが提供するGPU向けプログラミング基盤である。

Tensor Core
NVIDIA GPUに搭載された、行列積和演算に特化した専用ハードウェアユニット。深層学習の高密度行列計算で極めて高いスループットを発揮する一方、スパース計算には不向きとされてきた。

L1正則化
機械学習で用いられる正則化手法の一つ。重みや活性の絶対値の和をペナルティとして加えることで、多くの値をゼロに近づける性質があり、スパース性を誘発する。

下流タスク(Downstream Task)
事前学習済みモデルを応用して評価する具体的なタスクのこと。質問応答、推論、コード生成などが代表例である。

バッチ推論
複数の入力をまとめて一度にモデルに通して処理する推論方式。GPUの並列性を活かして単位時間あたりの処理量を増やせる。

Transformer
2017年にGoogleが論文「Attention Is All You Need」で提案したニューラルネットワーク・アーキテクチャ。現代の主要なLLMはすべてこの構造を基盤としている。

フロンティアモデル
AI研究の最前線に位置する最大規模・最高性能のモデル群を指す呼称。GPT-4、Claude、Geminiなどが該当する。

ペタワット時(PWh)
電力量の単位で、1ペタワット時は1兆キロワット時に相当する。世界全体の年間電力消費量と比較される規模である。

ESG投資
環境(Environment)、社会(Social)、企業統治(Governance)の3要素を考慮する投資手法。AIの電力消費は環境項目で評価対象となりつつある。

EU AI Act
欧州連合(EU)が2024年に成立させたAI規制法。リスクベースでAIシステムを分類し、安全性・透明性・基本的人権の保護を中核に据える世界初の包括的AI法である。汎用AIモデル提供者にはエネルギー消費の報告義務など一部の透明性要件も課されている。

【参考リンク】

Sakana AI(公式サイト)(外部)
東京を拠点とする生成AI研究開発企業。元Google研究者らが2023年に共同創業した。

Sakana AI 研究ブログ「Sparser, Faster, Lighter Transformer Language Models」(外部)
本記事で扱った研究の公式発表ページ。論文・GitHubへのリンクも掲載されている。

NVIDIA(公式サイト)(外部)
GPUおよびAIアクセラレータの世界最大手。本研究の共同実施者であり、CUDAやTensor Coreなどの基盤技術を提供する。

NVIDIA H100 Tensor Core GPU 製品ページ(外部)
本研究の評価で使用されたデータセンター向けGPU。Hopperアーキテクチャを採用し、Transformer Engineを搭載する。

ICML(International Conference on Machine Learning)公式サイト(外部)
機械学習分野の最高峰の国際会議の一つ。本研究はICML 2026での発表が予定されている。

GitHub – SakanaAI/sparser-faster-llms(外部)
本研究のコードおよびCUDAカーネルが公開予定の公式リポジトリ。

【参考記事】

Sparser, Faster, Lighter Transformer Language Models(arXiv論文版)(外部)
本研究の正式な技術論文。L1正則化により99%超のスパース性を誘発でき、効率改善はモデル規模とともに拡大することを定量的に示している。

Sakana AI raises $135M Series B at a $2.65B valuation to continue building AI models for Japan(TechCrunch)(外部)
2025年11月17日付。Sakana AIが約1億3500万ドルのシリーズB調達を完了し、評価額26億5000万ドルに到達したと報じる記事。

Quantifying the Energy Consumption and Carbon Emissions of LLM Inference via Simulations(arXiv)(外部)
LLM推論のエネルギー消費を定量化した研究。2026年に世界の推論需要がペタワット時規模に達する可能性を示す。

EU AI Act 公式情報サイト(外部)
EU AI Actの条文・解説を整理した公式情報源。汎用AIモデル提供者の透明性要件についても確認できる。

Sakana AI Research Targets More Efficient Large Language Model Inference(TipRanks)(外部)
本研究を投資・金融メディアの観点から分析した記事。AIインフラ経済性に与える影響に注目している。

Sakana – 2026 Company Profile, Team, Funding & Competitors(Tracxn)(外部)
Sakana AIの企業プロファイル。総調達額3億7900万ドル、評価額26億5000万ドル等の情報が整理されている。

LLM Energy Consumption: Unveiling AI’s Power Usage(ADaSci)(外部)
LLMのエネルギー消費に関する解説記事。GPT-3の学習に1287MWhが使われたと報告している。

【関連記事】

Sakana Fugu βテスト開始|複数の基盤モデルを束ねる日本発オーケストレーションAI
Sakana AIの最新商用プロダクト発表記事。同社の研究路線と企業価値、Series Bの背景を整理しており、本記事の文脈理解に役立つ。

Sakana AI TreeQuest:AI同士の協力で単体性能を30%向上、オープンソース化も発表
Sakana AIが推論効率化に取り組んだ過去事例。複数LLM協調による性能向上を扱い、本記事のハードウェア効率化と対をなすアプローチとして読める。

Sakana AIのM2N2進化アルゴリズム、コスト削減でAIモデル融合に革命
高額な学習を回避するモデル融合技術を扱った記事。Sakana AIの「効率化を軸にした研究文化」を理解する補完情報となる。

速報: FlashAttention-3がNvidia GPUでLLMの速度を倍増、新たな可能性を開く
H100 GPUでLLMを1.5〜2倍高速化したFlashAttention-3の解説記事。本記事のCUDAカーネル最適化と直接的に対応する技術系譜上の先行事例。

生成型AIのエネルギー消費とメモリ壁、持続可能な開発への挑戦
LLMのエネルギー消費とメモリ帯域の問題を扱った記事。本記事の社会的意義(推論コスト削減・環境負荷低減)の背景理解に有用。

【編集部後記】

LLMの中で、実は計算の大半が「ゼロを掛け算しているだけ」だった、という事実は少し意外ではないでしょうか。今回の研究は、その見過ごされてきた領域に、ハードウェアの作法から手を入れていく試みです。

みなさんが日常で使う生成AIの応答速度や料金、その裏で消費されている電力にも、こうした地道な改良が静かに効いてきます。日本発のSakana AIが最先端で挑んでいるこの流れを、一緒に見届けていけたら嬉しいです。

Googleで優先するソースとして追加するボタン
投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!