DeepSeek「DSpark」公開、V4の生成速度を最大85%高速化する投機的デコーディング

新しいAIが出るたび、私たちは「どれだけ賢くなったか」に注目してきました。でも今回DeepSeekが公開したDSparkは、賢さには一切手を触れません。V4の頭脳はそのまま、答えが返ってくる「速さ」だけを引き上げる技術です。しかもモデルを作り直す必要はなく、既存の重みに小さな部品を足すだけ。地味に聞こえるかもしれませんが、AIを日々動かす現場では、この「速さ」と「安さ」こそが最大の勝負どころになりつつあります。派手な新モデルの影で進む、もう一つのAI競争。その最前線をのぞいてみます。


DeepSeekは2026年6月27日、投機的デコーディングフレームワーク「DSpark」を、オープンソースのチェックポイントと学習コードとともに公開した。DSparkは新モデルではなくサービング最適化であり、チェックポイントDeepSeek-V4-Pro-DSparkとDeepSeek-V4-Flash-DSparkは既存のV4の重みを再利用しドラフトモジュールを付加する。

研究チームは学習・評価コードベースDeepSpecもMITライセンスで公開した。DSparkは並列ドラフトのバックボーンと逐次ヘッドを組み合わせる。オフラインでは受理長がEagle3比で26〜31%、DFlash比で16〜18%向上する。DeepSeek-V4の本番環境では、ユーザーあたり生成がMTP-1比でFlashで60〜85%、Proで57〜78%高速化する。出荷構成はDSpark-5である。出力は検証手順が正しく実装される限りターゲットモデルの出力分布を保つ設計であり、ターゲットモデルの再学習は不要だ。

From: 文献リンクDeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60–85% Over MTP-1

【編集部解説】

まず押さえておきたいのは、DSparkが「新しいモデル」ではないという点です。DeepSeek-V4の頭脳そのものは変わりません。変わるのは、その頭脳が答えを出力する「速さ」です。既存のV4の重みにドラフトモジュールを後付けするだけで、モデルを作り直す必要はありません。この設計思想こそが、今回の発表を理解する起点になります。

投機的デコーディングという技術自体は新しいものではありません。小さなドラフトモデルが先回りして数トークンを提案し、本体モデルがそれをまとめて検証する。当たっていれば一気に複数トークンを確定でき、外れても本来の品質は損なわれない——いわば「先読みと答え合わせ」の仕組みです。DSparkの新しさは、この先読みの精度と、答え合わせの量を状況に応じて調整する点にあります。

技術的な核心は2つあります。1つは「半自己回帰的生成」で、並列で高速に下書きを作るバックボーンに、直前のトークンだけを見る軽量な逐次ヘッド(Markovヘッド)を組み合わせ、ブロック後方ほど予測が崩れる従来の弱点を抑えます。もう1つは「信頼度スケジュール型検証」で、GPUに余裕があるときは多めに、混雑時は少なめにトークンを検証し、ハードウェアの状態にあわせて検証量を動的に変えます。

注目すべきは、この発表が示す競争の構図です。海外メディアの分析によれば、Deloitteは2025年11月に、推論ワークロードがAIコンピュート全体に占める割合は2023年の約3分の1から2026年にはおよそ3分の2へ拡大すると予測しました。つまりAIのコスト中心は、すでに「学習」から「推論」へと移りつつあるのです。DeepSeekは、混合エキスパート(MoE)による学習側の効率化に続き、投機的デコーディングによるサービング側の効率化でも、ソフトウェア最適化でこの経済性の転換を捉えようとしているように見えます。

開発者にとって本質的に重要なのは、DSpark単体よりむしろ同時公開された「DeepSpec」かもしれません。DeepSpecは学習済みの重みだけでなく投機的デコーディングの学習機構一式を含むため、実務者はDeepSeekが配布するものに依存せず、自分の用途に合わせた独自のドラフトモデルを学習できます。投機的デコーディング自体は業界で広く使われており、たとえばMetaはLlama向けに本番規模のspeculative decodingを公表しています。一方でOpenAIやAnthropicは自社サービングの内部実装の詳細を公開していません。そうした中で、再現可能で監査可能なフルスタックの学習・評価基盤をMITライセンスで開放した点に、今回の意義があります。

一方で、数字の受け取り方には冷静さが求められます。受理長のEAGLE-3比の向上や本番速度の主張はすべてベンダー(DeepSeek自身)が報告したもので、2026年6月時点で公開情報からは独立した再現を確認できません。たとえばProでの57〜78%という高速化も、あくまでDeepSeek側の報告値です。さらに速度向上の基準は素のデコーディングではなくMTP-1です。最も劇的な数字は、従来のMTP-1がサービス品質の限界付近で動作し、ごく小さな同時バッチしか処理できない状況で生じるものであり、V4を運用するあらゆるチームに当てはまる普遍的な倍率ではありません。SNS上では51%といった数字も飛び交っていますが、自分の実トラフィックで eval.py を回して確かめるのが実務的な答えになります。

導入のハードルも見ておくべきでしょう。DeepSpecのデフォルトの学習構成(Qwen3-4B例)は、8基のGPUを備えた単一ノードと、ターゲットキャッシュ用に約38TBのストレージを前提とします。これはV4そのものを動かす要件ではなく、独自ドラフトを一から学習する場合の例ですが、Eagle3に対する受理長の改善が試す価値のあるものだとしても、フルパイプラインを回すのは現時点で潤沢なリソースを持つチーム向けといえるでしょう。誰でも今日から手元で学習できる、という性質のものではありません。

長期的な視点で見ると、この動きは「推論の最適化が誰でも参照できる公共財になりつつある」流れの一例として位置づけられます。モデルの賢さで差をつける時代から、同じ賢さをいかに安く速く届けるかで差がつく時代へ。DeepSeekが学習に続いてサービングの効率化レシピまで開放したことは、推論コストという見えにくい部分での競争を可視化し、業界全体の標準的な期待値を押し上げていく可能性を秘めています。

【用語解説】

投機的デコーディング(Speculative Decoding)
小さなドラフトモデルが先回りして複数トークンを提案し、本体のターゲットモデルがそれをまとめて1回で検証する高速化手法。検証手順が正しく実装される限り、ターゲットモデルの出力分布を保つ設計のため、原理上は品質を落とさずに速度を上げられる。

受理長(Accepted Length)
ドラフトが提案したトークンのうち、1サイクルで本体に受け入れられた長さ。これが長いほど1回の検証で多く確定でき、生成速度に直結する。DSparkの性能を測る中心的な指標。

MTP-1
DeepSeekが従来用いていた単一トークン予測(Multi-Token Prediction)方式のベースライン。比較表では検証長が静的に2トークンとされる。今回の60〜85%という速度向上は、素の生成ではなくこのMTP-1を基準にDeepSeekが算出した報告値である点が重要。

半自己回帰的生成(Semi-Autoregressive Generation)
並列で一気に下書きを作る方式と、直前トークンを見て1つずつ整える逐次方式を組み合わせたDSparkの中核アプローチ。速さと予測精度の両立を狙う。

Markovヘッド
直前の1トークンだけを参照してバイアスを加える軽量な逐次ヘッド。DSpark論文によれば、低ランク分解(rank 256)により大語彙でも低コストで動作するとされる。詳細は同論文の該当箇所を参照のこと。DSparkのデフォルト構成。

信頼度スケジュール型検証(Confidence-Scheduled Verification)
各ドラフトトークンが検証を通る確率を推定し、GPUの負荷状況に応じて検証するトークン数を動的に増減させる仕組み。混雑時のバッチ容量の浪費を防ぐ。

MoE(Mixture-of-Experts/混合エキスパート)
入力ごとに必要な一部の「専門家」ネットワークだけを起動する設計。DeepSeek-V4が採用し、全パラメータを毎回使わずに計算を効率化する。

期待較正誤差(ECE)
モデルが出力する自信度と実際の正解率のズレを測る指標。DSpark論文によれば、Sequential Temperature Scalingによりこれを3〜8%から約1%へ低減したとされる。いずれもDeepSeek側が報告した値であり、独立検証は確認されていない。

【参考リンク】

DeepSpec(GitHub)(外部)
DSparkを含む投機的デコーディングの学習・評価コードベース。MITライセンスで公開され、3アルゴリズムを収録する。

DeepSeek-V4-Flash-DSpark(Hugging Face)(外部)
DSparkを付加したV4-Flashのチェックポイント。再学習なしで既存のV4重みに適用できる。

DeepSeek-V4-Pro-DSpark(Hugging Face)(外部)
DSparkを付加したV4-Proのチェックポイント。Proモデル向けの本番用配布物として公開されている。

DSpark論文(PDF)(外部)
DSparkの技術詳細をまとめた論文。レイテンシ方程式や受理長の比較、信頼度スケジューリングの設計を記載する。

DeepSeek(公式GitHub組織ページ)(外部)
DeepSeekのオープンソースリポジトリ群。DeepSpecのほか推論・学習インフラ向けツールを多数公開する。

【参考記事】

DeepSeek Releases DSpark: Speculative Decoding Makes V4 Up to 85 Percent Faster(TechTimes)(外部)
独立検証が未公開である点を指摘。Deloitteの「推論が2026年にAIコンピュートの約3分の2」予測を引き、ソフト最適化での勝負と分析する。

DeepSeek DSpark: What Semi-Autoregressive Speculative Decoding Actually Changes(Acing AI)(外部)
受理長の改善幅(EAGLE-3比+26.7〜30.9%等)を整理しつつ、全てベンダー提供値で独立再現がない点を強調する。

DeepSeek Open-Sources DeepSpec Speculative Decoding Stack(AI Weekly)(外部)
Flash60〜85%・Pro57〜78%の向上と、8基GPU・約38TBの学習要件を報告。今後の拡張余地を論じる。

DeepSeek open sources DSpark, a new framework to speed up LLM inference by up to 85%(VentureBeat)(外部)
MITライセンス公開の意義を解説。ドラフトとターゲットの整合性が重要で、他モデルへ転用できない点を指摘する。

DeepSeek has released ‘DSpark’(GIGAZINE)(外部)
実運用環境で60〜85%改善と報じ、DSpark-5をMTP-1と比較。51%級の数値の出どころも整理している。

Efficient Speculative Decoding for Llama at Scale(Meta AI)(外部)
Metaが本番規模でLlama向けに投機的デコーディングを運用した課題と解法を公表した研究論文。

【関連記事】

Sakana AI×NVIDIA、新フォーマット「TwELL」でLLM推論を最大30%高速化 H100でメモリ24%超削減(内部)
同じ「推論を速くする」最適化の系譜にある一本。DSparkとは異なるアプローチで高速化に挑む技術として読み比べられる。

DeepSeek-V3.2発表、GPT-5級の推論性能をオープンソースで実現(内部)
今回のDSparkが付加されるV4系の前世代にあたるモデル。DeepSeek独自のスパースアテンションなど効率化思想の背景を押さえられる。

DeepSeek V3が Mac Studioで毎秒20トークン処理を実現 — OpenAIの悪夢となるオープンソースAI革命(内部)
DSparkの比較基準であるMTP(Multi-Token Prediction)に触れた記事。投機的デコーディングの前提技術を理解する補助線になる。

【編集部後記】

チャットに質問を投げて、答えがスラスラ流れてくる——あの体験を、私たちはいつの間にか「当たり前」として受け取るようになりました。けれど今回DSparkを追いかけていて気づいたのは、あのなめらかさが、実は膨大な工夫の上にかろうじて成り立っているという事実です。トークンを一つずつ律儀に生成していては間に合わない。だから先回りして下書きし、まとめて答え合わせをする。そんな「せっかちな効率化」が、画面の裏側で静かに走り続けているわけです。

面白いと思ったのは、DeepSeekがこの高速化のレシピを、モデルの重みだけでなく学習コードまで含めてまるごと公開した点です。速さの秘訣は本来、各社が手の内に隠しておきたいはずのもの。それをMITライセンスで開いてしまうのは、「賢さで抜きん出る」段階から「同じ賢さをいかに安く速く届けるか」という次の勝負へ、競争の軸そのものが移りつつあることの表れなのかもしれません。数字はまだDeepSeek自身の報告値で、独立した検証はこれからです。そこは冷静に見ておく必要があります。

それでも、と思うのです。かつては潤沢なGPUを持つ一握りの組織だけが握っていた「速く動かす技術」が、誰でも読めて、試せて、自分の用途に作り替えられる形で置かれている。この流れは、これから先もっと効いてくる気がします。私自身、新しいモデルの賢さに一喜一憂するのと同じくらい、こういう「見えないところの進歩」にわくわくする感覚を、少しずつ育てていきたいと感じました。あなたは、AIのどんな進化に心が動くでしょうか。その答えを探しながら、次のニュースもまた一緒に見ていけたらと思います。

Googleで優先するソースとして追加するボタン
投稿者アバター
山本 達也
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。