Qwen teamは2026年2月3日、コーディングエージェントとローカル開発向けのオープンウェイト言語モデルQwen3-Coder-Nextをリリースした。Qwen3-Next-80B-A3Bバックボーン上に構築され、スパースMoEアーキテクチャを採用している。
総パラメータ数は80Bだが、トークンあたりアクティブになるのは3Bのみである。48レイヤー、隠れ次元2048で構成され、512のエキスパートのうちトークンあたり10エキスパートと1共有エキスパートがアクティブになる。約80万の検証可能なタスクと強化学習で訓練されている。
ベンチマークではSWE-Bench Verifiedで70.6、SWE-Bench Multilingualで62.8、SWE-Bench Proで44.3、Terminal-Bench 2.0で36.2、Aiderで66.2のスコアを記録した。
256Kコンテキストをサポートし、Apache-2.0ライセンスの下、SGLang、vLLM、GGUFでのデプロイメントに対応する。
【編集部解説】
AIコーディングアシスタント市場が新たな局面を迎えています。これまでGitHub CopilotやClaude、ChatGPTといったクローズドソースのモデルが主流でしたが、Qwen3-Coder-Nextは「オープンウェイト」という形で、誰でもローカル環境で実行できるコーディング特化型AIとして登場しました。
このモデルの最大の特徴は、80Bという巨大なパラメータを持ちながら、トークンあたりわずか3Bのパラメータしかアクティブにならない「超スパース設計」です。512のエキスパートを用意し、必要に応じて10個のエキスパートと1個の共有エキスパートだけを動かす仕組みにより、推論コストを大幅に削減しています。報告によれば、訓練コストは約10分の1、推論速度は約10倍になったとされています。
技術的に注目すべきは「Gated DeltaNet」と「Gated Attention」を組み合わせたハイブリッドアーキテクチャです。従来の自己アテンション機構だけでなく、線形アテンションを組み込むことで、長いコンテキスト(256K トークン)を効率的に処理できるようになりました。これにより、大規模なコードベース全体を一度に読み込んで作業することが可能になります。
このモデルが変えるのは、コード補完という単純な作業だけではありません。約80万の実行可能タスクと強化学習によって訓練されており、計画立案、ツール呼び出し、テスト実行、エラーからの回復といった「エージェント的な振る舞い」ができます。つまり、開発者の指示に従って複数のファイルを編集し、テストを実行し、失敗したら自分で修正を試みる、という一連の流れを自律的に実行できるのです。
実用性の面でも進化が見られます。SGLangやvLLMといったサーバーデプロイメントフレームワークに対応し、OpenAI互換のAPIを提供するため、既存のツールチェーンにそのまま組み込めます。AMDが発表当日に対応を表明したことからも、産業界の期待の高さが伺えます。
ローカル実行も現実的になっています。4ビット量子化版であれば約46GBのメモリで動作するため、高性能なワークステーションやゲーミングPCでも実行可能です。企業にとっては、コードを外部サーバーに送信せずにプライベート環境でAIアシスタントを利用できる選択肢が生まれたことになります。
ただし、懸念材料もあります。SWE-Bench Verifiedでのスコアは70.6と高水準ですが、GLM-4.7の74.2には及びません。また、「非思考モード」のみのサポートは、推論過程を確認したい開発者にとっては物足りなさを感じるかもしれません。
セキュリティとガバナンスの観点では、Apache-2.0ライセンスによる完全なオープン化は諸刃の剣です。企業が自由にカスタマイズできる利点がある一方、悪意ある利用や予期しない挙動についての責任所在が曖昧になる可能性があります。
長期的には、このモデルが示す方向性—スパース化とハイブリッドアーキテクチャによる効率化—が業界標準になる可能性があります。計算資源の制約下で高性能を実現する技術は、AIの民主化と持続可能性の両面で重要な意味を持つでしょう。
【用語解説】
MoE(Mixture-of-Experts / 専門家混合モデル)
複数の「エキスパート」と呼ばれる小規模なニューラルネットワークを用意し、入力に応じて必要なエキスパートだけを選択的に使用する手法である。全パラメータを常時稼働させる必要がないため、計算効率が高い。
スパースアーキテクチャ
モデルの全パラメータのうち、一部だけをアクティブにする設計手法である。Qwen3-Coder-Nextでは80Bのパラメータを持ちながら、トークンあたり3Bしか使わないことで、推論コストを大幅に削減している。
トークン
AIモデルがテキストを処理する際の最小単位である。単語、単語の一部、記号などが該当し、モデルはこの単位で入力を読み取り、出力を生成する。
Gated DeltaNet
線形アテンション機構の一種で、長いシーケンスを効率的に処理できる技術である。従来の自己アテンションと比較して、計算量を削減しながら長距離依存関係を捉えることができる。
Gated Attention
アテンション機構にゲート構造を組み込んだもので、情報の流れを選択的に制御できる。不要な情報をフィルタリングし、重要な情報に焦点を当てることが可能になる。
強化学習
AIが試行錯誤を通じて学習する手法である。行動の結果に対する報酬や罰を基に、より良い行動パターンを獲得していく。コーディングタスクでは、正しく動作するコードを生成できたときに報酬を与えることで学習が進む。
コンテキストウィンドウ
AIモデルが一度に処理できる入力の長さである。256Kトークンは、大規模なコードベース全体を一度に読み込める容量に相当する。
量子化
モデルの数値表現の精度を下げることでファイルサイズとメモリ使用量を削減する技術である。4ビット量子化は元の32ビット表現を4ビットに圧縮し、約8分の1のメモリで動作可能にする。
オープンウェイト
モデルの重みパラメータが公開されており、誰でもダウンロードして使用できる形態である。オープンソースとは異なり、訓練コードは公開されない場合もある。
【参考リンク】
Qwen公式サイト(外部)
Alibaba CloudのQwenシリーズ公式サイト。モデルのダウンロード、技術ブログ、Qwen3-Coder-Nextの技術レポートを提供
Qwen3-Coder GitHub リポジトリ(外部)
Qwen3-Coderシリーズのソースコード、ドキュメント、使用例。実装詳細や訓練方法、デプロイメントガイドを収録
SWE-bench公式サイト(外部)
実際のGitHub問題を用いた大規模言語モデルの評価ベンチマーク。コード修正能力を客観的に測定できる
Apache License 2.0(外部)
ソフトウェアの自由な使用、修正、配布を許可する寛容なライセンス。商用利用も可能で修正部分の別ライセンス配布も認可
Hugging Face – Qwen3-Coder-Next(外部)
Qwen3-Coder-Nextのモデルウェイトホスティングページ。モデルカード、使用方法、性能指標を掲載
【参考記事】
Qwen3-Coder-Next: Pushing Small Hybrid Models to New Heights(外部)
Qwen team公式ブログによる技術解説。80万実行可能タスク訓練方法、訓練コスト10分の1削減を解説
Day 0 Support for Qwen3-Coder-Next on AMD Instinct GPUs(外部)
AMDによるQwen3-Coder-Next即日サポート発表。リリース当日からAMD Instinct GPUでの最適化デプロイが可能に
Qwen3-Next-80B-A3B-Base: Towards Ultimate Training & Inference Efficiency(外部)
Qwen3-Nextベースモデルの技術分析。2025年9月公開の訓練・推論効率向上について詳述
【編集部後記】
コーディング支援AIがローカル環境で動く時代が、本格的に始まろうとしています。GitHub Copilotのようなサービスは便利ですが、コードを外部に送信することへの懸念を感じている方も多いのではないでしょうか。
Qwen3-Coder-Nextのようなオープンウェイトモデルは、プライバシーを守りながらAIの恩恵を受けられる選択肢を提供してくれます。みなさんの開発環境では、どのようなAIツールを使っていますか?あるいは、導入を検討する上でどんな懸念や期待がありますか?ぜひお聞かせください。






がもたらす「アンテザード・ソサエティ」の衝撃-300x200.png)





























