Mistral AI、Devstral 2を発表─123Bパラメータでコスト効率7倍、SWE-bench 72.2%達成のオープンソースコーディングモデル

Mistral AI、Devstral 2を発表──123Bパラメータでコスト効率7倍、SWE-bench 72.2%達成のオープンソースコーディングモデル - innovaTopia - (イノベトピア)

2025年12月9日、Mistral AIはDevstral 2およびDevstral Small 2とMistral Vibe CLIを発表した。Devstral 2は123Bパラメータのトランスフォーマーモデルで、SWE-bench Verifiedで72.2%を達成し、256Kコンテキストウィンドウを持ち、修正MITライセンスで提供される。

Devstral Small 2は24Bパラメータで、SWE-bench Verifiedで68.0%を記録し、Apache 2.0ライセンスで提供される。両モデルはDeepSeek V3.2やKimi K2より小型であり、Devstral 2はAPI経由で一時的に無料提供され、その後の料金は入力0.40ドル/出力2.00ドル per million tokens、Devstral Small 2は入力0.10ドル/出力0.30ドル per million tokensとなる。

Mistral Vibe CLIはApache 2.0ライセンスのコマンドラインエージェントであり、Zed向け拡張としても利用可能である。Devstral 2は少なくとも4基のH100クラスGPU、Devstral Small 2は単一GPUやCPUのみでも動作するとされている。

From: 文献リンクIntroducing: Devstral 2 and Mistral Vibe CLI. | Mistral AI

 - innovaTopia - (イノベトピア)
Mistral AI公式プレスリリースより引用

【編集部解説】

今回Mistral AIが発表したDevstral 2は、オープンソースのコーディングモデルとして極めて重要な意味を持ちます。

最大の注目点は、パラメータサイズに対する性能の高さです。Devstral 2は123Bパラメータでありながら、SWE-bench Verifiedで72.2%を記録しました。これは、DeepSeek V3.2の約615Bパラメータ、Kimi K2の約984Bパラメータと比較して圧倒的に小型でありながら、実用的なコーディングタスクで競争力のある性能を発揮することを意味します。

さらに驚くべきは24Bパラメータ版のDevstral Small 2で、68.0%のスコアを達成している点です。これはラップトップや単一GPUでも動作可能なサイズでありながら、120Bパラメータ規模のモデルに匹敵する性能を示しています。つまり、企業の開発者がクラウドAPIに依存せず、ローカル環境でプライベートなコード開発を行えるようになったということです。

コスト面での革新も見逃せません。Devstral 2のAPI料金は入力0.40ドル、出力2.00dル per million tokensで、Claude Sonnet 4.5の3.00ドル/15.00ドルと比較して最大7倍のコスト効率を実現しています。ただし、人間による評価ではClaudeが依然として優位性を保っており、クローズドソースモデルとの品質ギャップは残存しています。

Mistral Vibe CLIの登場は、AIコーディングアシスタントの新しいパラダイムを示唆しています。これまでのIDE統合型ツールとは異なり、ターミナル環境でGit履歴やファイル構造全体を認識しながら、複数ファイルにまたがる変更を自律的に実行します。Apache 2.0ライセンスで提供されることで、企業が独自のワークフローに合わせてカスタマイズできる柔軟性も確保されています。

この発表が示すのは、AI開発の民主化が新たな段階に入ったという事実です。高性能なコーディングAIが、より小型で、より安価で、よりオープンになることで、スタートアップや個人開発者にも本格的なAIアシスト開発環境が手の届くものとなりました。

【用語解説】

SWE-bench Verified
実世界のソフトウェアエンジニアリングタスクでAIモデルの能力を評価するベンチマークである。GitHubの実際のイシューとプルリクエストから作成された500のタスクで構成され、人間による検証を経て信頼性を高めている。エラー率は5〜10%と比較的低く、コーディングAIの実用性を測る標準的な指標として広く採用されている。

パラメータ(Parameter)
ニューラルネットワークが学習によって調整する数値のことで、モデルの規模と能力を示す指標である。123Bは1230億個、24Bは240億個のパラメータを意味する。一般的にパラメータ数が多いほど性能は高くなるが、計算コストや必要なハードウェアも増大する。

コンテキストウィンドウ(Context Window)
AIモデルが一度に処理できるテキスト量を指す。256Kトークンは約19万2000語に相当し、大規模なコードベース全体を把握しながら作業できることを意味する。

Apache 2.0ライセンス / 修正MITライセンス
オープンソースソフトウェアの利用条件を定めたライセンスである。Apache 2.0は商用利用や改変が自由で特許権の保護も含まれる。修正MITライセンスは基本的に自由度が高いが、特定の条件が追加されている場合がある。

Agent Communication Protocol (ACP)
AIエージェントが開発環境やツールと通信するための標準プロトコルで、IDEやターミナルとシームレスに連携できる仕組みを提供する。

【参考リンク】

Mistral AI(外部)
フランス発のAIスタートアップで、高性能かつ効率的なオープンソース言語モデルの開発に注力。2023年4月設立。

SWE-bench(外部)
AIモデルのソフトウェアエンジニアリング能力を評価するベンチマークの公式サイト。リーダーボードで各モデルの性能比較を確認できる。

Cline (GitHub)(外部)
VS Code向けの自律的コーディングエージェント。ファイル作成・編集、コマンド実行、ブラウザ操作などを段階的に実行できる。

Cline公式サイト(外部)
AIコーディングアシスタントClineの公式サイト。初心者から経験豊富な開発者まで対応した対話的な開発支援ツールの情報を提供。

【参考記事】

Mistral debuts Vibe CLI agent and open-weight Devstral 2 models for enterprise-grade coding(外部)
Mistral AIがDevstral 2とVibe CLIを発表し、エンタープライズグレードのコーディングソリューションを提供する内容を報じている。

Mistral Devstral 2: 7x Cheaper Than Claude, 72% SWE-Bench(外部)
Devstral 2がClaude Sonnet 4.5と比較して最大7倍のコスト効率を実現していることを報じている。

SWE-bench Verified(外部)
OpenAIが発表したSWE-bench Verifiedの構築方法と評価基準を詳述。人間による検証プロセスについて説明している。

What skills does SWE-bench Verified evaluate?(外部)
SWE-bench Verifiedのエラー率が5〜10%と比較的低いことを示し、ベンチマークの信頼性について分析している。

【編集部後記】

みなさんの開発環境では、AIアシスタントをどのように活用されていますか? Devstral 2のような高性能モデルがオープンソースで登場したことで、プライベートなコードベースでも本格的なAI支援が現実的になってきました。特にローカル環境で動作するDevstral Small 2は、クラウドに依存せず開発できる選択肢として魅力的です。

コスト効率と性能のバランス、そしてオープン性がもたらす可能性について、ぜひ一緒に考えてみませんか。AIが支える開発の未来が、また一歩近づいてきたように感じます。

投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!

読み込み中…
advertisements
読み込み中…