DeepSeek-V3、671Bパラメータの超大規模AIモデルを公開 ー 開発費用は従来の10分の1で最高性能を達成

DeepSeek-V3、671Bパラメータの超大規模AIモデルを公開 ー 開発費用は従来の10分の1で最高性能を達成 - innovaTopia - (イノベトピア)

Last Updated on 2024-12-27 16:49 by admin

中国のAIスタートアップDeepSeekは、2024年12月26日、新たな超大規模モデル「DeepSeek-V3」を発表しました。671Bのパラメータを搭載し、混合専門家アーキテクチャによって特定のタスクを正確かつ効率的に処理します。

開発費用はわずか557万ドル(約82億円)で、従来の大規模言語モデル開発費用の10分の1以下という驚異的な低コストを実現。Math-500テストで90.2点を記録し、GPT-4やLlama 3.1-405Bなど主要モデルを上回る性能を示しています。

革新的な技術と効率性

DeepSeek-V3の最大の特徴は、671Bという巨大なパラメータ数を持ちながら、実際の処理では37Bのパラメータのみを活性化させる革新的なアプローチです。14.8兆トークンという大規模なデータセットで学習を行い、毎秒60トークンという高速な処理能力を実現しました。

from:DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch

【編集部解説】

DeepSeek-V3の最も注目すべき点は、従来のAIモデル開発の常識を覆す効率性にあります。671Bという巨大なパラメータ数を持ちながら、実際の処理では37Bのパラメータのみを活性化させる革新的なアプローチを採用しています。

この効率化により、従来のモデルと比較して驚異的な低コストでの開発を実現しました。557万ドルという開発コストは、MetaのLlama 3.1の開発費用(推定5億ドル)と比較すると、わずか1%程度です。

性能と実用性

DeepSeek-V3の特筆すべき点は、数学的推論能力です。Math-500ベンチマークで90.2%というスコアを達成し、次点のQwenの80%を大きく引き離しています。

また、毎秒60トークンという処理速度は、前モデルの3倍という高速化を実現しており、実用面での価値も高いと言えます。

市場への影響

API価格設定は、入力100万トークンあたり0.27ドル(キャッシュヒット時は0.07ドル)、出力100万トークンあたり1.10ドルと、競合モデルと比較して極めて競争力のある価格となっています。これは、AI市場全体の価格競争を促進する可能性があります。

 - innovaTopia - (イノベトピア)
フォームには元の価格と割引価格が表示されます今から2025 02 08 1600UTCまですべてのユーザーはDeepSeek APIの割引価格を利用できますその後通常価格に戻ります

通常は入力100万トークンあたり$0.07のところ、2025年2月8日まで$0.014
同じく出力100万トークンあたりは$1.10だが、2025年2月8日まで$0.28

で利用することが出来ます。

今後の展望と課題

中国発のAIモデルとして、特定の政治的トピックへの回答制限という課題を抱えています。しかし、このような制約がある一方で、技術的な革新性は極めて高く、今後のAI開発における「効率化」という新しいトレンドを示唆しています。

特に注目すべきは、DeepSeekが採用しているMoE(混合専門家アーキテクチャ)です。です。これは、将来的なAIモデルの開発コスト削減と性能向上の両立という、業界全体の課題に対する一つの解答となる可能性を秘めています。

産業界への示唆

従来、超大規模AIモデルの開発は、OpenAIやGoogle、Metaといった巨大テック企業のみが可能とされてきました。しかし、DeepSeek-V3の成功は、効率的なアーキテクチャと最適化技術の組み合わせにより、比較的小規模な企業でも競争力のあるAIモデルを開発できる可能性を示しています。

これは、AI開発の民主化につながる重要な一歩となる可能性があり、今後のAI産業の発展に大きな影響を与えることが予想されます。

【編集部追記】

人工知能の汎用化(AGI)に向けた取り組み
DeepSeekは、人工知能の汎用化(AGI)を目指しており、DeepSeek-V3の開発はその一環とされています。AGIは、人間が行うあらゆる知的タスクを理解・学習できるモデルの実現を目指すもので、DeepSeekはこの目標に向けて継続的にモデルの性能向上と効率化を進めています。

オープンソースモデルの拡充
DeepSeekは、オープンソースモデルの開発に力を入れており、DeepSeek-V3もGitHub上でMITライセンスの下で公開されています。今後もオープンソースモデルの拡充を続け、開発者や企業が自由に利用・改変できる環境を提供する方針です。

実際に使ってみました

本記事を執筆するにあたって、編集部で実際に使ってみました。
使ってみたところかなり高精度で、検索と長考にも対応しています。
以下、笹塚周辺のおすすめの飲食店について聞いた結果です。

 - innovaTopia - (イノベトピア)
 - innovaTopia - (イノベトピア)

全て実在するお店でした。実用性も十分でこれが無料で使えてかつ、オープンソースということことが驚きです。
※Search[NEW]にチェック入れずに質問したら、ほぼ架空のお店でした(^^;

【編集部再追記】
上記の「使ってみました」はinnovaTopiaの新米ライターによるものです。
こういった検索ではGeminiのほうが使い勝手がいいですね。
提示されるお店もさらに正確で口コミの点数や営業時間も添えてくれます。
また、Google mapにピンを立てて表示してくれるあたりは、連携ツールの多いGoogleの強みでもあります。中国のDeepSeekがどこまで日本の生活者に便利なサービスになっていくかは、、分かりません。

【用語解説】

  • MoE(Mixture of Experts)
    複数の専門家モデルを組み合わせるAIアーキテクチャ。各分野の専門家が得意分野を担当するような仕組みです。
  • MLA(Multi-head Latent Attention)
    DeepSeekが開発した注意機構の新方式で、記憶効率を大幅に改善します。

【参考リンク】

  1. DeepSeek-V3 公式リポジトリ(外部)
    モデルのソースコードとドキュメント。開発者向けの詳細な技術情報が提供されています。
  2. Hugging Face DeepSeek-V3(外部)
    モデルのダウンロードとデモが利用可能。ベンチマークスコアも確認できます。
  3. DeepSeek 公式サイト (外部)
    2023年7月設立。本社は中国の浙江省杭州市。
    CEOは梁文鋒(Liang Wenfeng)氏

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

ホーム » AI(人工知能) » AI(人工知能)ニュース » DeepSeek-V3、671Bパラメータの超大規模AIモデルを公開 ー 開発費用は従来の10分の1で最高性能を達成