innovaTopia

ーTech for Human Evolutionー

ByteDanceが推論AI「Seed-Thinking-v1.5」を発表、OpenAIやGoogleを上回る性能を一部ベンチマークで実現

ByteDanceが推論AI「Seed-Thinking-v1.5」を発表、OpenAIやGoogleを上回る性能を一部ベンチマークで実現 - innovaTopia - (イノベトピア)

Last Updated on 2025-04-14 13:09 by admin

中国のウェブメディア大手でTikTokの親会社であるByteDanceは2025年4月11日、新しい大規模言語モデル「Seed-Thinking-v1.5」を発表した。このモデルは科学、技術、数学、工学(STEM)分野および一般目的領域での推論性能向上に特化している。

Seed-Thinking-v1.5はMixture-of-Experts(MoE)アーキテクチャを採用しており、合計2000億パラメータのうち一度に200億パラメータのみを使用する効率的な設計となっている。このモデルはDeepSeek R1を上回り、GoogleのGemini 2.5 ProやOpenAIのo3-mini-highに近い性能を示し、特にARC-AGIベンチマークではそれらを上回る結果を出している。

具体的なベンチマーク結果として、AIME 2024で86.7%、Codeforcesでpass@8で55.0%、GPQAサイエンスベンチマークで77.3%のスコアを達成している。また、非推論タスクにおいても、DeepSeek R1と比較して8.0%高い勝率を示している。

ByteDanceは訓練データとして400,000サンプルを厳選し、そのうち300,000は検証可能な問題(STEM、論理、コーディングタスク)、100,000は創造的な文章作成やロールプレイングなどの検証不可能な問題で構成されている。

Seed-Thinking-v1.5の強化学習アプローチは、強化学習訓練における既知の不安定性に対処するために開発されたカスタムアクター・クリティック(VAPO)とポリシー・グラディエント(DAPO)フレームワークによって支えられており、特に長いチェーン・オブ・ソート(CoT)設定での訓練安定性を向上させている。

現時点ではこのモデルはダウンロードや使用はできず、ライセンス条件も不明だが、技術論文はGitHubで公開されている。ByteDanceはこのプロジェクトを呉永輝氏が率いるSeed LLMシステムチームが開発し、長年のAI貢献者である林海彬氏が公開代表を務めている。

なお、この「推論AI」の流れは2024年9月のOpenAIのo1モデル発表から始まり、2025年1月のDeepSeek R1の登場で加速した。現在、主要なAIモデルプロバイダーのほとんどがこの新たな競争に参入している状況である。

from:Now it’s TikTok parent ByteDance’s turn for a reasoning AI: enter Seed-Thinking-v1.5!

【編集部解説】

TikTokの親会社ByteDanceが発表した新しい推論AIモデル「Seed-Thinking-v1.5」は、現在のAI開発競争における重要な転換点を示しています。この発表は、単なる新モデルの登場以上の意味を持っています。

まず注目すべきは、このモデルが「推論AI」と呼ばれる新しい潮流の一部であることです。2024年9月のOpenAIのo1モデル発表から始まり、2025年1月のDeepSeek R1の登場で加速したこの流れは、AIの質的な変化を象徴しています。従来のAIモデルが「速さ」を重視していたのに対し、推論AIは少し時間をかけてでも「思考の質」を高めることに焦点を当てています。これらのモデルは「思考の連鎖(Chain-of-Thought)」を実行し、自身の結論を反省し、応答する前にその真実性を検証することでこれを実現しています。

Seed-Thinking-v1.5の技術的特徴として、Mixture-of-Experts(MoE)アーキテクチャの採用が挙げられます。これにより、合計2000億パラメータという膨大な規模を持ちながら、実際の処理では一度に200億パラメータのみを使用する効率的な設計となっています。この方式は、Meta(旧Facebook)のLlama 4やMistralのMixtralなど、最新の大規模言語モデルでも採用されている先進的なアプローチです。

ベンチマーク結果を見ると、Seed-Thinking-v1.5はDeepSeek R1を上回り、GoogleのGemini 2.5 ProやOpenAIのo3-mini-highに近い性能を示しています。特に注目すべきは、ARC-AGIベンチマークではOpenAIやGoogleのモデルを上回る結果を示していることです。ARC-AGIは人工知能全般(AGI)への進歩を測定する重要な指標とされています。

また、AIME 2024では86.7%、Codeforcesでは55.0%(pass@8)、GPQAサイエンスベンチマークでは77.3%という高いスコアを達成しています。これらの数値は、特に数学や科学分野における推論能力の高さを示しています。

ByteDanceの取り組みで特筆すべきは、訓練データの厳選プロセスです。400,000サンプルのうち300,000は検証可能な問題(STEM、論理、コーディングタスク)、100,000は創造的な文章作成やロールプレイングなどの検証不可能な問題で構成されています。この厳選されたデータセットが、モデルの高い推論能力を支えています。

さらに、ByteDanceは「BeyondAIME」という新しい、より難しい数学ベンチマークを導入しました。これは既存のベンチマークが飽和状態になりつつある中で、AIモデルの真の能力を測定するための新たな試みと言えるでしょう。

報酬モデリングの面でも、ByteDanceは革新的なアプローチを採用しています。「Seed-Verifier」と「Seed-Thinking-Verifier」という2つの重要なツールを導入し、生成された回答の評価を行っています。Seed-Verifierは生成された回答と参照回答が数学的に同等であるかを確認するルールベースのLLMであり、Seed-Thinking-Verifierはステップバイステップの推論に基づいて判断を行う仕組みです。この二層報酬システムにより、単純なタスクと複雑なタスクの両方に対して細やかな評価が可能になっています。

効率的な大規模訓練を支えるインフラ面でも注目すべき革新があります。特に「Streaming Rollout System(SRS)」は、モデルの進化をランタイム実行から分離することで、反復速度を最大3倍加速させたと報告されています。

Seed-Thinking-v1.5の開発には、ByteDanceのSeed LLMシステムチームが携わり、呉永輝氏がリードし、長年のAI貢献者である林海彬氏が公開代表を務めています。この国際的なチーム構成も、グローバルなAI開発競争の一面を表しています。

このモデルが私たちの生活や産業にもたらす影響は計り知れません。特に、複雑な推論を必要とする分野—医療診断、科学研究、法律分析、金融予測など—において、より信頼性の高い支援ツールとなる可能性があります。

一方で、こうした高度な推論AIの普及は、情報の信頼性や真偽の判断をAIに委ねることへの依存度を高める可能性もあります。人間の批判的思考能力の維持や、AIの判断に対する適切な監視メカニズムの構築が重要な課題となるでしょう。

また、ByteDanceという中国企業による高性能AIモデルの開発は、国際的なAI開発競争における地政学的な側面も浮き彫りにしています。米国を中心とした西側諸国と中国の間のAI開発競争は、単なる技術的な競争を超えて、将来の国際秩序や経済力にも影響を与える可能性があります。

現時点ではSeed-Thinking-v1.5はまだ一般に公開されておらず、ライセンス条件も明らかにされていません。このモデルが独自/クローズドソースになるのか、オープンソース/自由に使用・修正可能になるのか、あるいはその中間になるのかは不明です。この選択は、AIモデルの民主化と商業的利益のバランスという、現在のAI業界全体が直面している課題を反映しています。

今後、ByteDanceがこのモデルをどのように展開し、TikTokなどの自社プラットフォームにどう統合していくのかも注目点です。ソーシャルメディアと高度な推論AIの融合は、コンテンツ生成、モデレーション、パーソナライゼーションなどの領域に革新をもたらす可能性があります。

【用語解説】

Mixture-of-Experts (MoE)アーキテクチャ
MoEは、複数の専門家(エキスパート)モデルを組み合わせて効率的に大規模な問題を解決する手法だ。日本の「分業制」や「専門医制度」に似ており、各エキスパートが得意分野を担当することで全体の性能を向上させる。

推論AI(Reasoning AI)
単に回答を生成するだけでなく、問題解決のプロセスを段階的に考え、自身の結論を検証する能力を持つAIモデルを指す。「思考の連鎖(Chain-of-Thought)」を実行し、自身の結論を反省し、応答する前にその真実性を検証することで、より質の高い回答を提供する。人間の論理的思考プロセスに近い動作を目指している。

チェーン・オブ・ソート(Chain of Thought, CoT)
AIが問題を解く際に、人間のように段階的に考えを進めていく過程のこと。複雑な問題解決や推論タスクでの性能向上に貢献する。

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)
人工知能の汎用性を測定するベンチマーク。AIが人間のような抽象的思考や推論能力を持っているかを評価する。OpenAIの定義によると、AGI(人工知能全般)とは「ほとんどの経済的に価値のあるタスクで人間を上回るモデル」というAIの目標または「聖杯」とされている。

Seed-VerifierとSeed-Thinking-Verifier
ByteDanceが開発した報酬モデリングのためのツール。Seed-Verifierは生成された回答と参照回答が数学的に同等であるかを確認するルールベースのLLM。Seed-Thinking-Verifierはステップバイステップの推論に基づいて判断を行い、判断の一貫性を向上させ、報酬ハッキングに抵抗する仕組み。

Streaming Rollout System (SRS)
ByteDanceが開発したシステムで、モデルの進化をランタイム実行から分離する。モデルバージョン間で部分的に完了した生成を非同期に管理することで、反復速度を最大3倍加速させたと報告されている。

ByteDance(バイトダンス)
中国のウェブメディア大手で、TikTokやDouyin(中国版TikTok)などの人気アプリを開発・運営している。2012年に設立され、急速に成長を遂げた。

OpenAI
人工知能研究所で、GPTシリーズなどの大規模言語モデルの開発で知られる。AIの安全性と倫理的な開発を重視している。

DeepSeek
中国のAI企業で、大規模言語モデルの開発に注力している。DeepSeek R1は同社の推論AIモデルだ。

Google
世界最大級の技術企業で、検索エンジンやクラウドサービスで有名。AI分野ではGeminiシリーズなどを開発している。

【参考リンク】

ByteDance公式サイト(外部)
ByteDanceの企業理念や製品情報を紹介している公式ウェブサイト。

TikTok(外部)
ByteDanceが運営する短尺動画共有プラットフォーム。世界中で人気を集めている。

GitHub – ByteDance-Seed/Seed-Thinking-v1.5(外部)
Seed-Thinking-v1.5の技術詳細やベンチマーク結果が公開されているGitHubリポジトリ。

【編集部後記】

皆さん、AIの進化が加速する中で、ByteDanceの新しい推論AIモデル「Seed-Thinking-v1.5」はどのように感じられましたか?日常生活で複雑な問題解決が必要な場面、例えば仕事や研究で行き詰まった時、「少し考える時間をかけても、より質の高い答えが欲しい」と思ったことはありませんか?これからのAIは「速さ」だけでなく「思考の深さ」も重視する方向に進化しています。皆さんが理想とするAIアシスタントとの関わり方について、ぜひSNSでお聞かせください。テクノロジーの未来を一緒に考えていきましょう。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

author avatar
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com
ホーム » AI(人工知能) » AI(人工知能)ニュース » ByteDanceが推論AI「Seed-Thinking-v1.5」を発表、OpenAIやGoogleを上回る性能を一部ベンチマークで実現