「最後まで仕事をやり切るAIが欲しい」——そんな声に、中国・ByteDanceが正面から応えようとしています。同社が公開したのは、答えを一度返して終わりではなく、計画を立て、ツールを使い、検証まで自分で走り抜ける新世代モデル。間取り図を写真から起こしたり、Notion・Canva・Figmaを横断して作業をこなしたりと、その振る舞いはもはや「賢い相棒」というより「働く同僚」に近づいています。
そして注目すべきは、その照準が世界トップ級モデルにまっすぐ向けられていること。華やかなスコアの裏で、誰がどんなものさしで測ったのかという冷静な問いも忘れずに——本記事では、期待と注意の両方をフラットにお届けします。
ByteDance Seedチームは2026年6月23日、新世代モデル群「Seed2.1」を正式リリースした。Seed2.0以降のユーザーフィードバックを反映し、汎用agent能力、end-to-endのコーディング、マルチモーダル・基盤能力の3点を強化したと説明する。
Seed2.1 ProはGDPVal、CharXiv-RQ、MeasureBenchで最高スコアを達成し、Agents’ Last Exam(ALE)で最上位層に入った。MobileWorldでも最高スコアを記録し、強化学習によりタスク完了の平均ステップ数を16%削減した。Seed2.1 PreviewはCode Arena: Frontendでスコア1539、8位となった。DoubaoおよびVolcano EngineでDoubao Seed 2.1の利用が可能となった。
From:
Seed2.1 Officially Released: Advancing AI Productivity
【編集部解説】
本記事の元記事は、ByteDanceの研究組織「Seed」チームが自社の技術成果を語った一次情報です。読むうえで押さえておきたいのは、これが単独の発表ではなく、同じ6月23日に開かれた火山エンジン(Volcano Engine)の「FORCE」カンファレンスという、大きな商業発表の一部だという点です。技術ブログが「何ができるか」を語る一方で、カンファレンス側では火山エンジン社長のタン・ダイ(譚待)氏が、競合の最前線モデルを名指しして勝負を挑む姿勢を見せていました。
その名指しされた相手が、OpenAIのGPT-5.5、AnthropicのClaude Opus 4.7、GoogleのGemini 3.1 Proです。複数の海外メディアによれば、ByteDanceはコーディングとタスク実行の複数ベンチマークで「これら最前線モデルに匹敵、または上回る」と主張しました。ただし、この比較主張はカンファレンスでの自社発表に基づくものであり、第三者による独立検証を経たものではない、という前提は読者と共有しておくべきでしょう。
ここが今回いちばん丁寧に扱いたい論点です。元のブログに並ぶベンチマーク名をよく見ると、SeedClawBench、Image2FloorPlan、CreativeWork、MSQAなど、多くがByteDance自身が内部開発した評価指標です。記事中にも「内製(in-house)」と明記されています。自社製のものさしで「最高スコア」を出すのは、ある意味で当然とも言えます。だからこそ、ALE(Agents’ Last Exam)のように「公開されたばかりで最適化が効きにくい」外部指標での上位入りのほうが、汎化能力の証拠としては重く受け止められます。記事がこの点をわざわざ強調しているのは、作り手側もその弱点を自覚しているからだと読めます。
では、この技術で具体的に何ができるようになるのか。鍵は「agent(エージェント)」という言葉です。従来のAIが「質問に一度答えて終わり」だったのに対し、Seed2.1が掲げるのは、目標に向かってチャット・検索・ブラウザ・ファイル・外部ツールを自分で渡り歩き、複数ステップの作業を最後までやり切る力です。記事にある「複数視点の写真から間取り図を生成する」例や、Notion・Canva・Figmaを横断する作業は、その象徴と言えます。なお、モバイル操作の評価であるMobileWorldで最高スコアを記録したのはSeed2.1本体、業務評価のGDPValで最高スコアを出したのは上位版のSeed2.1 Proと、達成主体が書き分けられている点も押さえておきたいところです。
スケール感も無視できません。KuCoinなどの報道では、Doubaoの大規模モデルの1日あたりトークン消費が180兆を超え、中国のパブリッククラウドMaaS市場で49.5%のシェアを握ると伝えられています。さらに、チップ設計のRTL生成デモでは、モデルが約18時間連続稼働し、9回の反復を経て1,303行のコードを生成し検証を通過した、という生々しい数字も示されました。これは「実運用に耐える」という主張に具体性を与えています。
長期的に最も示唆的なのは、記事終盤の「Seed for Seed」という構想です。Seed2.1自身が、評価・データ・訓練・研究といったモデル開発工程そのものに参加するという発想で、いわば「AIがAIを育てる」段階に踏み込んだことを意味します。開発が加速する可能性を秘める一方、人間が判断の主体であり続けられるかという、私がこのメディアで大切にしている問いを、あらためて投げかけてきます。
潜在的なリスクにも触れておきます。ひとつは前述した評価の自己選択性で、華やかなスコアほど割り引いて読む慎重さが要ります。もうひとつは、画面を自律操作するGUIエージェントが普及するほど、誤操作や意図しない実行をどう制御するかという安全設計の課題が前面に出てくる点です。加えて、ByteDanceという企業の性質上、データの扱いや各国の規制動向と無縁ではいられず、日本を含む海外導入では地政学的な視点も避けて通れません。
それでも、私がこのニュースを「いま」取り上げる理由は明快です。AIの競争軸が「ベンチマークの点数」から「現場の仕事を最後までやり切れるか」へと移りつつある、その転換点を象徴する発表だからです。中国勢が価格と実用性の両面で前世代から確実に距離を詰めてきた事実は、日本のビジネスパーソンが選択肢を考えるうえで、無視できない現実になりつつあります。
【用語解説】
agent(エージェント)
ユーザーの指示を受け、目標達成のためにツールやアプリを自分で操作し、複数の手順を最後まで実行するAIの動作形態。一度きりの応答ではなく、計画・実行・検証を自律的に繰り返す点が従来型との違いである。
end-to-end(エンドツーエンド)
作業の入口から出口まで、途中を人手で分断せず一気通貫で処理すること。コーディングなら要件分析から実装・検証までを一連で担う意味で使われる。
マルチモーダル
テキストだけでなく、画像・動画・音声など複数種類の情報を一つのモデルが横断的に理解・処理する能力を指す。
MaaS(Model as a Service)
学習済みAIモデルを、クラウド経由でAPIとして従量課金で提供するサービス形態。企業は自前で巨大モデルを保有せず、必要なときに呼び出して使える。
RTL
集積回路(チップ)の動作を記述する設計言語のレベルを指す用語。AIがRTLコードを生成・検証できることは、半導体設計の自動化に直結する高難度タスクである。
GDPVal
実世界の業務タスクについて、AIの完遂品質と経済的価値を測る評価指標。Seed2.1 Proがこの指標で最高スコアを記録したと記事は述べている。
Agents’ Last Exam(ALE)
agentの汎化能力を測る、公開されて間もないベンチマーク。最適化が効きにくいため「未知のタスクへの応用力」を比較的忠実に測れるとされる。
MobileWorld
スマートフォン画面の理解とタップ・入力・アプリ切り替えなど、モバイル操作の連続遂行能力を評価するベンチマーク。Seed2.1が最高スコアを記録した。
Code Arena: Frontend
フロントエンド開発の成果物を人間の選好で順位付けする評価。Seed2.1 Previewがスコア1539で8位に入った。
Seed for Seed
Seed2.1自身を、評価・データ・訓練・研究といったモデル開発の各工程に参加させるByteDanceの取り組み。「AIがAIの開発を担う」発想を体現する。
FORCE(フォース)カンファレンス
火山エンジン(Volcano Engine)が定期開催する技術発表イベント。中国語の正式名称は「FORCE原動力大会」。2026年6月23日の回でDoubao 2.1 Proやセード関連の新モデルが披露された。
【参考リンク】
ByteDance Seed(公式)(外部)
ByteDanceのAI研究チーム公式サイト。Seedシリーズ各モデルの解説や技術ブログ、論文を掲載する一次情報源。
Volcano Engine(火山引擎・公式)(外部)
ByteDance傘下のクラウド/AIプラットフォーム。DoubaoシリーズのAPI提供やエージェント開発支援を企業向けに行う。
Doubao(豆包・製品ページ)(外部)
Doubaoシリーズの製品一覧。Doubao-Seed-2.1-pro/turboなど各モデルの詳細とAPI接続情報を確認できる。
Notion(外部)
文書・データベース・タスク管理を統合するワークスペース。Seed2.1のエージェント操作対象の一つとして登場する。
Canva(外部)
ブラウザ上で使えるグラフィックデザインツール。記事ではビジュアルデザイン操作の評価環境として挙げられている。
Figma(外部)
UI/UXデザインと共同編集のツール。インターフェース編集タスクの評価環境として記事に登場する。
OpenAI(外部)
GPTシリーズを開発する米国のAI企業。比較対象として挙げたGPT-5.5の開発元である。
Anthropic(外部)
Claudeシリーズを開発する米国のAI企業。比較対象のClaude Opus 4.7の開発元である。
Google DeepMind(外部)
Geminiシリーズを開発するGoogleのAI研究部門。比較対象のGemini 3.1 Proの開発元である。
【参考記事】
Volcanic Engine launches Doubao 2.1 with daily token usage exceeding 180 trillion(KuCoin)(外部)
FORCEでのDoubao 2.1 Pro発表を伝え、日次トークン180兆突破、MaaSシェア49.5%、RTLデモ18時間・1303行を報じる。
Doubao 2.1 Pro Version Released, Aiming for the Peak of Industry Production(AIbase)(外部)
Doubao-Seed-2.1 Proの4軸進化と、GPT-5.5・Claude Opus 4.7・Gemini 3.1 Proに競合する主張を整理した記事。
ByteDance DouBao Launches Seed 2.1 Series(AIbase)(外部)
Seed 2.1がPro/Turbo構成で投入された経緯と、毎週更新されるEvolving版の存在を解説する記事。
Doubao Seed 2.0 Review: Benchmarks + Pricing(EvoLink)(外部)
前世代Seed 2.0の価格・性能を西側モデルと比較。今回の価格競争力を読む背景資料として参照した。
Volcano Engine launches Doubao 2.1 series(xix.ai)(外部)
FORCE当日の速報。Seedance 2.5やSeedream 5.0など同時発表モデルを含む全体像の確認に用いた。
【関連記事】
Seedance 2.5とは|火山引擎が披露した30秒AI動画生成モデルの実力と狙い
Seed2.1と同じFORCEカンファレンスで披露された兄弟発表。火山引擎が同日に投入した動画生成モデルの実力と狙いを読み解く。
Seedance 2.0 Mini登場、ByteDanceが約半額で開くAI動画の量産時代
ByteDanceの価格・実用性戦略を扱った記事。本記事の「実用性の最前線」という軸と響き合う内容になっている。
【編集部後記】
「最後までやり切る」という言葉を、私は少しだけ立ち止まって読みました。やり切ってもらえると助かる作業もあれば、途中の迷いごと自分で抱えていたい仕事もあるからです。Seed2.1の登場は、その線引きを私たち自身に問い直させてくれる出来事だと感じています。
みなさんは、どこまでをAIに渡し、どこからを自分の手に残しますか。正解はきっと人それぞれで、しかも時間とともに変わっていくのだと思います。私も実際に触りながら、迷ったところや気づいたところを、これからも率直にお届けしていきます。一緒に考えていけたら嬉しいです。












