NTTドコモは2025年11月10日、会議支援エージェントシステムを開発したと発表した。
本システムは、音声コミュニケーション技術、マルチエージェント技術、代理エージェント技術の3つの独自技術と、会議状況のリアルタイム把握機能および社内データ資産を組み合わせたものである。
複数のAIエージェントが人間と同様に会議に参加し、会話の文脈を読み取りながら情報収集や分析を行い、最適なタイミングで提案や意見を発言する。音声認識にはNTT人間情報研究所のMediaGnosisを、発言内容の生成にはNTT版大規模言語モデルtsuzumi 2を活用している。
ドコモは2025年度中に本システムを社内会議に導入する予定である。また2025年11月19日から21日および11月25日から26日に開催されるNTT R&D FORUM 2025に本技術に関するブースを出展する。
From:
会議支援エージェントシステムを開発
【編集部解説】
会議のあり方が、根本から変わろうとしています。NTTドコモが開発したこのシステムの最大の特徴は、AIエージェントが「記録係」ではなく「会議の参加者」として振る舞う点にあります。既存のOtter.aiやFireflies.aiなどのAI議事録ツールは、会議後の文字起こしや要約に特化していました。しかし本システムは、会議中にリアルタイムで発言し、情報を提供し、新たな視点を提示する、まさに「同僚」としてのAIを実現しています。
この背景には、3つの独自技術の組み合わせがあります。音声コミュニケーション技術により、AIは会話の流れを読み取り、発言すべきタイミングを自律的に判断できます。人間が割り込んで発言した際にも即座に対応できるため、不自然さを感じさせません。
マルチエージェント技術では、情報収集、分析、提案といった異なる役割を持つ複数のAIが同時に会議に参加します。これは単なる分業ではなく、エージェント同士が議論を交わすことで、多面的な視点や建設的なアイディアを生み出す仕組みです。
特に注目すべきは代理エージェント技術でしょう。上司や専門家の考え方、発言傾向を学習したAIが、本人不在時でも代理として助言を提供します。これにより、事前のチェックプロセスや個別相談の頻度を減らせる可能性があります。
EQ(感情的知性)の観点を取り入れている点も重要です。単に正確な情報を提供するだけでなく、会話の文脈を読み、人間が支援を必要とする最適なタイミングで発言する能力は、人間中心のコミュニケーションを実現する上で欠かせません。
技術基盤として、NTT人間情報研究所のMediaGnosisによる音声認識、そしてNTT版大規模言語モデルtsuzumi 2を活用しています。特に音声認識に用いられるMediaGnosisは、入力された音声データから直接テキストを生成する「End-to-End方式」を採用しており、これにより高い認識精度を実現しています。tsuzumi 2は2025年10月に発表されたばかりの最新モデルで、数倍大きなモデルと比較しても遜色ない日本語性能を持ちながら、1GPUでの動作が可能という軽量性が特徴です。
一方で、このシステムには慎重に検討すべき側面もあります。会議中の音声データや投影資料がリアルタイムでAIに処理される仕組みは、情報漏洩リスクと表裏一体です。特に未発表の製品情報や顧客の機密情報が扱われる会議では、データの保存場所、学習データとしての利用可否、アクセス権限の管理が重要になります。
また、代理エージェントが上司の発言パターンを模倣することで、本来必要だった人間同士の対話や意思決定プロセスが形骸化する懸念も指摘できます。AIが効率化をもたらす一方で、組織における人間関係やコミュニケーションの質にどのような影響を与えるのか、長期的な視点での検証が求められるでしょう。
ドコモは2025年度中に社内会議への導入を予定しており、その後の実証実験結果が注目されます。会議のDXは始まったばかりですが、この技術が単なる効率化ツールではなく、組織の創造性や意思決定の質を本質的に向上させるかどうかが、今後の評価の分かれ目となりそうです。
【用語解説】
EQ(Emotional Quotient)
心の知能指数または感情的知性と呼ばれる概念である。自分自身や周囲の人々の感情を適切に察知し、コントロールする能力を指す。本システムでは、会話の文脈を読み取り、人間が支援を必要とする最適なタイミングで発言する機能として実装されている。
End-to-End方式
音声データの入力からテキスト出力までをオールインワンで実現する音声認識手法である。従来のように音声情報処理を段階的に行うのではなく、ディープニューラルネットワークを全工程に適用することで、人間の脳に近い処理が可能となり、認識精度が向上する。
【参考リンク】
MediaGnosis 公式サイト(外部)
NTTが開発した次世代メディア処理AIの公式サイト。音声音響・画像映像・自然言語といったマルチメディアを統合的に扱う技術。
tsuzumi 2(NTT版大規模言語モデル)(外部)
NTTが開発した軽量でありながら高性能な日本語処理性能を持つ大規模言語モデルの公式ページ。2025年10月に提供開始。
NTT R&D FORUM 2025(外部)
2025年11月19日から26日に開催されるNTTグループの研究開発フォーラムの公式サイト。会議支援エージェントシステムが展示される。
NTTドコモ ニュースリリース(外部)
NTTドコモの公式プレスリリースページ。会議支援エージェントシステムを含む同社の最新技術やサービスに関する発表情報を掲載。
【参考記事】
NTTドコモ、「会議支援エージェントシステム」を開発、複数のAIエージェントが人間同様に音声で会議参加(外部)
複数のAIが役割を分担し会議に参加するシステムの概要。リアルタイムでの情報収集・分析や、適切なタイミングでの意見提案について解説 。
NTTドコモ、AIエージェントが会議に参加し創造性の向上を支援するサービスを開発(外部)
上司や専門家の代理としてAIが助言する「代理エージェント」技術に着目し、不在時の意思決定サポートや業務効率化への貢献を説明 。
新たな自動化で熱視線! AIエージェントの「推論能力」を支える2つのコンポーネントとは?(外部)
自律的な判断・行動と連携が可能な「AIエージェント」の現状と将来性を解説。NTTドコモの事例に触れ、その技術的背景を補足 。
【編集部後記】
あなたの会社の会議は、今どんな状態でしょうか。発言が一部の人に偏っていたり、必要な情報がその場になくて議論が止まってしまったり、上司の確認待ちで決定が先延ばしになったり、そんな経験はありませんか。
AIが単なる記録係ではなく「同僚」として会議に参加し、最適なタイミングで情報を提供したり、多角的な視点を示したりする。そんな未来が、思ったより早く実現するかもしれません。この技術が広がったとき、会議はどう変わるのか。あるいは、人間同士のコミュニケーションにどんな影響があるのか。一緒に考えてみませんか。

























