GMOインターネットグループ、全社員8,300人にAI音声入力環境を展開——生成AI活用率97.8%の次の一手

生成AIを使いこなすための議論は、どのモデルを選ぶかや、どう指示を書くかに集中しがちです。しかし見落とされているのが、「そもそもどうやってAIに伝えるか」という入力手段の問題です。キーボードで打ち込む行為は、話すよりも情報を削る方向に人を誘導します。GMOインターネットグループが全社員約8,300人を対象に始めた音声入力プロジェクトは、その前提をひっくり返そうとする試みです。


GMOインターネットグループは2026年6月22日、グループのパートナー(従業員)約8,300人を対象に、AI音声入力で生成AIを活用することを推奨するプロジェクト「プロジェクト・ウィスパー for AI byGMO」を開始した。「Typeless」「Aqua Voice」などのAI音声入力ツールを活用し、オフィス全席への高機能マイク設置を順次進める。6月22日時点では専用マイク約100台をGMOインターネットグループ株式会社のデスクに配備した。

同グループが2026年3月に実施した定点調査では、グループ全体の生成AI業務活用率が97.8%、AIエージェントの業務活用率は71.4%(前回調査比+28.4ポイント)に達しており、パートナー1人あたりの月間業務削減時間は約53.9時間、グループ全体で約2,203人分相当の労働力をAI活用で生み出している計算になるという。今後は2027年11月30日までに「日本で最もハイパーオートメーション化された企業グループ」への移行を目指す。

From: 文献リンク「プロジェクト・ウィスパー for AI byGMO」始動、パートナー8,300人に「声でAIを使う」環境を提供開始|GMOインターネットグループ(PR TIMES)

【編集部解説】

生成AIの普及が進むにつれて、奇妙な逆説が生じています。AIが「考える」速度はどんどん上がっているのに、人間がAIに「話しかける」速度はキーボードの制約から抜け出せないまま、ということです。GMOインターネットグループの「プロジェクト・ウィスパー for AI byGMO」は、この詰まった部分をほぐすための施策として読めます。

プレスリリースが明示しているロジックは単純です。「生成AIは情報量が多いほど回答精度が高まる」「テキスト入力では情報を省略しがちだが、音声では自然と多くの情報を伝えられる」。これは直感的に正しいです。プロンプトを書くとき、多くの人は「どこまで書けば伝わるか」を考えながら情報を削っています。話すときにはそのフィルタリングが働きにくいという特性があります。

今回採用されたツールのうち、Typelessは「Speak, don’t type」をキャッチコピーとする音声入力プラットフォームで、フィラー語(「えーと」「あのー」など)の自動除去や言い直しの自動編集を行い、使用中のアプリに応じてトーン・文体を自動調整する機能を持ちます。Aqua Voiceは”Voice-native editor”を標榜し、独自の音声認識モデル「Avalon」を搭載、高速なレスポンスでテキストを出力します。どちらも「音声を文字に変換するだけ」ではなく、「話し言葉をそのまま使えるテキストに整形する」という一段深いレイヤーを持つ点が従来の音声認識との違いです。

興味深いのは、GMOがツール導入に加えて「全オフィス全席への高機能マイク配備」という物理的な環境整備をセットにしている点です。「ツールを入れたから使ってください」ではなく、「マイクがそこにあるから話してみよう」という状態を先に作る。習慣変容の研究では、行動を起こすための「摩擦」を下げることが継続率に大きく影響することが知られており、この設計はその知見に沿っています。

また、同グループは2025年5月にAI活用推進のための「GMO AIブースト支援金」(年間約10億円、パートナー数×1万円分/月を各社・部署単位で負担)を創設し、2026年2月にはClaudeの活用拡大に向けた追加投資(最大11.5億円)も実施しています。音声入力への移行は、こうした投資の「使い勝手」をさらに高めるための次の一手として位置づけられており、単発施策ではなく段階的な積み上げの一部です。

一方で、音声入力が「どこでも使えるか」という問いには慎重に向き合う必要があります。オープンオフィスで全員が声でAIに話しかけ始めたとき、周囲の集中環境はどうなるのか。この点についてGMOは「全席にマイクを配置する」としていますが、オープンフロアの騒音対策や、音声入力が向かない業務(機密情報を扱う会話、集中を要する分析作業など)への対応については、プレスリリースの範囲では明示されていません。

「8,300人で8.3万人分」という目標は象徴的な数字として分かりやすいですが、その前提となる「一人ひとりの力を10倍に高める」という主張の根拠は現時点では示されていません。生成AI活用率97.8%という数字は業界的に突出していますが、活用率と生産性の向上は必ずしも直結しない。音声入力の導入がこれに加算的に寄与するかどうかは、今後の検証次第です。

【用語解説】

AI音声入力ツール
音声をテキストに変換するだけでなく、AIが文脈を理解してフィラー語(「えーと」「あのー」など)の除去や言い直しの補正を行い、使用中のアプリに応じたトーン・文体に整形して出力するツールの総称。従来の単純な音声認識とは異なり、「話し言葉をそのまま使えるテキストに整形する」機能を持つ点が特徴。

AIエージェント
LLM(大規模言語モデル)を活用し、ユーザーの指示に基づいてタスクを自律的に実行するソフトウェア。単に質問に答えるチャット型AIとは異なり、複数のステップを伴う作業を自ら判断しながら遂行する。GMOグループの定点調査(2026年3月)では、業務活用率が71.4%に達している。

ハイパーオートメーション
RPA・AI・機械学習などの複数技術を組み合わせ、組織内のあらゆる業務プロセスを可能な限り自動化する取り組みのこと。GMOインターネットグループは2027年11月30日までに「日本で最もハイパーオートメーション化された企業グループ」を目指すとしている。

フィラー語(フィラーワード)
会話の中で意味のない間投詞として発せられる言葉。「えーと」「あのー」「そのー」など。話し言葉では自然に現れるが、テキストに残ると読みにくくなる。AI音声入力ツールはこれを自動検出・削除する機能を持つ。

【参考リンク】

GMOインターネットグループ公式サイト(外部)
GMOインターネットグループの持株会社公式サイト。AI活用推進に関する取り組み(GMO AIブースト支援金、GMO AI Day、AI再構築プロジェクト等)の最新情報を確認できる。

Typeless公式サイト(外部)
カリフォルニアのスタートアップSimply CA LLCが開発するAI音声入力プラットフォーム。「Speak, don’t type」をコンセプトに、フィラー除去・言い直し補正・アプリ別トーン調整などの機能を提供。Mac、Windows、iOS、Android対応。

Aqua Voice公式サイト(外部)
米国のスタートアップAqua Voice Inc.が開発するAI音声入力ツール。独自音声モデル「Avalon」を搭載し、Mac/Windows対応。「Voice-native editor」を標榜し、高速・高精度のリアルタイム音声テキスト変換を提供する。

【参考記事】

「プロジェクト・ウィスパー for AI byGMO」始動、パートナー8,300人に「声でAIを使う」環境を提供開始|GMOインターネットグループ(PR TIMES)(外部)
本記事の一次情報源。プロジェクトの概要、背景となるAI活用率の定点調査結果、今後の展開方針を収録した公式プレスリリース。

AIエージェント業務活用率が約7割に急伸、月間35.2万時間の業務削減を実現|GMOインターネットグループ(外部)
GMOグループが2026年3月に実施した生成AI活用の定点調査。生成AI業務活用率97.8%、AIエージェント活用率71.4%(前回比+28.4ポイント)、月間35.2万時間の業務削減などのデータを公開している。

【関連記事】

AIの役割が「案内」から「実行」へ|AIアシスタント「ムームードメインコンシェルジュ」がDNS設定を直接操作
GMOペパボが展開するAI「実行型」活用の事例。本記事が人間とAIの「入力インターフェース」を変える話であるのに対し、こちらはAIがシステムを直接操作する側の話。同じGMOグループがAI活用の「入力側」と「出力側」を同時に変革しようとしていることが読み取れる。

なぜGMOがロボット代理店になったのか|プレスリリースの奥にある”信頼設計”の論理
GMOが「AIとロボティクスで未来を創るNo.1企業グループ」を掲げる戦略を深く読み解いた記事。今回の音声入力施策が社内の人間の生産性を追求するのに対し、こちらはヒューマノイドロボットによる物理的な自動化の話。GMOグループの全体戦略を理解するうえで補完的な視点を提供する。

【編集部後記】

「話すだけでAIを使う」という発想は、生成AIとのインターフェースがキーボードである必然性を問い直しています。キーボードは「書くための道具」であり、「AIに指示するための道具」として最適化されていたわけではありません。考えてみれば、私たちは日常の会話で情報を「削る」という作業をほとんどしていません。話すという行為は、思考をそのまま外に出す、ある意味で最も自然なインターフェースです。音声入力と生成AIの組み合わせが本当に定着したとき、プロンプトの書き方ではなく、AIへの「話しかけ方」が問われるようになるかもしれません。私たちも、そのとき何が変わり、何が変わらないのかを、引き続き注意深く見ていきたいと思います。

Googleで優先するソースとして追加するボタン
投稿者アバター
乗杉 海
SF小説やゲームカルチャーをきっかけに、エンターテインメントとテクノロジーが交わる領域を探究しているライターです。 SF作品が描く未来社会や、ビデオゲームが生み出すメタフィクション的な世界観に刺激を受けてきました。現在は、AI生成コンテンツやVR/AR、インタラクティブメディアの進化といったテーマを幅広く取り上げています。 デジタルエンターテインメントの未来が、人の認知や感情にどのように働きかけるのかを分析しながら、テクノロジーが切り開く新しい可能性を追いかけています。