キーボードを打つ手を止めて、ただ画面に話しかける。それだけで文章が立ち上がっていく——そんな当たり前のような体験が、Linuxデスクトップにはこれまで「標準装備」として用意されていませんでした。Ubuntuがいま、その空白を自ら埋めにきています。しかも、あなたの声をクラウドへ一切送らないという約束とともに。手元で完結する音声入力は、私たちとコンピューターの距離をどう変えるのでしょうか。
Canonicalは2026年6月17日、Ubuntu Desktop向けの音声入力(音声→テキスト)機能をもたらす新たな取り組み「Project Myna」を発表しました。音声認識はローカルのハードウェア上で動作し、必要なモデルのインストール後はインターネット接続を必要としません。マイクはディクテーションを明示的に有効化したときのみアクセスされ、音声はメモリ上で処理されたのち破棄され、外部サービスへアップロードされません。
Ubuntu 26.10ではデスクトップ・ディクテーションに焦点を絞り、キーボードショートカットで起動して使用中のアプリにテキストを表示します。初回リリースはWayland上のUbuntu Desktopを対象とし、GNOMEを主要な検証済み環境とします。ボイスアシスタント、音声コマンド、デスクトップ操作、翻訳、自動言語検出は初期プロジェクトの対象外です。
仕様書とアーキテクチャ文書は、GitHubのリポジトリcanonical/mynaで公開されています。
From:
Introducing Myna: Speech to Text for Ubuntu Desktop
【編集部解説】
今回の発表でまず押さえておきたいのは、Mynaが「クラウドに頼らない」ことを設計の出発点に据えている点です。音声認識はお使いのマシン上で完結し、モデルさえ入れてしまえばインターネット接続は要りません。マイクが開くのはユーザーがディクテーションを起動した瞬間だけで、音声データはメモリ上で処理されたあと残らず破棄されます。この「ローカル処理・即時破棄」という設計思想は、AI機能がプライバシー懸念とセットで語られがちな今だからこそ、大きな意味を持ちます。
なお今回の発表は、Canonicalデスクトップチームのジャン・バティスト・ラルマン氏(Jean Baptiste Lallement、フォーラム上のハンドルネームはjibel)によるものです。
技術的な土台にも触れておきます。初回リリースがWaylandとGNOMEに絞られているのは、Linuxデスクトップで長く課題とされてきた「テキスト注入(text injection)」という処理に関係します。これは、認識した文字を今まさに使っているアプリへ流し込む仕組みのことです。旧来のX11とは異なり、セキュリティを重視したWaylandでは、この他アプリへの文字入力がそう簡単ではありません。Mynaが音声認識・操作・テキスト注入をあえて別部品に分けたモジュラー設計を採るのは、この難所を将来にわたって改良し続けるためだと読み解けます。
この動きは、Ubuntu 26.10(開発コード名Stonking Stingray、2026年10月リリース予定)が掲げる「ローカルAIを備えた文脈認識デスクトップ」という、より大きな構想の一部に位置づけられます。Mynaはその最初の具体的な一歩というわけです。
では、なぜ「今」なのでしょうか。実は音声入力そのものは目新しい技術ではありません。AppleのmacOSにはVoice Controlが搭載され、Apple Silicon搭載機ではオンデバイスでオフライン動作します。Linux界隈に目を向けても、Flathubで配布されるSpeech Noteや、OpenAIのWhisperをローカルで動かすwhisper.cppなど、すでに似たことは可能でした。つまりMynaの新しさは技術の発明ではなく、これらを「OSの標準機能」として、誰もが設定なしに使える形へ引き上げようとする点にあります。
ここに、見過ごせない文脈があります。Linuxで事実上の標準とされてきた高機能な音声操作ツールTalonはプロプライエタリ(非公開)で、開発者はWayland対応に消極的だと伝えられてきました。手や腕に困難を抱える利用者にとって、頼みの綱が閉じた技術しかない、という状況は心もとないものです。Canonicalがオープンソースで、しかもWaylandを前提に開発を進める意義は、ここにこそあります。
一方で、現時点では期待を冷静に保つ必要もあります。GitHubのリポジトリ(canonical/myna)はGPLv3ライセンスで公開されていますが、収録されているのはライセンス文書・README・仕様/アーキテクチャ文書のみで、動くコードはまだありません。発表は「完成の報告」ではなく「設計が固まる前に意見をください」という呼びかけであり、開発の最初期に外へ開いた点こそが、今回の本質と言えます。
将来を見据えると、初期スコープから外された機能の数々が、むしろ展望を示しています。ボイスアシスタント、音声コマンド、デスクトップ操作、翻訳、自動言語検出、さらにはパスワード欄への入力やウェイクワードによる常時待ち受けは、いずれも初回では対象外とされました。裏を返せば、Canonicalは基礎を固めた先にこうした領域を視野に入れているということです。私たち日本のユーザーにとっては、初期に翻訳と自動言語検出が外れている点は気になるところで、日本語ディクテーションの精度がどこまで実用に届くかは、今後の検証を待つことになります。
【用語解説】
Project Myna(プロジェクト・ミナ)
CanonicalがUbuntu Desktop向けに開発している音声入力(音声→テキスト)の取り組み。名称は、人間の声をまねる能力で知られるmyna bird(キュウカンチョウの仲間)に由来する。
ディクテーション(dictation)
話した言葉をそのまま文字に変換し、文章として入力する機能のこと。日本語では「口述筆記」とも呼ばれる。
Ubuntu 26.10(Stonking Stingray)
Canonicalが提供するLinuxディストリビューションUbuntuの、2026年10月リリース予定のバージョン。Mynaが初めて搭載される対象とされている。「Stonking Stingray」は開発コード名である。
Wayland(ウェイランド)
Linuxなどで画面表示を司る「ディスプレイサーバー」の新しい仕組み。旧来のX11(X Window System)に代わる後継として広く採用が進んでおり、アプリ同士の入力・出力を分離してセキュリティを高める設計が特徴である。Mynaの初回リリースはこのWaylandを対象とする。
GNOME(グノーム)
Ubuntuが標準採用しているデスクトップ環境(画面の見た目や操作の枠組み)。Mynaは当初、このGNOMEを主要な検証済み環境とする。
テキスト注入(text injection)
音声認識で得た文字を、いま使用中のアプリケーションへ流し込む処理のこと。Waylandはセキュリティを重視する設計上、この他アプリへの文字入力に独自の制約があり、Linuxデスクトップで音声入力を実現する際の技術的な要点となる。
ローカル処理(オンデバイス処理)
データを外部のサーバーへ送らず、利用者の手元の機器の中だけで完結させる処理方式。Mynaは音声認識をローカルで行うため、モデル導入後はインターネット接続を必要としない。
【参考リンク】
Ubuntu(Canonical)公式サイト(外部)
Mynaを開発するCanonicalが運営するUbuntuの公式サイト。OSのダウンロードや各バージョンの情報を提供している。
Myna プロジェクト(GitHub リポジトリ)(外部)
Canonicalが公開するMynaの公式リポジトリ。GPLv3ライセンスのもと、仕様書やアーキテクチャ文書を中心に公開している。
GNOME 公式サイト(外部)
Ubuntuが標準採用するデスクトップ環境GNOMEの公式サイト。理念や開発情報、各種アプリの情報を確認できる。
Wayland 公式サイト(freedesktop.org)(外部)
Mynaが対象とするディスプレイサーバーWaylandの公式サイト。プロトコルの仕様や実装の技術情報を公開している。
【参考記事】
Canonical reveal Myna, a speech to text system for Ubuntu Linux(GamingOnLinux)(外部)
投稿者がCanonicalデスクトップチームのジャン・バティスト・ラルマン氏であることを明示。TalonがWayland非対応の経緯にも触れ、Mynaの意義を論じている。
Myna Announced As Speech-To-Text Solution For The Ubuntu Desktop(Phoronix)(外部)
GPLv3ライセンスである点やWayland上のGNOMEを初期対象とする点を、技術的背景とともに整理した専門メディアの報道である。
Canonical’s New AI Tool Wants You to Talk to Ubuntu Instead of Type(It’s FOSS)(外部)
プッシュ・トゥ・トーク方式や、音声をメモリ上で処理し破棄する仕組みを具体的に説明した記事である。
Ubuntu 26.10 Steps into AI with Local Speech-to-Text(Linuxiac)(外部)
開発コード名「Stonking Stingray」を明記し、モジュラー設計や初期スコープ外の機能を整理した記事である。
【関連記事】
スタンフォード発「ワットあたりの知能(IPW)」とは―小型ローカルAIがクラウドに挑む(外部)
手元の一台で動く小型AIがクラウド級の精度に迫る研究。通信不要でプライバシーが手元に留まる論点がMynaと重なる。
OpenBuddy・M5Stackで作るAIデスクペット、Claude Code連携で「話す相棒」に(外部)
音声をクラウドに送る構成とローカルに閉じる設計を対比。Mynaのプライバシー設計を別の角度から補完できる一本。
さくらインターネット、音声合成(TTS)APIを追加──VOICEVOX採用で国内完結型の音声AIパイプラインを実現(外部)
音声データを国外サーバーへ渡さない国内完結型の取り組み。データ主権の観点でMynaの設計思想と共鳴する。
【編集部後記】
声で文字を打つという体験を、私自身まだ完全には自分のものにできていません。取材メモを口述で取ろうとして、つい言い淀んでしまうことがあります。Mynaが面白いのは、その「言い淀み」までも含めて、人とコンピューターの新しい間合いを探ろうとしているところだと感じています。
手元で完結し、声がどこにも残らないという安心感は、これから音声入力を試してみたい方にとって、最初の一歩を踏み出しやすくしてくれるはずです。みなさんがもし試されたら、その手ざわりをぜひ聞かせてください。












