innovaTopia

ーTech for Human Evolutionー

NVIDIA、60分の音声を1秒で文字起こし!完全オープンソースのAIモデル「Parakeet-TDT-0.6B-v2」を公開

NVIDIA、60分の音声を1秒で文字起こし!完全オープンソースのAIモデル「Parakeet-TDT-0.6B-v2」を公開 - innovaTopia - (イノベトピア)

Last Updated on 2025-05-06 08:21 by admin

NVIDIAは2025年5月1日、完全オープンソースの自動音声認識(ASR)モデル「Parakeet-TDT-0.6B-v2」をHugging Faceで公開した。このモデルは6億のパラメータを持ち、英語音声の高品質な文字起こしに特化している。

Parakeet-TDT-0.6B-v2は、Hugging Faceのオープンソース音声認識リーダーボードで業界最高水準となる平均単語エラー率(WER)6.05%を達成している。特筆すべき性能として、60分の音声をわずか1秒で文字起こしできる処理速度を誇り、競合製品の50倍以上の速さとなるRTFx(リアルタイムファクター)3386を記録している。

このモデルはFastConformerエンコーダーとTDT(Token and Duration Transducer)デコーダーアーキテクチャを組み合わせており、句読点、大文字小文字の自動処理、正確な単語レベルのタイムスタンプ予測をサポートしている。また、一度に最大24分の音声セグメントを効率的に文字起こしできる能力を持つ。

Parakeet-TDT-0.6B-v2は、「Granary」と呼ばれる約12万時間の英語音声データセットで訓練された。このデータセットには、LibriSpeech、Mozilla Common Voice、YouTube-Commons、Librilightなどの収集物から、1万時間の高品質な人間の音声データと11万時間の疑似ラベル付き音声が含まれている。

このモデルはCC-BY-4.0ライセンスの下で提供され、商用・非商用の両方での使用が許可されている。NVIDIAのAmpere、Blackwell、Hopper、Voltaアーキテクチャに対応しており、最小2GBのRAMで動作可能だが、より多くのRAMがあれば大きな音声入力の処理が可能になる。

開発者はHugging FaceまたはNVIDIAのNeMoツールキットを通じてモデルにアクセスでき、詳細なインストール手順やデモスクリプト、統合サポートが提供されている。

from:Nvidia launches fully open source transcription AI model Parakeet-TDT-0.6B-V2 on Hugging Face

【編集部解説】

NVIDIAが公開した「Parakeet-TDT-0.6B-v2」は、音声認識技術の新たなマイルストーンと言えるでしょう。このモデルの特筆すべき点は、その圧倒的な処理速度と精度のバランスです。60分の音声をわずか1秒で文字起こしできる能力は、リアルタイム音声認識の可能性を大きく広げています。

従来の音声認識モデルと比較すると、パラメータ数の少なさも注目に値します。OpenAIのWhisper-large-v3が約16億のパラメータを持つのに対し、Parakeetは6億のパラメータでより高い精度を実現しています。これは計算効率の向上だけでなく、より軽量なデバイスでの実行可能性も示唆しています。

特に興味深いのは、このモデルが完全にオープンソースで提供され、商用利用も許可されている点です。CC-BY-4.0ライセンスの下で公開されることで、スタートアップから大企業まで、幅広い開発者がこの高性能モデルを自由に活用できます。

Parakeetの実用面での強みは、単なる文字起こしだけでなく、句読点や大文字小文字の自動処理、そして単語レベルの正確なタイムスタンプ予測にあります。さらに、歌詞の文字起こしや数字のフォーマットなどの機能も備えており、多様なアプリケーション開発を容易にします。

また、このモデルは多様なノイズ環境下でも高い堅牢性を示しています。信号対雑音比(SNR)が5dBという厳しい条件下でも、平均単語エラー率は8.39%に留まるという結果が報告されています。これは実世界の様々な環境での利用可能性を示しています。

音声認識技術の進化は、私たちの日常生活やビジネスに大きな変革をもたらす可能性があります。会議の自動文字起こし、多言語コミュニケーション支援、音声コマンドによる操作など、その応用範囲は広大です。

一方で、高精度な音声認識技術の普及には、プライバシーやセキュリティの観点からの懸念も存在します。常時音声を認識するシステムが一般化すれば、意図しない会話の記録や個人情報の漏洩リスクも高まります。

現在のParakeetモデルは英語のみに対応していますが、将来的には多言語対応モデルの開発も期待されています。日本語を含む多言語対応が実現すれば、グローバルなコミュニケーションの障壁をさらに低減することができるでしょう。

NVIDIAのこの取り組みは、AIモデルの民主化という大きな流れの一部とも言えます。高性能なモデルをオープンソースで提供することで、イノベーションの加速と技術の普及を促進しています。

今後は、このようなオープンソースモデルを基盤とした、より専門的で多様なアプリケーションの登場が予想されます。音声インターフェースの進化は、テクノロジーとヒューマンインタラクションの新たな可能性を切り開くことでしょう。

【用語解説】

ASR(Automatic Speech Recognition):
自動音声認識の略。音声を自動的にテキストに変換する技術である。

単語エラー率(WER):
音声認識の精度を測る指標。低いほど精度が高いことを示す。例えば6.05%のWERは、100単語中約6単語が誤認識されることを意味する。

RTFx(リアルタイムファクター):
音声処理の速度を表す指標。RTFx 3386は、1分の音声を約0.018秒で処理できることを意味し、リアルタイム処理の3386倍の速さである。

FastConformer:
音声認識のためのエンコーダーアーキテクチャの一種。従来のTransformerモデルよりも効率的に音声を処理できる。

TDT(Token and Duration Transducer):
NVIDIAが開発した新しいデコーダーアーキテクチャ。トークン(単語や文字)とその継続時間を同時に予測することで、高速かつ正確な文字起こしを実現する。

SNR(Signal-to-Noise Ratio):
信号対雑音比。音声の品質を表す指標で、値が高いほど音声が明瞭であることを示す。5dBは比較的ノイズが多い環境を意味する。

【参考リンク】

NVIDIA NeMo(外部)
マルチモーダル生成AIモデルを開発するためのエンドツーエンドプラットフォーム

Hugging Face(外部)
AIモデルの共有・公開プラットフォーム。様々なオープンソースAIモデルを提供

Parakeet-TDT-0.6B-v2モデルページ(外部)
NVIDIAが公開した音声認識モデルの公式ページ。モデル情報とダウンロード可能

Parakeet-TDT-0.6B-v2デモページ(外部)
ブラウザ上でモデルを試すことができるデモページ。音声文字起こしを体験可能

【参考動画】

【編集部後記】

Parakeet-TDT-0.6B-v2モデルの処理速度は、従来のモデルが「講演を聞きながらリアルタイムで文字起こしする」レベルだったのに対し、Parakeetは「講演を一気に聞き終わってから、一瞬で文字起こしを完成させる」ような革新的な速さを実現している。

音声認識技術の進化は、私たちの日常をどう変えていくでしょうか?会議の文字起こしや音声メモの自動化、あるいは新しい音声インターフェースの可能性など、オープンソース化されたこの高性能モデルが切り開く未来に思いを巡らせてみませんか?もし今、音声認識技術を活用したいアイデアや、実際に試してみた体験があれば、ぜひSNSでシェアしていただけると嬉しいです。テクノロジーの可能性は、みなさんの創造力とともに広がっていきます。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

投稿者アバター
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com
ホーム » AI(人工知能) » AI(人工知能)ニュース » NVIDIA、60分の音声を1秒で文字起こし!完全オープンソースのAIモデル「Parakeet-TDT-0.6B-v2」を公開