株式会社Mavericksは、動画生成AI「NoLang」に「ボイスクローン機能」を追加した。わずか1分の音声録音から高品質なクローンボイスを作成でき、そのままNoLangで動画生成に使用できる。
NoLangは2024年7月のリリース以来、登録ユーザー数15万人を突破し、60社以上の法人に導入されている。新機能では、ブラウザ上での録音または既存の音声ファイル(mp3/wav/m4a/aac/ogg/flac対応)からクローンボイスを作成可能だ。録音時の声のトーンやテンションがそのまま反映されるため、TPOに応じた「声の表情」の使い分けができる。
法人プラン向けには英語の音声ファイルから英語のクローンボイスを作成する機能も提供され、海外向け動画制作のハードルを下げる。活用シーンとして、経営企画・IRでのステークホルダー別動画制作、人事・研修での声の演じ分け、広報・ブランディングでの自社キャラクター音声の資産化などが想定されている。
From:
動画生成AI「NoLang」で、1分の録音でクローンボイスを作成可能に。TPOに合わせた音声や抑揚、話し方への調整や、英語への変換が可能になり、ビジネスシーンにおける動画活用を強力に支援
【編集部解説】
動画生成AIという分野において、「声」のパーソナライゼーションは次なる競争領域となりつつあります。NoLangが今回実装したボイスクローン機能は、わずか1分間という短時間で高品質なクローンボイスを作成できる点が最大の特徴です。
音声クローン技術自体は、ElevenLabsやMurf AIなど海外プレイヤーが先行していますが、これらのサービスは主に音声生成に特化しています。一方、NoLangは動画生成プラットフォームとして、既に15万人のユーザーベースと60社以上の法人導入実績を持つ中で、音声クローン機能を統合した点に戦略的な意味があります。
技術的に注目すべきは、録音時の「声のトーンやテンション」がそのままクローンボイスに反映される仕組みです。つまり、同じ人物でも落ち着いたトーンで録音すれば信頼感のある声に、明るいトーンで録音すればエネルギッシュな声になります。これは従来の音声合成技術とは一線を画す点で、TPO(Time、Place、Occasion)に応じた声の使い分けを可能にしています。
法人プラン向けの既存音声ファイルからの生成機能も重要です。mp3、wav、m4a、aac、ogg、flacという主要な音声フォーマットに対応しており、過去にスタジオで収録した高品質なナレーションデータや、登壇動画から抽出した音声を活用できます。これにより、多忙な経営層に直接録音してもらう必要がなくなり、企業内での動画制作プロセスが大幅に効率化されます。
さらに英語対応は、グローバル展開を目指す日本企業にとって画期的です。英語の音声ファイルをアップロードすることで、日本語話者であっても流暢な英語を話す動画を生成できます。これは海外投資家向けのIR動画や、外国人労働者向けの研修動画制作において、言語の壁を大きく下げる効果があります。
活用シーンとして提示されている経営企画・IR領域での応用は特に興味深いものです。決算短信や説明資料などは従来、文字と画像による情報開示が中心でしたが、経営者の声を用いた動画による情報発信は、投資家との関係構築において新たな次元を開きます。しかも、ステークホルダーごとに内容を最適化した動画を、経営者の実稼働ゼロで量産できる点は、IR戦略の選択肢を広げるでしょう。
人事・研修領域では、コンプライアンス研修に落ち着いたトーン、採用動画に明るいトーンと使い分けることで、受講者の学習定着率や採用率の向上が期待されます。これは単なる効率化ではなく、教育効果そのものを高める可能性を秘めています。
一方で、音声クローン技術には倫理的な課題も存在します。ディープフェイクによる音声詐欺は2024年に442%増加したという報告もあり、悪用のリスクは無視できません。NoLangがどのような本人確認や利用規約を設けているのかは、今後の展開において重要な要素となるでしょう。
この機能追加により、NoLangは単なる「動画生成ツール」から「企業の音声・映像資産をデジタル化し活用するプラットフォーム」へと進化しています。企業が持つ「人」という資産を、時間と空間の制約から解放し、グローバルに展開可能なデジタルアセットへと転換する。これは単なる効率化ツールではなく、企業コミュニケーションのあり方そのものを変革する可能性を持った技術革新と言えます。
【用語解説】
ボイスクローン(音声クローン)
AIを使って特定の人物の声質や話し方を学習し、その人物そっくりの合成音声を生成する技術である。従来は数十分から数時間の音声データが必要だったが、最新技術では1分程度の音声サンプルで高品質なクローンを作成できるようになった。
TPO(Time, Place, Occasion)
時と場所、場合に応じた適切な行動や表現を選択するという概念である。NoLangのボイスクローン機能では、ビジネスシーンに応じて声のトーンやテンションを使い分けることを指している。
IR(Investor Relations)
企業が株主や投資家に対して、経営状況や財務状況、業績動向に関する情報を提供する活動である。適時開示における情報発信の質が、企業価値や株価に影響を与える重要な活動となっている。
Live2D
2Dイラストに立体的な動きを付けることができる技術である。VTuberやゲームキャラクターなどで広く利用されており、NoLangではこのモデルをアップロードして動画に活用できる。
PoC(Proof of Concept / 概念実証)
新しい技術やアイデアが実現可能かどうかを検証するための試験的な実装である。本格導入前に効果や課題を確認する目的で実施される。
【参考リンク】
NoLang for Business 公式サイト(外部)
動画生成AI「NoLang」の法人向けプラン公式サイト。ボイスクローン機能を含む企業向け機能の詳細情報を提供している。
NoLang 公式サイト(外部)
テキストやPDF資料から数秒で動画を生成できる日本発の動画生成AIサービス。無料プランから利用可能。
株式会社Mavericks 公式サイト(外部)
NoLangを開発する生成AIスタートアップ。動画生成AI「NoLang」や超解像化技術「カクダイ」などを提供している。
ElevenLabs Voice Cloning(外部)
音声クローン技術の世界的リーダー。1分程度の音声から高品質なクローンを作成でき、32以上の言語に対応している。
Fish Audio(外部)
日本語を含む多言語対応のAI音声合成・クローンサービス。スタジオ品質のテキスト読み上げと瞬時の音声クローン作成を提供する。
【参考動画】
【参考記事】
動画生成AI「NoLang」、写真1枚・音声1分で「自分」や「自社キャラ」を動画化できる新機能を公開(外部)
NoLangがリアルアバター機能とボイスクローン機能を同時に発表したプレスリリース。登録ユーザー数15万人突破の実績も報告されている。
The Complete Guide to AI Voice Cloning Technology in 2025(外部)
AI音声クローン技術の包括的ガイド。ニューラル音声合成の技術的詳細から倫理的考察まで幅広く解説している。
Voice Cloning for Video: Complete Guide 2025(外部)
2025年の音声クローン技術の現状と活用法を詳述。3秒からプロフェッショナル品質まで、最新技術動向を網羅している。
AI Voice: How To Voice Clone and Best Apps to Start [2025](外部)
音声クローンの作成方法と主要アプリの比較。グローバル市場が2025年に271.6億ドルに達するとの予測を紹介している。
【2025年最新】自分の声で音声合成!おすすめサイトと選び方・注意点を徹底解説(外部)
日本語対応の音声クローンサービスを比較。音質、機能、価格などの観点から各サービスの特徴を解説している。
【編集部後記】
動画コンテンツが企業コミュニケーションの中心になりつつある今、「自分の声」をデジタル資産として活用する時代が始まっています。わずか1分の録音で、あなたの声が24時間365日、世界中のどこでも、どんな言語でも働き続ける——そんな未来が現実のものとなりました。
NoLangのようなツールは、単なる効率化の道具ではなく、個人の発信力や企業のブランド価値を拡張する可能性を秘めています。一方で、音声クローン技術には倫理的な課題も伴います。私たちinnovaTopia編集部も、この技術がどのように社会に実装され、どんな影響をもたらすのか、皆さんと共に見守り、考えていきたいと思います。
あなたなら、この技術をどのように活用しますか?それとも、どんなリスクに備えるべきだと考えますか?ぜひご意見をお聞かせください。
























