概要
フランスのAI企業Mistralは、木曜日に新しいオープンソースのテキストから音声への変換(TTS)モデルを発表しました。このモデルは、音声AIアシスタントや顧客サポートなどのエンタープライズ用途で使用できます。
新規モデルの特徴
Mistralが開発した「Voxtral TTS」は、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9つの言語をサポートしています。このモデルは、スマートウォッチやスマートフォン、ノートブックなどに収まる小型サイズで、市場価格の一部しかかかりませんが、最先端の性能を提供します。
カスタマイズとリアルタイムパフォーマンス
Voxtral TTSは、5秒未満のサンプル音声から独自の音声を作成し、アクセントや抑揚などの微妙な特徴をキャッチできます。また、言語間での切り替えも容易で、翻訳や吹き替えなどに役立ちます。
ピエール・ストック(Mistral AIの科学オペレーション担当副社長)は、「当社の顧客が音声モデルを求めていたため、小型サイズの音声モデルを作成しました。このモデルは人間らしい音声を生成し、ロボットのような音ではありません」と述べています。
リアルタイム性能
Voxtral TTSはリアルタイムでのパフォーマンスが特徴で、10秒のサンプル(500文字)に対する最初の音声出力までの時間(TTFA)は90ミリ秒です。また、リアルタイムファクター(RTF)は6倍で、10秒のクリップを約1.6秒で生成できます。
今後の展開
Mistralは今年初めに、大規模バッチ処理と低遅延のリアルタイム用途向けの音声認識モデルを発表しました。新規音声生成モデルにより、同社は企業向けの音声製品のフルスイートを提供する計画です。
結論
Mistralは、オープンソースとカスタマイズ機能によって、競合他社よりも企業がその音声モデルを採用することを目指しています。これにより、企業は独自の要件に合わせて調整することができます。
元記事: https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/
