概要
Cohereは、音声認識用の自動音声認識(ASR)モデル「Transcribe」をオープンソースとして公開しました。このモデルは、会議録やスピーチ分析などのタスクに使用でき、比較的軽量な20億パラメータで動作します。
特徴
Transcribeの主な特徴は以下の通りです:
- 14言語をサポート(英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、中国語、日本語、韓国語、ベトナム語、アラビア語)
- 他のモデル(Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2, Qwen3-ASR-1.7B Speech)と比較して優れた性能を発揮
- Hugging Face Open ASR リーダーボードで最良の平均単語誤り率(WER:5.42)を達成
- 人間評価者による精度、一貫性、使用可能性の評価で61%の勝利率を記録
- 1分間に525分のオーディオを処理可能
性能と比較
Cohereは、Transcribeが他のモデルよりも優れた性能を発揮すると主張しています。ただし、ポルトガル語、ドイツ語、スペイン語の音声認識では競合他社に劣る結果が出ています。
今後の展開
CohereはTranscribeを自社のエンタープライズエージェントオーケストレーションプラットフォーム「North」に統合する計画を持っています。また、APIを通じて無料で提供し、Model Vaultという管理型推論プラットフォームでも利用可能にする予定です。
背景
音声認識モデルの需要は高まっており、会議録や音声入力アプリケーション(Granola, Wispr Flowなど)に対する要求も増加しています。Cohereは、2025年の年間再発生収益が2億4千万ドルに達していると報告しており、CEOのAidan Gomez氏は同社が「近いうち」に上場する可能性を示唆しています。
