Cohere、音声モデルのオープンソース版を発表

概要

Cohereは、音声認識用の自動音声認識（ASR）モデル「Transcribe」をオープンソースとして公開しました。このモデルは、会議録やスピーチ分析などのタスクに使用でき、比較的軽量な20億パラメータで動作します。

特徴

Transcribeの主な特徴は以下の通りです：

14言語をサポート（英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、中国語、日本語、韓国語、ベトナム語、アラビア語）
他のモデル（Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2, Qwen3-ASR-1.7B Speech）と比較して優れた性能を発揮
Hugging Face Open ASR リーダーボードで最良の平均単語誤り率（WER：5.42）を達成
人間評価者による精度、一貫性、使用可能性の評価で61%の勝利率を記録
1分間に525分のオーディオを処理可能

性能と比較

Cohereは、Transcribeが他のモデルよりも優れた性能を発揮すると主張しています。ただし、ポルトガル語、ドイツ語、スペイン語の音声認識では競合他社に劣る結果が出ています。

今後の展開

CohereはTranscribeを自社のエンタープライズエージェントオーケストレーションプラットフォーム「North」に統合する計画を持っています。また、APIを通じて無料で提供し、Model Vaultという管理型推論プラットフォームでも利用可能にする予定です。

背景

音声認識モデルの需要は高まっており、会議録や音声入力アプリケーション（Granola, Wispr Flowなど）に対する要求も増加しています。Cohereは、2025年の年間再発生収益が2億4千万ドルに達していると報告しており、CEOのAidan Gomez氏は同社が「近いうち」に上場する可能性を示唆しています。

元記事: https://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription/

サイバーニュース.jp

Cohere、音声モデルのオープンソース版を発表

概要

特徴

性能と比較

今後の展開

背景

投稿をさらに読み込む

Netflix、再び料金を値上げ

Netflix、すべてのプランで料金改定：プレミアムプランは月額27ドルに

ストリーミングサービスの料金が上昇：Netflix、Disney Plus、HBO Maxなど最新情報

YC W’26 デモデイで注目を集めた16のスタートアップ