SpeechifyがChrome拡張機能の機能を拡張
Speechifyはこれまで、記事やPDF、文書を音声で聞くためのツールとして知られていましたが、この度、Chrome拡張機能に音声検出機能を追加しました。具体的には、音声入力機能と、質問に答える音声アシスタントが含まれています。
音声認識技術の進化とSpeechifyの取り組み
過去1年間で音声認識モデルの品質が大幅に向上したことにより、音声検出ツールが急速に普及しています。Speechifyもこの流れに乗り、英語をサポートする独自の音声入力ツールをローンチしました。このツールは、他の音声入力ツールと同様に、入力中のエラーを修正し、不要な言葉(フィラーワード)を除去する機能を備えています。
音声入力機能の現状と課題
筆者が短期間テストしたところ、Speechifyの音声入力ツールには改善の余地があると感じられました。GmailやGoogle Docsでは問題なく動作するものの、WordPressのようなサイトでは、音声入力のトリガーや動作に課題が見られました。Speechifyは、人気サイトへの最適化を段階的に進めていると述べています。
精度に関しては、Wispr Flow、Willow、Monologueといった他のツールと比較して、単語エラー率が高い傾向にあります。しかし、Speechifyは、使用するにつれてモデルが学習し、エラー率が徐々に減少すると説明しています。
会話型音声アシスタントの登場
Speechifyはまた、ブラウザのサイドバーに常駐する会話型音声アシスタントもローンチしました。ユーザーはウェブサイトに関する質問をすることができ、「3つの主要なアイデアは何か?」や「これをより簡単な言葉で説明してほしい」といった問いかけが可能です。
競合との差別化:音声優先のアプローチ
ChatGPTやGeminiにも会話モードが存在しますが、Speechifyの最高事業責任者であるRohan Pavuluri氏は、それらのツールでは音声が「後回し」にされていると指摘します。Speechifyは、ユーザーがAIと話す際に音声を主要な設定として望んでいる市場が大きく存在すると考えており、音声体験を最優先に位置付けています。
ただし、このアシスタントは、OpenAIのAtlas、PerplexityのComent、Diaなど、サイドバーアシスタントを内蔵しているブラウザでは現在動作しません。Speechifyは、Chromeとその膨大なユーザーベースを主なターゲットとしているため、この点についてはあまり懸念していないとのことです。
今後の展望
Speechifyは、今後、音声入力と音声アシスタントの両機能を、デスクトップおよびモバイルを含むすべてのアプリに段階的に組み込んでいく計画です。さらに、ユーザーのタスクを代わりに実行するエージェントの開発も視野に入れています。具体的なロードマップは明らかにされていませんが、例えば、電話で予約を入れたり、カスタマーサポートの保留を待ったりするなどの機能が例として挙げられています。TruecallerやCloackedといった企業も同様の目標を追求しており、この分野の競争が激化しそうです。
