マイクロソフトは、独自の多モーダルAIモデルの開発を加速させ、競合他社との競争に乗り出しました。同社は4月2日(現地時間)、テキスト生成、音声生成、画像生成の3つの新しい基礎モデルを発表しました。
マイクロソフトAIの新製品
これらの新製品は、マイクロソフトAIが開発したMAI-Transcribe-1、MAI-Voice-1、MAI-Image-2という名前のモデルで構成されています。それぞれの機能と特徴は以下の通りです。
- MAI-Transcribe-1: 25言語以上の音声をテキストに変換する能力を持ち、Azure Fastよりも2.5倍速い処理速度を誇ります。
- MAI-Voice-1: 音声生成モデルで、ユーザーが60秒のオーディオを1秒で生成でき、独自の音声を作成することも可能です。
- MAI-Image-2: 動画生成モデル。3月19日に公開されたMAI Playgroundという大規模言語モデルテストソフトウェア上で最初にリリースされました。
開発背景と展望
これらのモデルは、マイクロソフトAIのMAIスーパーアインテリジェンスチームによって開発されました。このチームは、CEOのマスタファ・スレイマンが率いる研究グループで、昨年11月に設立されました。
「人間中心のAIを構築しています。私たちのAIモデルを作成する際には、人々が実際にどのようにコミュニケーションを取り、実用的な用途のために訓練されるべきかという視点を持っています」とスレイマンはブログ記事で述べています。
価格競争力と市場戦略
これらのモデルは、GoogleやOpenAIの製品よりも安価なことが特徴です。具体的には:
- MAI-Transcribe-1: 時間あたり$0.36から利用可能。
- MAI-Voice-1: 1百万文字あたり$22から利用可能。
- MAI-Image-2: テキスト入力の場合、1百万トークンあたり$5。画像出力の場合は、1百万トークンあたり$33。
マイクロソフトは、自社製品とOpenAIとのパートナーシップを継続しつつ、独自のモデル開発にも力を入れています。スレイマン氏は、VentureBeatとのインタビューで、このアプローチが「スーパーアインテリジェンス研究」を追求するための重要なステップであると述べました。
元記事: https://techcrunch.com/2026/04/02/microsoft-takes-on-ai-rivals-with-three-new-foundational-models/
