「TechCrunch」報導,微軟旗下研究部門 Microsoft AI 今天(3日)宣布推出 3 款基礎 AI 模型,分別可用於文字、語音與影像生成,進一步和其他 AI 實驗室正面競爭,儘管微軟目前仍與 OpenAI 維持緊密合作關係。

這 3 款模型包括語音轉文字模型 MAI-Transcribe-1、語音生成模型 MAI-Voice-1,以及影像生成模型 MAI-Image-2。

微軟表示,MAI-Transcribe-1 可支援 25 種語言語音轉文字,速度是 Azure Fast 方案的 2.5 倍;MAI-Voice-1 則可在 1 秒內生成 60 秒音訊,且能建立自訂聲音;MAI-Image-2 則主打影像生成能力。

其中,MAI-Image-2 其實已於 3 月 19 日先在 MAI Playground 上線。

如今微軟進一步把 3 款模型都推上 Microsoft Foundry,而語音轉文字與語音生成模型也同步在 MAI Playground 開放使用。

報導指出,這些模型由微軟 MAI Superintelligence 團隊開發,該團隊由 Microsoft AI 執行長蘇萊曼(Mustafa Suleyman)領軍,並於 2025 年 11 月正式成立與對外公布。

蘇萊曼表示,Microsoft AI 正在打造「以人為本」的 AI,強調在開發模型時,會把人放在中心,依照人們真實的溝通方式進行優化,並以實際應用場景作為訓練方向。他也預告,未來還會有更多模型進入 Foundry,甚至直接整合進微軟產品與使用體驗中。

在大型語言模型市場競爭愈來愈擁擠之際,微軟認為這批模型的一大賣點,是價格比 Google 與 OpenAI 的部分產品更便宜。

以定價來看,MAI-Transcribe-1 每小時 0.36 美元,約新台幣 12 元;MAI-Voice-1 每 100 萬字元 22 美元,約新台幣 726 元;MAI-Image-2 則是文字輸入每 100 萬 tokens 收費 5 美元,約新台幣 165 元,影像輸出每 100 萬 tokens 收費 33 美元,約新台幣 1089 元。

儘管微軟持續推出自家模型,蘇萊曼接受外媒訪問時仍重申,微軟對 OpenAI 的合作承諾並未改變。不過他也透露,雙方近期重新談判合作內容後,確實讓微軟能更自由推進所謂的「超級智慧」研究。

根據報導,微軟至今已對 OpenAI 投資超過 130 億美元,約新台幣 4290 億元,並透過多年合作,將 OpenAI 模型部署到旗下多項產品中。微軟在晶片策略上也採取類似做法,一方面自行研發,一方面也向外部供應商採購。

作者簡介

余平

熱愛挖掘世界各地的破格真相,致力於尋找讓人驚呼「真的假的」的冷知識與熱話題。我的守備範圍極廣,從探索古代人的奇葩日常、違反科學常理的野生動物,到跨國法規冷知識(例如台灣與芬蘭的交通罰單差異)。無論是東南亞令人啼笑皆非的庶民奇聞,還是日本又推出了哪些讓你「蛤?」出聲的謎之發明,這裡全都有。準備好一起探索這世界不可思議的角落了嗎?