4月3日消息,美國時間周四,微軟旗下研究部門Microsoft AI宣布推出三款基礎人工智能模型,全面覆蓋文本、語音及圖像生成領域。
![]()
此舉表明,微軟在維持與OpenAI深度合作的同時,正持續構建自主的多模態AI技術棧,以應對同業競爭。
官方新聞稿顯示,MAI-Transcribe-1語音轉錄模型支持25種語言,處理速度達微軟現有Azure Fast服務的2.5倍;音頻生成模型MAI-Voice-1支持創建自定義語音,1秒內可生成60秒音頻;MAI-Image-2則定位為圖像生成模型。
目前,上述三款模型均已上線Microsoft Foundry平臺,轉錄與語音模型亦同步登陸MAI Playground測試平臺。此前,MAI-Image-2已于3月19日在該測試平臺首發。
該系列模型由Microsoft AI首席執行官穆斯塔法·蘇萊曼(Mustafa Suleyman)領導的MAI超級智能(MAI Superintelligence)團隊研發。該團隊于2025年11月正式組建并對外公布。
蘇萊曼在官方博客中表示,團隊秉持“人文主義AI”理念,模型開發側重優化自然交互體驗及實際應用落地。他透露,未來將在Foundry平臺及微軟自有產品矩陣中部署更多自主模型。
面對當前大模型市場的白熱化競爭,微軟打出了“價格牌”。官方明確表示,這三款模型的核心競爭優勢之一,正是其定價遠低于谷歌與OpenAI的同類競品。
具體費率方面,MAI-Transcribe-1定價每小時0.36美元起;MAI-Voice-1每百萬字符22美元起;MAI-Image-2的文本輸入與圖像輸出成本,則分別為每百萬詞元(Token)5美元和33美元起。
一方面,微軟在加緊自研步伐;另一方面,其對外部盟友的安撫也未曾停歇。蘇萊曼在接受VentureBeat采訪時重申,微軟與OpenAI的合作承諾不會動搖。但在與The Verge的對談中,他也透露了一個關鍵細節:正是雙方近期重新修訂的協議條款,為微軟實質性推進自身的超級智能研究掃清了障礙。
迄今為止,微軟已向OpenAI豪擲超130億美元,并通過長效合作機制將后者的模型全面接入自家產品生態。從底層算力到上層模型,微軟的戰略意圖已徹底浮出水面:正如在AI芯片領域“自研+采購”的雙線布局一樣,在基礎大模型賽道上,微軟同樣選擇了“兩條腿走路”。(易句)
(本文由AI翻譯,網易編輯負責校對)
