當(dāng)AI自己學(xué)會(huì)“挑錯(cuò)”和“辯論”,它離真正靠譜還有多遠(yuǎn)?微軟給Copilot裝上的兩個(gè)新“大腦”,正在嘗試回答。
3月31日,微軟宣布為其Microsoft 365 Copilot平臺(tái)中的深度研究智能體“Researcher”進(jìn)行重要更新。這次更新的核心,是引入了名為“Critique”(批判機(jī)制)與“Council”(理事會(huì)機(jī)制)的兩項(xiàng)新功能。其目標(biāo)是通過(guò)整合OpenAI的GPT模型與Anthropic的Claude模型,構(gòu)建一個(gè)多模型協(xié)作的工作流,從而大幅提升企業(yè)級(jí)AI研究的嚴(yán)謹(jǐn)性與可靠性。
![]()
微軟Copilot平臺(tái)正在轉(zhuǎn)變:不再滿足于做只給單一答案的智能助手,而是成為協(xié)調(diào)多個(gè)頂尖AI模型的“總指揮”。這直擊企業(yè)用戶的核心痛點(diǎn)——如何讓AI在深度研究、數(shù)據(jù)分析等嚴(yán)肅工作中更可靠、更少犯錯(cuò)。
“Critique”批判機(jī)制的核心,是將“寫報(bào)告”與“審報(bào)告”分離。面對(duì)復(fù)雜研究問(wèn)題時(shí),系統(tǒng)不再讓單一模型包辦。先由OpenAI的GPT模型查找資料、規(guī)劃任務(wù)并起草初步報(bào)告,但這份草稿不會(huì)直接交給你,而是立即轉(zhuǎn)給“嚴(yán)苛審稿人”——Anthropic的Claude模型。Claude會(huì)像資深專家一樣,逐字逐句審核事實(shí)準(zhǔn)確性、邏輯嚴(yán)密性和引證可靠性,相當(dāng)于在AI生產(chǎn)線上強(qiáng)行嵌入一道質(zhì)檢關(guān)。
效果如何?微軟用DRACO基準(zhǔn)測(cè)試衡量。結(jié)果顯示,加入“批判機(jī)制”的Researcher智能體,得分較之前單模型版本有所提升,意味著研究質(zhì)量從“勉強(qiáng)能用”邁向“基本可靠”。未來(lái),這一流程還可反向操作,讓Claude起草、GPT審核,增加靈活性。
如果說(shuō)“批判機(jī)制”是嚴(yán)謹(jǐn)?shù)摹敖恿悺保敲础癈ouncil”理事會(huì)機(jī)制就是開放的“平行實(shí)驗(yàn)”。
“Council”啟用后,系統(tǒng)針對(duì)同一問(wèn)題同時(shí)派出GPT和Claude兩個(gè)模型,它們互不干擾,各自獨(dú)立研究、檢索,最終形成兩份完整報(bào)告。隨后,“裁判模型”登場(chǎng),任務(wù)不是簡(jiǎn)單判斷對(duì)錯(cuò),而是進(jìn)行更精細(xì)的“元分析”——找出兩份報(bào)告的共識(shí)點(diǎn),更重要的是,高亮標(biāo)出分歧所在。這些分歧可能源于數(shù)據(jù)解讀、分析角度或?qū)ν皇聦?shí)的不同看法。同時(shí),裁判還會(huì)總結(jié)每個(gè)模型獨(dú)有的、可能被對(duì)方忽略的洞察。
由此,AI給出的不再是“一個(gè)標(biāo)準(zhǔn)答案”,而是“一份包含不同聲音的分析光譜”,幫助專業(yè)人士更全面理解問(wèn)題,發(fā)現(xiàn)潛在盲點(diǎn),為決策提供更立體的依據(jù)。
兩項(xiàng)更新背后,是微軟更大的AI生態(tài)布局。
盡管與OpenAI關(guān)系緊密,微軟正積極將不同廠商的頂尖模型(如Anthropic的Claude)整合進(jìn)Copilot平臺(tái)。這種開放策略,讓企業(yè)用戶可根據(jù)任務(wù)特點(diǎn)(例如需要GPT的創(chuàng)意還是Claude的嚴(yán)謹(jǐn))靈活搭配,也降低了對(duì)單一技術(shù)的依賴風(fēng)險(xiǎn)。
未來(lái)的企業(yè)級(jí)智能體,很可能由IT管理員像搭積木一樣,根據(jù)合規(guī)與業(yè)務(wù)需要自由選擇和編排不同底層模型。
對(duì)于金融、法律、醫(yī)療等容錯(cuò)率極低的行業(yè),多模型協(xié)作意義尤為重大。
在這些領(lǐng)域,一個(gè)錯(cuò)誤的數(shù)據(jù)解讀或法律條文誤判,都可能引發(fā)巨額損失或嚴(yán)重風(fēng)險(xiǎn)。傳統(tǒng)單一AI模型固有的“幻覺(jué)”問(wèn)題,是阻礙其深入應(yīng)用的最大障礙。“批判機(jī)制”通過(guò)即時(shí)校驗(yàn),增加了一道風(fēng)險(xiǎn)防火墻,有效過(guò)濾明顯錯(cuò)誤;而“理事會(huì)機(jī)制”提供的對(duì)比視角,則像給分析師和律師配了一位持不同意見(jiàn)的“虛擬同事”,助其做出更審慎判斷。這并非取代人類專家,而是用AI生成更高質(zhì)量、更全面的輔助材料,把人從繁瑣的信息篩選中解放出來(lái),專注于更高層的戰(zhàn)略與風(fēng)險(xiǎn)研判。
在推進(jìn)這些強(qiáng)大功能的同時(shí),微軟也強(qiáng)調(diào)其與“負(fù)責(zé)任AI”原則的銜接,包括公平性、可靠性、安全性和透明度。多模型架構(gòu)下,數(shù)據(jù)隱私與安全由企業(yè)級(jí)云架構(gòu)保障,所有輸出均受安全監(jiān)控。而“理事會(huì)機(jī)制”本身,通過(guò)展示推理差異,也提供了一種天然的透明度。
總體來(lái)看,Copilot平臺(tái)通過(guò)讓多個(gè)AI模型相互制衡與互補(bǔ),正正面攻克阻礙AI進(jìn)入關(guān)鍵業(yè)務(wù)領(lǐng)域的可靠性難題。
來(lái)源:布谷財(cái)經(jīng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.