337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI像人類一樣做高考數(shù)學(xué)題,夸克領(lǐng)跑、豆包緊隨

0
分享至

一年一度的高考落下帷幕。對大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。

但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學(xué)。

一個有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測評結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績也不錯的理科生。

為驗(yàn)證這一結(jié)果,我們也選取了四個AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測評。



由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機(jī)會。

關(guān)于考核標(biāo)準(zhǔn),我們覺得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個真正的考生考核。

所以,本次測評拆解了三大維度

  • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
  • 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
  • 識別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯數(shù)字、符號等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

基于這三個維度,我們通過分別打分再計(jì)總分的形式,測試出AI考生們的高考數(shù)學(xué)的考試名次。

更細(xì)致的"閱卷規(guī)則"參考:



經(jīng)過以上三個維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:


*綜合測評圖


*綜合排名圖

如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。

而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

誰答對了最多題?

直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。

根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。

一個小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯誤。

首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

豆包在這道題上犯錯的原因也有點(diǎn)令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。



在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發(fā)生在最后一步——“利用錯位相減法”得出最終結(jié)果的部分。

向上翻了一下思考過程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯誤。

誰答得最快,審題最清晰?

答題速度,屬于AI考生們的舒適區(qū)。

基本上,這四個AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

來到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

不過在耗時(shí)更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認(rèn)識別沒有問題后再開始解題。


*ChatGPT會自己放大圖片,來仔細(xì)檢查箭頭首尾在坐標(biāo)軸上的位置

夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

這兩家做最難的解答題,單題最長耗費(fèi)時(shí)間在4分鐘左右。



至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

不同的輸出風(fēng)格,讓我找到AI老師

測到這里,本次AI考生的高考數(shù)學(xué)測評基本可以結(jié)束了。

但在就在核對答案的過程中,我還有一個不同尋常的發(fā)現(xiàn)。

參與測評的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會給真正想通過AI學(xué)習(xí)的考生,帶來不同的感覺和效果。

比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導(dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。

拿頗具難度的第19題舉例。

同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點(diǎn)。



相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。

在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實(shí)只能用來對答案,難以引發(fā)思考。



元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會在表述中強(qiáng)調(diào)考點(diǎn)。


*元寶答案示例

如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫風(fēng)。



總之,這一次的測評中,我們真實(shí)把這四個AI考生真正當(dāng)作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
教育部發(fā)函!15所新大學(xué),正式獲批(附院校全名單)

教育部發(fā)函!15所新大學(xué),正式獲批(附院校全名單)

麥可思研究
2026-03-20 18:51:27
女子被觸摸隱私部位后續(xù)!衣服全被脫光,商家只開除,拒絕賠償

女子被觸摸隱私部位后續(xù)!衣服全被脫光,商家只開除,拒絕賠償

潮鹿逐夢
2026-03-18 10:26:41
讓韓佳人驚嘆的中國網(wǎng)紅美貌:萬幸我出道早…

讓韓佳人驚嘆的中國網(wǎng)紅美貌:萬幸我出道早…

奮斗在韓國
2026-03-20 14:44:59
美股股指期貨全線跳水,科技巨頭、芯片股普跌,國際油價(jià)漲至105美元

美股股指期貨全線跳水,科技巨頭、芯片股普跌,國際油價(jià)漲至105美元

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-20 19:42:07
東體:常衛(wèi)魏已不再擔(dān)任武漢女足主帥,他還是女足國家隊(duì)備選

東體:常衛(wèi)魏已不再擔(dān)任武漢女足主帥,他還是女足國家隊(duì)備選

懂球帝
2026-03-20 18:09:07
78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評
2026-01-28 12:23:18
伊朗前總統(tǒng)無奈自嘲:21人的伊朗反間諜小組,21人全是以色列間諜

伊朗前總統(tǒng)無奈自嘲:21人的伊朗反間諜小組,21人全是以色列間諜

深度報(bào)
2026-03-15 22:58:44
理查茲:要是巴薩半決賽繼續(xù)踢高位防線,阿森納會把他們打爆

理查茲:要是巴薩半決賽繼續(xù)踢高位防線,阿森納會把他們打爆

懂球帝
2026-03-20 09:08:42
4月1日后去醫(yī)院,只帶醫(yī)保卡可能吃大虧,這兩樣缺一不可

4月1日后去醫(yī)院,只帶醫(yī)??赡艹源筇?,這兩樣缺一不可

混沌錄
2026-03-20 17:09:04
伊朗伊斯蘭革命衛(wèi)隊(duì):軍隊(duì)正處于高度戒備狀態(tài),渴望在實(shí)戰(zhàn)中給予美軍艦沉重一擊,美聲稱已摧毀伊朗海軍是撒謊

伊朗伊斯蘭革命衛(wèi)隊(duì):軍隊(duì)正處于高度戒備狀態(tài),渴望在實(shí)戰(zhàn)中給予美軍艦沉重一擊,美聲稱已摧毀伊朗海軍是撒謊

大象新聞
2026-03-20 16:36:06
李昊意外落選國足大名單,真正原因已曝光,和邵佳一選人眼光無關(guān)

李昊意外落選國足大名單,真正原因已曝光,和邵佳一選人眼光無關(guān)

零度眼看球
2026-03-20 13:27:47
4S店蹭飯260次后續(xù):男子已社死,被同學(xué)認(rèn)出,博主調(diào)解反被追責(zé)

4S店蹭飯260次后續(xù):男子已社死,被同學(xué)認(rèn)出,博主調(diào)解反被追責(zé)

離離言幾許
2026-03-20 17:20:41
“一半中國男性活不過67.7歲”刷屏,真相比數(shù)字更荒誕!

“一半中國男性活不過67.7歲”刷屏,真相比數(shù)字更荒誕!

網(wǎng)絡(luò)辟謠
2026-03-19 13:45:03
上古羌人是哪來的?為何商朝抓到羌人都要對其處刑?考古發(fā)現(xiàn)答案

上古羌人是哪來的?為何商朝抓到羌人都要對其處刑?考古發(fā)現(xiàn)答案

銘記歷史呀
2026-03-20 17:44:48
九成人不知道,這7種蔬菜最適合冷凍,不壞還更好吃,省錢又實(shí)用

九成人不知道,這7種蔬菜最適合冷凍,不壞還更好吃,省錢又實(shí)用

江江食研社
2026-03-19 13:30:09
騰訊音樂大跌,是因?yàn)槠魳贰巴导摇眴幔?>
    </a>
        <h3>
      <a href=鈦媒體APP
2026-03-19 16:41:13
蘋果官網(wǎng)緊急更新,建議升級!

蘋果官網(wǎng)緊急更新,建議升級!

花果科技
2026-03-20 11:23:22
明十三陵被挖后,怪異之事接連不斷的發(fā)生,至今都無法合理地解釋

明十三陵被挖后,怪異之事接連不斷的發(fā)生,至今都無法合理地解釋

歷史甄有趣
2026-03-19 16:55:08
杜金:以色列控制著俄羅斯所有網(wǎng)絡(luò)攝像頭,“能斬首普京”?

杜金:以色列控制著俄羅斯所有網(wǎng)絡(luò)攝像頭,“能斬首普京”?

兵國大事
2026-03-19 21:52:34
曝廣東男籃新大外確定,大概率簽下籃板癡漢,身高2米13臂展2米32

曝廣東男籃新大外確定,大概率簽下籃板癡漢,身高2米13臂展2米32

中國籃壇快訊
2026-03-20 14:27:20
2026-03-20 21:48:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
121文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

頂樓從33層加蓋至35層 物業(yè):開發(fā)商稱樓頂屬業(yè)主私有

頭條要聞

頂樓從33層加蓋至35層 物業(yè):開發(fā)商稱樓頂屬業(yè)主私有

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財(cái)經(jīng)要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

態(tài)度原創(chuàng)

藝術(shù)
旅游
數(shù)碼
親子
本地

藝術(shù)要聞

吳昌碩『圓扇花卉』清新俊逸

旅游要聞

泉水水位同比大幅上升,趵突泉、黑虎泉依然處于最佳賞泉期

數(shù)碼要聞

黑鯊風(fēng)神Pro散熱器預(yù)約,到手僅399元!

親子要聞

萌娃知道老媽30歲了十分震驚,問到:老媽,你跟恐龍是哥們嗎?

本地新聞

春色滿城關(guān)不?。B興春日頂流,這片櫻花海藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版