337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SuperGPQA殺到!大模型迎戰(zhàn)285學(xué)科“最強(qiáng)考官”

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

過去兩年里,大模型的能力呈現(xiàn)出一種讓人麻木的“爆炸式進(jìn)展”:幾乎每個(gè)傳統(tǒng)測(cè)評(píng)集都在被迅速刷穿。榜單不斷刷新,人們開始習(xí)慣于“某某模型又在某個(gè)測(cè)試中拿了90分”的新聞,也逐漸默認(rèn):大模型已經(jīng)越來越接近“通才型智能”。

但一個(gè)問題始終被回避:當(dāng)這些模型離開刷榜訓(xùn)練集,真正進(jìn)入復(fù)雜、分散、專業(yè)化的人類知識(shí)體系,它們還能站得住嗎?

SuperGPQA 正是帶著這個(gè)問題出現(xiàn)的。這是目前規(guī)模最大、覆蓋最廣、專業(yè)性最強(qiáng)的模型評(píng)測(cè)基準(zhǔn)之一:涵蓋 13 個(gè)學(xué)科門類、72 個(gè)一級(jí)領(lǐng)域、285 個(gè)研究生級(jí)細(xì)分學(xué)科,總計(jì) 26,529 道高難度選擇題。從量子物理、半導(dǎo)體材料到臨床醫(yī)學(xué)、農(nóng)學(xué)工程,從哲學(xué)到語言學(xué)理論,它試圖第一次把“整張研究生課程表”擺到模型面前,看看這些以“博聞強(qiáng)記”著稱的大模型,能否真正面對(duì)專業(yè)體系。已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


數(shù)據(jù)集地址

https://wisemodel.cn/datasets/yyf1/SuperGPQA

01.

SuperGPQA是怎么“煉”出來的

SuperGPQA采用人機(jī)結(jié)合的三階段質(zhì)控流程,確保每一道題在可解性、專業(yè)性和區(qū)分度上均達(dá)到高標(biāo)準(zhǔn):

  • 80+專家親自下場(chǎng)選題

SuperGPQA的構(gòu)建由80+ 專家負(fù)責(zé)搜集題源,覆蓋 285 個(gè)研究生級(jí)細(xì)分學(xué)科。專家從教材、專業(yè)試題、學(xué)科資料中篩選并提供帶截圖的原始題目,確保后續(xù)加工所需的完整背景信息。這一階段的核心任務(wù)是:確定可信來源、收集高難度原題、整理題目上下文,為后續(xù)轉(zhuǎn)寫與質(zhì)檢打下基礎(chǔ)。

  • 眾包+專家+頂尖模型三重處理

在轉(zhuǎn)寫階段,由來自頂尖高校的眾包成員在頂尖模型輔助下對(duì)專家上傳的題目進(jìn)行結(jié)構(gòu)化加工:包括翻譯、改寫為多選題、生成干擾項(xiàng)、補(bǔ)全選項(xiàng)信息與標(biāo)準(zhǔn)化題面格式等步驟。最終由專家對(duì)改寫的內(nèi)容進(jìn)行人工復(fù)核與修訂,確保加工后的題目準(zhǔn)確、完備且符合學(xué)科要求。

  • 規(guī)則過濾→模型篩查→專家終審

(1)規(guī)則過濾:自動(dòng)檢查題目格式、結(jié)構(gòu)、邏輯與領(lǐng)域一致性,剔除所有不符合規(guī)范的內(nèi)容。

(2)模型篩查:多款 SOTA 模型對(duì)候選題進(jìn)行有效性、相關(guān)性與可解性評(píng)估,并生成難度與區(qū)分度標(biāo)簽,標(biāo)記需重點(diǎn)復(fù)核的題目。

(3)專家終審:專家對(duì)模型標(biāo)記的題目逐條復(fù)核,包括答案確認(rèn)、題干與選項(xiàng)修訂及必要的重寫,最終形成可納入 SuperGPQA 的高質(zhì)量題目。


02.

SuperGPQA: 專治各種“不服”

該基準(zhǔn)在六大核心維度實(shí)現(xiàn)對(duì)傳統(tǒng)基準(zhǔn)的碾壓。

1、區(qū)分度最高:SOTA 與中等模型差距遠(yuǎn)大于 MMLU / GPQA

2、提升空間最大:最強(qiáng)模型也只有 63.56%

3、與人類評(píng)價(jià)最吻合:與 Arena 相關(guān)性高達(dá) 87.6%

4、樣本量最豐富:26,529 題

5、學(xué)科最全面:13 門類 × 72 一級(jí)學(xué)科 × 285 二級(jí)學(xué)科

6、選項(xiàng)最復(fù)雜:平均 9.67 個(gè)選項(xiàng),多選題比例更高


即便是當(dāng)前表現(xiàn)突出的模型——包括 Gemini-2.5-Pro、DeepSeek-R1 在內(nèi)——在 SuperGPQA 上的最高準(zhǔn)確率也僅達(dá)到63.56%。這意味著距離真正意義上的“通用學(xué)術(shù)能力”仍有相當(dāng)大的提升空間。


03.

幾個(gè)特別有意思的發(fā)現(xiàn)

通過 SuperGPQA 這個(gè)評(píng)測(cè),研究團(tuán)隊(duì)發(fā)現(xiàn)了 4 個(gè)重要情況,分別和模型的推理能力、微調(diào)效果、文科表現(xiàn)、提示詞使用有關(guān),這些情況能說明大模型的差異和發(fā)展方向。

1、推理模型才是真大佬:專用推理模型大幅領(lǐng)先普通聊天模型

在SuperGPQA評(píng)測(cè)中,專用推理模型(如DeepSeek-R1、o1-2024-12-17)的表現(xiàn)顯著優(yōu)于通用非推理模型(Doubao-1.5-pro)。這說明復(fù)雜推理能力在專業(yè)學(xué)科評(píng)測(cè)中是關(guān)鍵區(qū)分因素,也是當(dāng)前大模型邁向更高智能的重要瓶頸。

2、微調(diào)效果巨大:例如 DeepSeek-V3 比基礎(chǔ)版提升 15+ 個(gè)百分點(diǎn)

DeepSeek-V3 和 Qwen2.5-72B-Instruct 的結(jié)果(47.40, 40.75)分別顯著優(yōu)于 DeepSeek-V3-Base 和 Qwen2.5-72B 的結(jié)果(32.14, 34.33)。這表明指令對(duì)齊與任務(wù)適應(yīng)能顯著釋放模型潛力,尤其是在多學(xué)科、復(fù)雜語境下的表現(xiàn)。

3、文科領(lǐng)域成模型能力分水嶺:歷史、法律等人文領(lǐng)域更能拉開模型差距

高區(qū)分度學(xué)科如歷史、法律表現(xiàn)出強(qiáng)烈的性能分化,低區(qū)分度學(xué)科(如工程類)則呈現(xiàn)性能趨同。這說明大模型在處理結(jié)構(gòu)化、確定性知識(shí)時(shí)表現(xiàn)趨同且優(yōu)異,但在處理非結(jié)構(gòu)化、模糊性、依賴于語境和價(jià)值觀的知識(shí)時(shí),能力差異巨大。

4、提示詞效果分化:大模型提升,小模型反降

大模型(如 Qwen2.5-72B-Instruct) 在提供子領(lǐng)域信息后準(zhǔn)確率從 40.82% 提升至 41.93%。

小模型(如 Qwen2.5-0.5B-Instruct) 則幾乎無提升,甚至略有下降。這說明大模型更能利用細(xì)粒度上下文信息進(jìn)行推理,而小模型可能因容量有限,難以有效利用額外提示信息。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔡磊透露身體近況:四個(gè)人同時(shí)攙扶也無法邁步,感覺最對(duì)不起的就是妻子

蔡磊透露身體近況:四個(gè)人同時(shí)攙扶也無法邁步,感覺最對(duì)不起的就是妻子

極目新聞
2026-03-29 22:40:10
奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報(bào)
2026-02-23 11:31:10
太反常!別的國家越強(qiáng)越?jīng)]人敢惹,為啥中國越強(qiáng),麻煩就越多

太反常!別的國家越強(qiáng)越?jīng)]人敢惹,為啥中國越強(qiáng),麻煩就越多

小蘭聊歷史
2026-03-30 15:11:22
美國歷史,或?qū)⒂诒局苋膶懀?>
    </a>
        <h3>
      <a href=湊近看世界
2026-03-30 10:24:47
中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國將徹底顛覆戰(zhàn)場(chǎng)

中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國將徹底顛覆戰(zhàn)場(chǎng)

嘆知
2026-03-29 18:13:46
焦泊喬成籌碼?廣東可能進(jìn)行交易,前國手有望加盟,曾獲杜鋒青睞

焦泊喬成籌碼?廣東可能進(jìn)行交易,前國手有望加盟,曾獲杜鋒青睞

萌蘭聊個(gè)球
2026-03-30 08:19:53
霍啟山激動(dòng):嫂子我喜歡這個(gè)!郭晶晶:等著,嫂子給你要微信去!

霍啟山激動(dòng):嫂子我喜歡這個(gè)!郭晶晶:等著,嫂子給你要微信去!

拳擊時(shí)空
2026-03-28 07:07:19
烏克蘭認(rèn)輸了?澤連斯基改口認(rèn)慫,不到24小時(shí),普京下達(dá)最新命令

烏克蘭認(rèn)輸了?澤連斯基改口認(rèn)慫,不到24小時(shí),普京下達(dá)最新命令

近史閣
2026-03-30 12:19:48
歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

西樓知趣雜談
2026-03-24 14:38:30
萬科12位高管被調(diào)查

萬科12位高管被調(diào)查

地產(chǎn)微資訊
2026-03-28 11:17:12
楊瀚森全程沒動(dòng)手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實(shí)

楊瀚森全程沒動(dòng)手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實(shí)

你的籃球頻道
2026-03-30 10:02:01
“斬首術(shù)”應(yīng)該獲諾貝爾獎(jiǎng)?如此“讓領(lǐng)導(dǎo)先走”,真是偉大創(chuàng)造嗎

“斬首術(shù)”應(yīng)該獲諾貝爾獎(jiǎng)?如此“讓領(lǐng)導(dǎo)先走”,真是偉大創(chuàng)造嗎

瑜說還休
2026-03-27 17:31:33
單依純明目張膽侵權(quán)他人作品,拒不道歉,李榮浩4連問硬剛到底

單依純明目張膽侵權(quán)他人作品,拒不道歉,李榮浩4連問硬剛到底

上觀新聞
2026-03-29 17:56:07
伊朗做好最壞打算,如果美國發(fā)動(dòng)地面戰(zhàn),將拉著周邊鄰國同歸于盡

伊朗做好最壞打算,如果美國發(fā)動(dòng)地面戰(zhàn),將拉著周邊鄰國同歸于盡

探史
2026-03-30 11:47:20
中國摩托的越南復(fù)仇:從“工業(yè)垃圾”到“平替神車”

中國摩托的越南復(fù)仇:從“工業(yè)垃圾”到“平替神車”

沙雕小琳琳
2026-03-28 10:15:55
洛桑去世真相:博林25年后坦白,他其實(shí)沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實(shí)沒喝多少酒

觀察者海風(fēng)
2026-03-26 23:12:53
曼聯(lián)夏窗鎖定23歲頂級(jí)中場(chǎng)!為截胡曼城,紅魔愿以他為核心建隊(duì)

曼聯(lián)夏窗鎖定23歲頂級(jí)中場(chǎng)!為截胡曼城,紅魔愿以他為核心建隊(duì)

仰臥撐FTUer
2026-03-30 13:28:08
開辟第二個(gè)戰(zhàn)場(chǎng)?美航母后撤,胡塞導(dǎo)彈砸向以色列,伊朗迎來強(qiáng)援

開辟第二個(gè)戰(zhàn)場(chǎng)?美航母后撤,胡塞導(dǎo)彈砸向以色列,伊朗迎來強(qiáng)援

張殿成
2026-03-30 16:02:05
朱孝天撕「賣情懷F4」標(biāo)簽上陸綜 曾志偉嚇一跳:為什么要來?

朱孝天撕「賣情懷F4」標(biāo)簽上陸綜 曾志偉嚇一跳:為什么要來?

ETtoday星光云
2026-03-30 09:50:17
塔圖姆轟32+5+8無緣今日最佳!對(duì)不起,你碰到暴走創(chuàng)紀(jì)錄的申京了

塔圖姆轟32+5+8無緣今日最佳!對(duì)不起,你碰到暴走創(chuàng)紀(jì)錄的申京了

世界體育圈
2026-03-30 12:41:58
2026-03-30 16:59:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務(wù)恢復(fù)

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

油價(jià)沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號(hào)MEGA 能沖擊高端純電市場(chǎng)?

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
旅游
家居
公開課

藝術(shù)要聞

600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

手機(jī)要聞

三星舊機(jī)更新現(xiàn)隔空投送開關(guān),卻無法使用?

旅游要聞

赴泰旅游價(jià)格或上漲,泰國擬向外國游客收300泰銖

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版