337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

你是否也曾榨干過DeepSeek?

0
分享至

在今年深度體驗AI大模型的3個月里,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。

但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。

比如下面這個問題:


中間的思維鏈就更長了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個wait:


還有下面這個問題,花了將近6分鐘


這兩個問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯了。

這些問題,都來自一個測試,就是OpenAI在4月上旬發布的BrowseCamp,瀏覽競賽。

這個測試,主要就測一個能力:定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了,就是要看看大模型們瀏覽網頁和搜索信息的能力,到底強到什么地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。

但是,基本上沒太多人討論這個 BrowseCamp,它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

瀏覽競賽里的問題集的最大特點,就是答案簡單,但是,題干一定會用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。

比如,答案是一個歷史名人,但是,題干是這個人最冷僻、最不為人所知的信息點,甚至是有很大誤導性的信息點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜這個人是誰。

比如劉備,大家都知道,如果問桃園三結義里的大哥是誰,那就太好猜了。

如果這么問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。

是不是難了很多?

當然,理論上,還要加入更多的限制性條件,讓答案唯一。

以上信息,還算是很好找的,所有信息都在一個百度百科的網頁里都有了(因為就是我幾分鐘內現編的,如果信息有誤請找百度)。

但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個信息,然后開始驗證,排除,再查找,再驗證...最后,答錯了。

官方論文里的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業于達特茅斯學院(Dartmouth College),第四作者本科畢業于賓夕法尼亞大學(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數千篇論文了。

這是官方所謂的“驗證的不對稱性 asymmetry of verification ”:驗證 容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。

雖不完美,卻也有效。它不是考驗 next token predidtion的能力,畢竟題干和答案都很短,也不太考驗推理能力,因為不太需要什么深度研究分析(不過 普遍來說推理模型的表現還是會更好),只要找得到信息,就能回答正確。

下圖顯示了 BrowseCamp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent


瀏覽競賽里的問題,實在也不好編,官方說,現在攏共只有1266個問題。官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話窗口,一共15次測試,全軍覆沒。(注意,這并非是說 DeepSeek一道都做不對,而是正確率大概率很低)

而且,在沒有聯網的情況下,出現了前述 的超長回答時間的問題,理論上,這種自我榨干的情況不該出現,它應該早一點發現自己其實根本無法作答,然后再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。

那么,到底什么模型表現最好呢?很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個。


新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)


我的三個小心得:

1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;

2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍, 做對最好,沒做對也沒關系,它的搜索過程和給出的回答,還是能給你節約不少時間;

3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨干它,很快,你也會接近答錯了

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
脫口秀女演員思文官宣生子:正式介紹下,我兒子多多;此前發文與脫口秀演員程璐離婚

脫口秀女演員思文官宣生子:正式介紹下,我兒子多多;此前發文與脫口秀演員程璐離婚

極目新聞
2026-04-08 12:16:43
跑網約車一年能賺多少錢?官方公布數據:年薪13.7萬元,近半司機月入過萬

跑網約車一年能賺多少錢?官方公布數據:年薪13.7萬元,近半司機月入過萬

網約車觀察室
2026-04-10 09:59:51
沒有口號、沒有稿件!鄭麗文在洋山港的一個舉動,引人深思

沒有口號、沒有稿件!鄭麗文在洋山港的一個舉動,引人深思

小陸搞笑日常
2026-04-10 03:28:47
醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

39健康網
2026-04-09 20:21:08
兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

胖胖侃咖
2025-04-03 08:00:11
最高65.8萬!李斌甩出最貴SUV單挑所有MPV

最高65.8萬!李斌甩出最貴SUV單挑所有MPV

車東西
2026-04-09 23:39:28
跌瘋了?看不懂豬糧比?一口氣講清楚!

跌瘋了?看不懂豬糧比?一口氣講清楚!

三折人生
2026-04-10 07:10:15
伊朗無人機,“立大功”!

伊朗無人機,“立大功”!

航空知識
2026-04-09 19:53:38
NBA西部前10懸念不大!最終排名預測:湖人第5避開火箭,快船第9

NBA西部前10懸念不大!最終排名預測:湖人第5避開火箭,快船第9

球場沒跑道
2026-04-09 15:24:08
全紅嬋報警后續:網暴者已逃離,牽連多名運動員,新華社轉發

全紅嬋報警后續:網暴者已逃離,牽連多名運動員,新華社轉發

一盅情懷
2026-04-09 15:58:41
清明掃墓拔掉墳前桉樹,樹主人跑來怒踢貢品!兩邊扯皮互不相讓!

清明掃墓拔掉墳前桉樹,樹主人跑來怒踢貢品!兩邊扯皮互不相讓!

今朝牛馬
2026-04-09 16:59:40
成龍走哪他跟哪!房祖名被偶遇變“貼身助理”,這算是浪子回頭?

成龍走哪他跟哪!房祖名被偶遇變“貼身助理”,這算是浪子回頭?

今古深日報
2026-04-10 09:22:59
貶低全紅嬋、移居國外、兒子入外籍,白巖松的私生活謠言太離譜

貶低全紅嬋、移居國外、兒子入外籍,白巖松的私生活謠言太離譜

阿策聊實事
2026-04-10 08:39:28
廣州一餐廳推出6元五菜一湯自助餐,有顧客每天都來吃,經營者:曾月虧幾萬元,如今可保本,并非做慈善

廣州一餐廳推出6元五菜一湯自助餐,有顧客每天都來吃,經營者:曾月虧幾萬元,如今可保本,并非做慈善

臺州交通廣播
2026-04-10 06:48:24
炸裂!雙色球039期1注1000萬獨落廣東,藍球05兩連開

炸裂!雙色球039期1注1000萬獨落廣東,藍球05兩連開

芭比衣櫥
2026-04-10 03:49:32
開球即送禮?巴黎離奇戰術引發熱議,名宿批:世界強隊不該這么踢

開球即送禮?巴黎離奇戰術引發熱議,名宿批:世界強隊不該這么踢

星耀國際足壇
2026-04-09 21:07:24
起風了!鄭麗文訪陸當天,柯文哲出手,黃國昌出局?藍白合或失敗

起風了!鄭麗文訪陸當天,柯文哲出手,黃國昌出局?藍白合或失敗

小小科普員
2026-04-09 17:24:20
一車行李全沒了!海外旅游變噩夢:華人旅行團大巴被撬,瞬間被洗劫一空

一車行李全沒了!海外旅游變噩夢:華人旅行團大巴被撬,瞬間被洗劫一空

華人生活網
2026-04-10 05:12:31
劉小濤省長調研!這位南理工90后在常州干出潛在獨角獸

劉小濤省長調研!這位南理工90后在常州干出潛在獨角獸

創客公社-江蘇第一創投媒體
2026-04-09 20:08:06
“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
2026-04-10 10:39:00
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
221文章數 387關注度
往期回顧 全部

科技要聞

程序員驚喜,每月100美元!OpenAI推新套餐

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

體育要聞

把孫穎莎逼入絕境后,18歲非洲女孩哭著離場

娛樂要聞

夏克立婚內出軌 曾參加《爸爸去哪兒》

財經要聞

AI短劇"買臉"成風 肖像生意成灰色產業

汽車要聞

全新一代理想 L8 五座旗艦+5C增程系統 三季度交付

態度原創

家居
健康
手機
教育
時尚

家居要聞

復古風格 自然簡約

干細胞抗衰4大誤區,90%的人都中招

手機要聞

華為最強旗艦來了!Pura 90系列多地啟動盲約:Pro+/Ultra版退場

教育要聞

電化學儲能電站設計標準(GB_T 51048-2025)通俗解讀

越來越流行的松弛感穿搭,照著穿就很好看

無障礙瀏覽 進入關懷版