337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI能自己賺錢了:100美元狂賺50萬美金!

0
分享至


$OneMillion-Bench:價值百萬美金的專家級白領任務,AI已經能做大半了

如果有價值$100萬美金的頂級專家任務,AI能完成其中多少?

答案是48萬美金,而只需要100美元的Token費用。

這個數字怎么來的?Humanlaya Data Lab聯合北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來自Morgan Stanley、世達(Skadden)、協和醫院、中國電網、清華大學等頂級機構或學府的100+位資深專家,耗時2000+小時,構建了等價于人類專家工作價值百萬美元級評測基準——$OneMillion-Bench。

隨著OpenClaw的爆火,人們越來越關注AI Agent能夠實際替人類完成的任務。$OneMillion-Bench的核心想法很直白:用“人類專家的時間與成本”給任務定價,再用“是否滿足專家要求”衡量模型交付質量——如果把AI當成“數字白領專家”,總價值100萬美金的任務,模型到底能賺多少錢?


圖1:$OneMillion-Bench模型表現和其獲取的經濟價值

「Agent能掙錢」成為日常,但行業更缺一把尺:可交付、可復核、可控

從2025Agent元年開始,AI逐漸從“答題機”推進到“數字員工”,但業界現有評測集往往缺乏對實際經濟價值的衡量,區分度不足、難以自動化且僅有英文語境,因此,$OneMillion-Bench構建了一套兼備高經濟價值×高區分度×可自動評測的基準。

它包含400道高難題目(200個英文題+200個中文題),覆蓋金融、法律、醫療、自然科學與工業五大領域的92個三級領域,與常見的考試題不同,每道題都是真實行業場景下的開放專家任務,采用Rubrics + LLM as Judge評測。要求模型給出可落地的實操方案與判斷鏈路,在這些開放問題上,不僅回答“是什么”,更要說明“怎么做、按什么順序做、為什么這么做”。


圖2:$OneMillion-Bench5個領域,37個二級和92個三級細分類別

之所以是$OneMillion,是因為這些任務真的很「貴」。

不同于傳統只評估模型準確率的榜單,我們用“錢”來標價每一道題的現實勞動價值——任務經濟價值=資深專家完成該任務的耗時×專家時薪。時薪錨定官方或行業權威數據,如中國部分城市人社局、美國勞動統計局,任務的耗時來自多個領域專家的共同評估。據此,把所有任務的經濟價值加和計算后,超過了100萬美元。如果在現實世界里把這些工作交給資深專家團隊完成,你需要支付的成本就是百萬美元量級。這樣一來,模型評測不再停留在分數上,而是更直觀地回答:AI現在到底能穩定交付多少“可兌現價值”,以及距離真正上崗還差什么。


表1:$OneMillion-Bench經濟價值計算

四大關鍵設計:多樣化真實場景+高價值任務+非對稱負分機制+高質量與一致性

(1)經濟價值出發,構建高真實性、高含金量專家任務

我們在評測中引入用貨幣度量的“經濟價值”,核心是衡量模型在真實世界中能創造多少可交付的經濟價值。開放式問題很難用單一標準答案衡量,我們邀請一線資深專家將真實工作流拆解為細顆粒度考點:每道題設計15–35個考點,累計7000+考點。題目覆蓋5–15年經驗從業者在真實場景中常見的典型任務,專家來自各類頭部機構,不只考知識點,更考驗特定場景下的專家級決策能力。

(2)引入“負分項”,防止Reward Hacking

在開放式任務里,模型最容易走向“越說越多、看起來越專業”,蒙到考點就得分。為了避免虛高,我們加入行文邏輯和結構、扣分項考點。模型如果只是堆砌內容,沒有合理的邏輯展開,無法“撞到”高分。在考點分值設置上,我們采取+10~-20的非對稱考點分值:正向能力給分更克制,明確或致命錯誤懲罰更重。這套結構的效果更接近真實使用體感——做對不一定加分很多,但做錯往往會帶來更大代價。

(3)覆蓋92個三級分類,含CN+Global兩大子集單獨區分中國大陸題目,場景足夠真實、豐富

我們將任務細化到覆蓋92個三級分類的真實崗位工作流;CN是中文題目,Global是英文題目,收集本地化、真實的題目,盡量還原真實的法規、流程與業務語境,從而更精準刻畫不同模型在特定地域業務場景中的能力差異。

(4)一套“像生產線”的專家Pipeline:讓高難Rubrics題可規模化、可質控

為了確保數據場景真實、考點合理,團隊在專家招募、選拔與培訓上投入大量成本,專家平均整體通過率低于5%,題目最終質檢通過率38.1%。數據生產采用3-4名專家協作的Pipeline,包含對抗性評審與仲裁機制。在難度控制上,我們采取雙向截斷策略,剔除過易樣本,對于過難樣本二次復審,確保數據質量。


圖3:$OneMillion-Bench題目示例

成績單解讀:SOTA的分數已經合格,但距離交付仍有距離

目前最強模型通過率超過40%,在100萬美元的任務上,大約可以產出50萬美元,而完成任務的API成本也就100美元左右!AI不但已經能“干活”,而且在極高難度、極高單價的專業任務里,已經能交付相當可觀的美元級別的價值。


表2:模型的平均通過率、平均分和可以產生的總經濟價值

Insight 1:成績已經合格,但離“可托付”還很遠

如果只看平均分,頭部模型已經進入了合格區間(60%+),第二梯隊也普遍在50%以上,說明AI在專業任務上確實能覆蓋不少關鍵點。但在真實工作里,平均分其實不夠用,未達到一定質量需要返工。因此,我們引入了更貼近落地的指標——通過率(Pass Rate):單題得分達到70%及以上,本題才算“通過”。

基于這個定義,本榜單的Economic Value(經濟價值)也不是按平均分線性折算,而是嚴格按“可交付”口徑計算,只有通過的任務才計入“能賺到的錢”。平均分像“考試成績”,而通過率才是“上崗證”。

而從通過率的視角來看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到43.5%,即只有不到45%的任務可以通過驗收,第二梯隊多在25~30%區間徘徊。換句話說,平均分看起來“能用”,但能在一半以上任務里穩定達到可交付標準的模型,目前還不存在。

目前,AI 已經能穩定交付一部分題目、并且能賺到很可觀的價值,但榜單也清楚告訴我們另一半真相:距離可交付專業任務仍有相當一段路程。

Insight 2:Web Search 是一把雙刃劍

Web Search 工具調用通常能顯著補齊事實,尤其在經濟金融領域的時效性問題,同樣適用于醫療、工業、法律中不斷迭代和演進的規范和約束。

但它也會引入噪聲與“看似權威的錯誤來源”,從而出現波動甚至回退。下一階段競爭不只是“有沒有搜索”,而是“會不會搜索”以及搜索工具的效果如何:會不會選源、會不會交叉驗證、會不會把證據鏈寫進推理、會不會在噪聲下保持一致性。

Insight 3:復雜推理仍是通用瓶頸,方向正確但缺乏可執行的細節

模型擅長寫一段看起來連貫的解釋,但一旦任務需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會出現深度不足與準確性波動。典型例子包括軟件工程、機器學習相關任務中的探索式問題。這類任務必須先建立結構,再做推導,再做反證,再回溯修正。模型往往會在中途跳步,或者用看似合理的敘述替代真正的推理。

此外,模型容易給出方向正確但是缺乏可執行細節的回復。比如在醫療場景下,需要的是可執行的臨床要素,但模型容易泛泛而談,遺漏關鍵點。自然科學任務里存在類似的對實驗條件的預期不足、對約束不夠細、機制鏈條理解淺。這種失敗在真實落地里殺傷力很大,因為它看起來“很對”,但沒有可實踐的信息量。

One Step Further ——將把模型推進到“可交付”的那一步

如果站在2024年的視角,會覺得AI還是一個“大玩具”。但站在2026年、OpenClaw把Agent推到大眾面前之后,我們看到的是另一件事:AI已經能交付50萬美元級別的專業價值;接下來競爭的關鍵,是繼續提升這份價值,并且將這份價值變得更穩定、更可復核、更可控,使智能的邊際提升能直接轉化為生產力和收入。

$OneMillion-Bench的意義不在于“再做一個排行榜”,而是把“數字員工”的能力邊界量化出來:你今天和未來可以放心把哪些工作交給它?

關于Humanlaya

Humanlaya是一家成立于2025年的AI數據實驗室,通過定義真實、高經濟價值的可驗證任務,推動大模型能力邊界的拓展與經濟價值的落地。

網址:www.humanlaya.com

開源鏈接:

Paper:https://arxiv.org/abs/2603.07980

GitHub:

https://github.com/humanlaya/OneMillion-Bench

Hugging Face:

https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench

Website:

1. Humanlaya:www.humanlaya.com

2. BIGAI:https://www.bigai.ai

3. xbench:https://xbench.org

4. M-A-P:https://huggingface.co/m-a-p

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗最新回應:已被特朗普欺騙了兩次,不想再被愚弄!3架F-15戰機墜毀,特朗普最新回應:小意外!伊朗致函聯合國,“176國傳閱”

伊朗最新回應:已被特朗普欺騙了兩次,不想再被愚弄!3架F-15戰機墜毀,特朗普最新回應:小意外!伊朗致函聯合國,“176國傳閱”

每日經濟新聞
2026-03-25 16:15:05
成都世遺馬拉松一女子賽道擺拍“一字馬”,險絆倒后方選手!組委會:取消成績、2027年禁賽

成都世遺馬拉松一女子賽道擺拍“一字馬”,險絆倒后方選手!組委會:取消成績、2027年禁賽

大象新聞
2026-03-25 17:53:10
伊朗連發兩條公告,一排排地下導彈出鏡,歐洲不淡定了,美以沉默

伊朗連發兩條公告,一排排地下導彈出鏡,歐洲不淡定了,美以沉默

漫步獨行俠
2026-03-25 08:38:05
3月17日重慶新橋醫院 廣西女子求醫掛不上號 醫生下班蹲地看片暖哭

3月17日重慶新橋醫院 廣西女子求醫掛不上號 醫生下班蹲地看片暖哭

觀星賞月
2026-03-26 05:17:03
張雪峰,倒在上市前夜

張雪峰,倒在上市前夜

帥真商業
2026-03-25 11:31:43
5月1日起,全國電動車徹底“變天”,家家戶戶都要注意

5月1日起,全國電動車徹底“變天”,家家戶戶都要注意

老特有話說
2026-03-25 15:33:02
男子喝了3斤白酒,將50歲丈母娘當成老婆,妻子不緊不忙的報了警

男子喝了3斤白酒,將50歲丈母娘當成老婆,妻子不緊不忙的報了警

罪案洞察者
2025-07-07 10:03:06
最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

魔都姐姐雜談
2026-03-24 20:50:19
“只要決心夠大,諾貝爾獎不在話下!”

“只要決心夠大,諾貝爾獎不在話下!”

槽邏輯
2026-03-24 18:46:27
張雪峰的高考志愿填報之年

張雪峰的高考志愿填報之年

屠龍喬治
2026-03-25 19:06:31
主場32分慘敗上海!山西主帥:這是我接隊以來,打得最差一場比賽

主場32分慘敗上海!山西主帥:這是我接隊以來,打得最差一場比賽

狼叔評論
2026-03-25 23:58:05
翻供甩鍋、輕描淡寫!日本自衛官持刀闖中國使館,日方態度敷衍

翻供甩鍋、輕描淡寫!日本自衛官持刀闖中國使館,日方態度敷衍

武器縱論
2026-03-25 21:18:33
押注中國!迪拜資本大轉移,數千億真金白銀連夜搬家到東方

押注中國!迪拜資本大轉移,數千億真金白銀連夜搬家到東方

小舟談歷史
2026-03-25 06:28:02
《浪姐7》糊咖扎堆,大牌只有兩位,3人成流量擔當,4人有黑馬相

《浪姐7》糊咖扎堆,大牌只有兩位,3人成流量擔當,4人有黑馬相

八卦南風
2026-03-25 17:32:20
處長把我踢出工作群還標“編外”,隔天求我救急?我:沒權限!

處長把我踢出工作群還標“編外”,隔天求我救急?我:沒權限!

曉艾故事匯
2026-03-21 15:19:51
斬首成癮?拉里賈尼和哈提卜之后,以色列又刺殺了革命衛隊發言人

斬首成癮?拉里賈尼和哈提卜之后,以色列又刺殺了革命衛隊發言人

合贊歷史
2026-03-25 13:14:43
一艘泰國油輪安全通過霍爾木茲海峽

一艘泰國油輪安全通過霍爾木茲海峽

新京報
2026-03-25 07:50:19
5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

叮當當科技
2026-03-20 03:29:51
到底是誰讓馬景濤穿這身衣服的?簡直是災難現場!

到底是誰讓馬景濤穿這身衣服的?簡直是災難現場!

西樓知趣雜談
2026-03-25 23:41:24
即便中東停火,油價也不可能回到過去

即便中東停火,油價也不可能回到過去

北向財經
2026-03-26 09:02:27
2026-03-26 09:56:49
融資中國 incentive-icons
融資中國
股權投資與產業投資媒體平臺
7310文章數 21319關注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

舉天價零件發出靈魂拷問的美官員 自己被大學生質問了

頭條要聞

舉天價零件發出靈魂拷問的美官員 自己被大學生質問了

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產分割復雜!是否立遺囑成關鍵

財經要聞

黃仁勛:芯片公司的時代已經結束了

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

游戲
藝術
數碼
教育
公開課

不盯屏增量1000+!爽到昏厥的街機挖礦

藝術要聞

王洪文的狂草背后隱藏的秘密,趙孟頫書法的真實價值揭秘!

數碼要聞

銷量暴跌40%!2026開年筆記本電腦市場遭遇雙重沖擊

教育要聞

驚了!斯坦福大學近四成學生登記為殘障人士?!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版