337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

奧特曼預言與現實相差幾何?12個頂級模型“創業”一年,僅3個存活

0
分享至

“在 AI 時代,一個人有可能創辦一家估值 10 億美元的獨角獸公司。”2024 年初,OpenAI CEO 山姆·奧特曼(Sam Altman)拋出考慮了這個后來被廣泛引用的判斷。

數據似乎也正驗證這一趨勢。據股權管理平臺Carta 統計的2025 年數據顯示:超過三分之一的新公司由單人創始人創辦。從 2019 年的 23.7% 到 2025 年上半年的 36.3% ,獨立創始人創立公司的比例在六年間增長了 53% 。不僅不需要聯合創始人了,甚至一個人、一套 AI 工具就能打天下的“一人公司”案例也開始出現在科技媒體的報道中。

AI越來越強,但一個人+AI,真的等于一家公司嗎?AI能做到什么程度?

Collinear AI(專注企業級AI Agent的初創公司)的研究團隊認為,整個行業正在快速邁向長周期、多步驟的Agent工作流,但可靠性并沒有跟上這一進程。因此,他們發布了YC-Bench(首個帶有模擬時鐘的開源長時序 Agent 評測基準) 試圖用科學的方式回答這個問題——不是靠感覺和案例,而是把“一個人能做的事”拆解成可量化的任務,然后用全球最強的 AI 模型逐一去測試。

研究團隊構建了一個高擬真度的模擬創業環境,AI 在里面扮演 CEO,讓 AI Agent 從零運營一家公司:管理員工、挑選項目合同、應付難纏的客戶、維持公司賬上的現金流。一年后,從起始資金 20 萬美元,到最終能活下來且賺錢的,12 個頂級模型里,只有 3 個做到了。

論文來源: YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution https://arxiv.org/abs/2604.01212
YC-Bench 怎么測的?

前沿模型能經營一家創業公司嗎?

帶著這樣的疑問,研究團隊發布了 YC Bench。其核心設計思路是:給一個前沿模型種子資金、一支小團隊和一個任務市場,讓它模擬經營一家 AI 初創公司——管理員工、按時交付、分配資源,在一年內實現利潤最大化。


核心挑戰有三層:

  • 不確定性下的規劃:市場是部分可觀察的,AI 不能“偷看答案”,必須基于不完整信息做決策。
  • 延遲反饋:很多決策的后果要幾周甚至幾個月才顯現,AI 必須從延遲的信號中學習和調整。
  • 錯誤累積:早期的一個糟糕決策會在后期放大,最終導致破產——這正是現實創業中最殘忍的規律。

其中,研究團隊增加了對抗性壓力:環境里有意設置了難纏的客戶、不斷上漲的人力成本,讓 AI 在壓力下做出判斷。

評估的方法,是12 個模型(含閉源和開源),每個模型跑 3 次(不同隨機種子數據集),唯一允許在回合間“記事”的工具是 Scratchpad(草稿本)——相當于 AI 的內部筆記本,這是它跨回合保持記憶的唯一方式。

在這個評測中,Agent = LLM + 工具 + 決策框架,LLM 是大腦,框架是手腳。

每個被測模型都被套上了一層 Agent 框架,讓它們能:

  • 查看公司當前狀態(財務報表、員工情況)
  • 根據看到的信息做推理和決策
  • 調用工具執行動作(分配任務、招聘員工、推進時間)

這 12 個模型做的就是這個 Agent 循環,不是單純地回答問題。YC-Bench 測的不是"哪個大模型答卷考得好",而是"哪個模型當老板當得好"。

12 個模型,同一場壓力測試,結果:三個沒想到

研究團隊挑選了 12 個來自不同公司的主流 AI 模型,放在同一套環境里進行三輪獨立測試。


模型在模擬環境里的行為差異極大,主要體現在四個維度。其中,Scratchpad 寫入頻率反映了 AI 在長程任務中進行主動規劃和自我反思的強度;任務檢查比例反映了 AI 是否主動核實客戶可信度;并發任務數反映 AI 是否存在“過度并行”問題。


在計算成本與穩定性上,API成本差異極為懸殊,而結果卻并不與成本正相關。


圖中可以看到不同模型之間運行時間差異巨大。同樣跑完一年模擬,Claude Opus 4.6 用了70分鐘,GPT-5.4 Nano只用了3分鐘。深入拆解,有以下幾個原因:

  • 首先,運行時間和Token量強相關,這意味著AI在每個決策回合“想了多久”。Claude Opus 4.6 產生了16.7M token,而GPT-5.4 Nano只有2.0M token。這背后源于兩個行為:Scratchpad的寫入量(記錄各種情況)和每輪發出的命令數(與環境交互)。
  • 其次,不同模型本身推理速度和吞吐量差別也很大,比如Gemini Flash系列是專為速度優化,推理極快,其他GPT-5.4 Nano/Mini也是輕量級小模型,參數少、推理快,而Claude Opus 4.6是旗艦大模型,參數量大,每個Token計算量高,自然也就慢了。
  • 此外,還存在API網絡延遲的疊加效應。YC-Bench中跑了幾百個回合,每輪都要調用API,旗艦款模型的響應延遲高于輕量模型,再乘以幾百輪,延遲就會被大幅放大。

綜合來看,結論還是有不少讓人意外之處。

1. 頂級模型的差距,比想象中大得多

在三輪測試中,12 個模型里,只有 3 個能持續跑贏 20 萬美元起始資金。剩下 9 個,要么勉強持平,要么在一年內走向破產。


但更有意思的是始終存活下來的前三名對比:


Top 3 模型最終資金對比

其中,GLM-5 以極低成本接近 Claude Opus 的表現,可以說是 Claude Opus 的“性價比殺手”——差距極小,但算力消耗天差地別。這對那些想用 AI 運營公司的人來說,是個重要信號:最貴的模型不一定是最優的。

2. Scratchpad 是生死線

這是整個論文最反直覺的發現:決定輸贏的并不完全是參數量,而是Scratchpad 的使用方式。

例如,在前文表格中,Gemini 3.1pro 作為旗艦款的Pro模型,按慣例來講應該是同系列中參數最大的,但在三次測試中破產兩次;反觀其輕量版模型Gemini 3 Flash一次都沒有破產,雖然最終資金不多,但至少活下來了。

而其他能持續、規律地使用 Scratchpad 做規劃和自我反思的 AI(如 Opus 4.6、GLM-5、GPT-5.4),表現遠優于那些"走一步看一步"的 AI。GPT-5.4 雖然 Scratchpad 使用頻率極高(10.6次/100輪),但其高任務檢查率使其也維持了穩定盈利。


這像極了人類創業者:那些隨時記筆記、復盤決策、做長期打算的人,往往比那些憑直覺行動的人走得更遠。AI 也不例外。

3. 第一道坎,來自最難纏的客戶

47% 的破產都始于對抗性客戶——AI 在沒有充分核實背景的情況下接受了不利條款,或者沒有識別出客戶的惡意意圖。其他主要失敗原因包括:員工分配不當(26%)、過度并行化(17%)以及其他因素(10%)。

這個數字令人意外:人們通常認為 AI 在邏輯推理和數據分析上很強,但識別意圖和風險,恰恰是它最薄弱的地方。

更諷刺的是,論文還發現前沿模型有一種獨特的失敗模式:過度并行化——Claude Sonnet 4.6 平均同時承接 7.2 個任務,遠超其他模型,但這種"多線程"策略反而導致資源分散、每條線都做不深。

這不只是論文,更像是現實的壓力測試

看完這些實驗數據,你會發現 YC-Bench 測的,其實就是"一個人 + AI 工具"能否真正成為一家公司的核心能力。


換句話說,YC-Bench 用代碼模擬的,正是每一個想靠 AI 創業的"超級個體"每天都在面對的真實挑戰。

山姆·奧特曼說,一個人可以創辦一家獨角獸。

YC-Bench 的研究說明,前提是這個人得比 AI 更懂什么時候不該聽 AI 的。這不是對 AI 的否定,恰恰是對 AI 時代“一人公司”最誠實的定義:一個人 + AI,不是降低了對創業者的要求,而是把要求從“你會多少技能”變成了“你有多擅長做判斷”。

YC-Bench 的價值,不在于告訴我們 AI 能做什么,而在于誠實地揭示了 AI 現在還不能做什么——以及在那些縫隙里,一個人必須自己補上的那些能力。

最后,綜合這份論文中的判斷,或許可以給在做“一人公司”的人提供幾個提示:

  • 不要被 AI 的“智商”騙了——模型在各項評測榜單上分數很高,但在長程任務里,堅持用筆記、持續復盤、主動識別風險的做事習慣,比純粹的推理能力更重要。目前沒有哪個模型在這一點上做到完美,包括測試中的大贏家Claude Opus。
  • “最貴的”不等于“最合適的”——GLM-5 的出現說明,模型選擇上存在被嚴重低估的性價比路線。一人公司本就在資源有限的前提下運營,沒必要為最貴的模型付溢價。
  • 早期的一個失誤,真的會殺死你——這是YC-Bench最殘酷的發現:AI 在前幾個月的決策質量,直接決定了后期的發展空間。一個人創業也是如此——最初的合同、人員、方向選擇,會在12個月后被放大成巨大的優勢或劣勢。
  • AI 的盲點,在人際判斷上——47%的破產源于客戶識別失誤,這不是技術問題,而是 AI 缺乏“社會經驗”的系統性弱點。在現實中,這意味著一個人用 AI 跑公司,必須自己在關鍵決策上保持判斷力,而不是完全依賴 AI 的建議。

(文|數智達觀,作者|蓋虹達,編輯丨楊林)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
67歲遲志強現狀:出獄37年后,定居黑龍江,兒子工作令人淚目

67歲遲志強現狀:出獄37年后,定居黑龍江,兒子工作令人淚目

以茶帶書
2026-04-01 12:20:29
李若彤帶貨翻車!假洋牌'優思益'被央視實錘,小龍女道歉

李若彤帶貨翻車!假洋牌'優思益'被央視實錘,小龍女道歉

仙味少女心
2026-04-02 23:46:49
剛從韓國回來,說點不中聽的:韓國的真實面目,可能讓你很意外

剛從韓國回來,說點不中聽的:韓國的真實面目,可能讓你很意外

復轉這些年
2026-04-03 14:03:28
天龍三號運載火箭發射失利

天龍三號運載火箭發射失利

財聯社
2026-04-03 13:05:08
價格斷崖式下跌!商家瘋狂拋售!深圳網友:等等黨贏麻了

價格斷崖式下跌!商家瘋狂拋售!深圳網友:等等黨贏麻了

南方都市報
2026-04-01 15:16:38
美國,被伊朗拉下了神壇

美國,被伊朗拉下了神壇

清沐執筆
2026-04-03 16:54:47
張雪機車剛奪冠就遭商標搶注!無錫公司玩陰的,結局大快人心

張雪機車剛奪冠就遭商標搶注!無錫公司玩陰的,結局大快人心

商悟社
2026-04-03 08:28:14
一覺醒來伊朗最大橋梁被炸!特朗普再發通牒,伊朗:打到美以投降

一覺醒來伊朗最大橋梁被炸!特朗普再發通牒,伊朗:打到美以投降

近史博覽
2026-04-03 13:53:14
伊朗議長發文嘲諷美國戰機被擊落

伊朗議長發文嘲諷美國戰機被擊落

財聯社
2026-04-04 01:28:19
美眾議員:如果美國民眾了解到情報機構有關外星生命報告,他們將“夜不能寐”

美眾議員:如果美國民眾了解到情報機構有關外星生命報告,他們將“夜不能寐”

環球網資訊
2026-04-03 16:27:08
鄭麗文將訪問大陸,朱立倫終于表態,馬英九卻不吭一聲,不簡單

鄭麗文將訪問大陸,朱立倫終于表態,馬英九卻不吭一聲,不簡單

DS北風
2026-04-03 15:46:14
再見瓜迪奧拉!正式退休!不再指教任何俱樂部,巴薩計劃失敗

再見瓜迪奧拉!正式退休!不再指教任何俱樂部,巴薩計劃失敗

阿泰希特
2026-04-03 13:53:01
伊朗:擊落美軍先進戰機,飛行員在伊境內跳傘被懸賞,或已被俘!美方曾出動“黑鷹”等試圖營救但失敗,被迫逃離現場

伊朗:擊落美軍先進戰機,飛行員在伊境內跳傘被懸賞,或已被俘!美方曾出動“黑鷹”等試圖營救但失敗,被迫逃離現場

每日經濟新聞
2026-04-03 20:48:04
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領航家
2026-04-02 21:00:03
為營救2名F-15飛行員,美軍特種兵冒死突入伊朗,地面戰激烈交火

為營救2名F-15飛行員,美軍特種兵冒死突入伊朗,地面戰激烈交火

共工之錨
2026-04-04 00:05:37
重重封鎖之下,中國三艘船只過航霍爾木茲海峽,中方當眾表示感謝

重重封鎖之下,中國三艘船只過航霍爾木茲海峽,中方當眾表示感謝

浪子阿邴聊體育
2026-04-01 21:18:34
廣東女車主眼睜睜看著搖中的“3333”號牌逾期作廢 原因是買的吉利星愿公告過期無法上牌

廣東女車主眼睜睜看著搖中的“3333”號牌逾期作廢 原因是買的吉利星愿公告過期無法上牌

信網
2026-04-03 14:01:04
伊朗確認:雷扎伊身亡

伊朗確認:雷扎伊身亡

第一財經資訊
2026-04-03 19:42:25
中央批準:林濤任福建省委常委和廈門市委書記

中央批準:林濤任福建省委常委和廈門市委書記

新浪財經
2026-04-03 17:54:42
研究首次繪制出完整的陰蒂神經網絡

研究首次繪制出完整的陰蒂神經網絡

生物學霸
2026-04-03 17:24:20
2026-04-04 01:55:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
131786文章數 862052關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

特朗普非常生氣要大清洗 陸軍部長、FBI局長等或被調整

頭條要聞

特朗普非常生氣要大清洗 陸軍部長、FBI局長等或被調整

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

藝術
手機
本地
公開課
軍事航空

藝術要聞

她的作品藏著絕世美女,看看你能認出幾個!

手機要聞

OPPO Find X9 Ultra:真機偷跑!Find X9s Pro:要做小屏影像機皇

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄國防部:一架蘇-30戰機在克里米亞墜毀

無障礙瀏覽 進入關懷版