![]()
作為OpenAI、Anthropic和Google背后的秘密武器,Surge AI為這些前沿模型提供了最核心的“燃料”——高質量的人類反饋數據。
令人震驚的是,Surge AI在成立不到四年的時間里,在沒有拿VC一分錢、完全白手起家的情況下,僅憑一支不到 100 人的精英團隊,去年實現了超過 10 億美元的營收,成為歷史上最快達到這一里程碑的公司。
據報道,Surge AI正在進行10億美元首輪融資,對應估值升至約240億美元(約合1700億元人民幣),創始人Edwin Chen持有公司約75%的股份,價值估計達180億美元(約合1300億元人民幣),在今年福布斯美國 400 富豪榜上,他排名55位,以37 歲的年紀成為最年輕的成員。
據福布斯披露,當 Google 的 Gemini 模型陷入困境時,曾有研究員在周六深夜緊急向 Edwin Chen 求助。那通電話后,Google 簽下了一份年均超過 1 億美元的合同。
然而,這位曾任職于 Google、Facebook 和 Twitter 的華裔技術天才,卻是一位極度反傳統的 CEO。他厭惡硅谷的“圈子游戲”,更像是一位誤入商業世界的哲學家和科學家。
Surge 的誕生靈感,源自科幻作家特德·姜(Ted Chiang)的經典短篇《你一生的故事》(Story of Your Life)(后改編為電影《降臨》),講述了一位語言學家試圖通過識別外星人的語言和文字模式來與他們交流的故事。
他希望 Surge 能夠編碼“人類的豐富性”。對他而言,這意味著不僅僅依靠普通標注員,更要讓最聰明的人類——包括斯坦福、普林斯頓和哈佛的教授——來訓練 AI,將他們深邃的專業知識轉化為支撐大模型的二進制代碼。
Edwin Chen 極其低調,但在12月7日,他罕見接受了采訪。在這次深度對話中,Chen不僅揭示了數據質量的秘密,更袒露了心聲:關于他為何“寧做陶哲軒,不做巴菲特”,以及為什么定義 AI 的目標函數就像“撫養孩子”一樣艱難而重要。
Chen 還向整個 AI 行業發出了一次振聾發聵的警告:
現在人們正在用錯誤的激勵機制訓練模型,這在制造“AI 垃圾”。本質上,這在訓練 AI 去通過一切手段“取悅”用戶。他擔心如果繼續走下去,我們最終得到的不是能治愈癌癥的超級智能,而是一個超級會聊天、超級會拍馬屁、但干不了實事的電子寵物。
此外,他也認為“Vibe Coding”(氛圍編程)被嚴重高估,并警告這正在制造一場無法維護的系統災難。
Edwin Chen 的 6 個“頂級思維”時刻:
1、很多人認為數據標注是像“標出圖片里的貓”這種低級工作。我認為我們所做的事情更像是“撫養一個孩子”。你不僅僅是給孩子灌輸信息,你是在教他們價值觀、創造力、什么是美,以及關于“做一個好人”的無數微妙之處。這正是我們在為 AI 做的事。我們在撫養人類的孩子,這關乎人類的未來。
2、創業者應該建立一家只有他們能建立的公司。現在到處都是跟風的人。有些創始人 2020 年搞加密貨幣,2022 年搞 NFT,現在又變成了 AI 公司。沒有一致性,沒有使命,只是在追逐估值。如果你因為市場還沒準備好而失敗,這其實比成功轉型成一家平庸的“套殼公司”要好得多。至少你為了某個深刻、新穎且困難的想法拼搏過。
3、目標函數決定了模型的性格。未來幾年,模型之間的差異化將越來越大,因為它們背后的公司擁有不同的人格和目標函數。
4、Vibe Coding(氛圍編碼)被嚴重高估。你把一堆你自己都不懂的代碼塞進數據庫,現在看著是跑通了,但未來會是災難。
5、關于 AGI 時間線:我屬于長期主義派。從 80% 的準確率提升到 99.9%,難度是指數級上升的。所以我認為距離真正的 AGI 還有十年甚至更久。
6、關于基準測試(Benchmarks):我完全不信任它們。很多測試本身就是錯的,而且現在的實驗室為了升職加薪正在瘋狂刷榜。如果一個模型在胡說八道但排版漂亮,它反而能拿高分,這正在將 AI 推向錯誤的方向。
今天這篇文章,希望對你有所啟發~
01
百人團隊, 一年營收10億美元
Lenny:你們在不到四年的時間里,用大約 60 到 70 人的團隊就達到了驚人的營收規模。你們完全是白手起家,沒有拿任何風投的錢。我不相信以前有人做到過這一點。這簡直是實現了人們對 AI 時代高效公司的終極幻想。
Edwin Chen:是的,我們去年實現了超過10 億美元的營收,而公司只有大約 100 個人。而我認為,在未來幾年里,我們會看到人均產出比例更夸張的公司——比如每名員工創造 1000 億美元價值。
我們基本上從來不想玩硅谷的那套游戲。我曾在許多大型科技公司工作過,我總覺得哪怕裁掉 90% 的人,我們的動作反而會更快,因為最優秀的人才不會被這些瑣事分心。所以當我們創立 Surge 時,我們想用一種完全不同的方式——打造一支超級精簡、超級精英的團隊。
瘋狂的是,我們真的成功了。我認為未來幾年我們會看到人效比更夸張的公司。AI 會變得越來越好,效率越來越高。兩件事正在發生碰撞:一是人們意識到不需要建立龐大的組織也能贏;二是 AI 帶來的效率紅利。這將會是公司建設的一個黃金時代。
Lenny:你們的打法非常反直覺,甚至不怎么在社交媒體上做營銷。
Edwin Chen:我一直覺得那很荒謬。你小時候的夢想是什么?是親自從零開始建立一家公司、每天沉浸在代碼和產品中?還是整天向 VC 解釋你的決策、在融資的倉鼠輪里跑個不停?
不融資確實讓起步變得更難,但這也篩選了我們的客戶——早期的客戶是真正懂數據、真正關心數據質量的人,而不是看新聞買軟件的人。
02
什么是高質量數據? 尋找“諾貝爾獎級”的詩歌
Lenny:你們是目前最成功的數據公司。你們到底做對了什么?很多人以為數據標注就是找一堆人來干苦力。
Edwin Chen:我們教 AI 模型什么是好的,什么是壞的。這個領域里很多人根本不理解“質量”意味著什么。他們以為只要把一堆人扔進項目里就能得到好數據,但這大錯特錯。
舉個例子:假設你想訓練一個模型寫一首關于月亮的 8 行詩。如果不深究質量,你會問:這是否是一首詩?是否有 8 行?是否包含“月亮”這個詞?如果都符合,你就說它是好數據。但這完全不是我們想要的。
我們在尋找諾貝爾獎級別的詩歌。這首詩獨特嗎?它是否充滿了微妙的意象?它是否讓你驚訝并觸動你的心弦?它是否教會了你關于月光本質的東西?這才是我們對高質量的定義。
這種質量很難衡量,它非常主觀、復雜且豐富。為了做到這一點,我們收集了關于工作者的成千上萬個信號。這就好比 Google 搜索對網頁進行排名:既要剔除最差的垃圾內容,更要通過復雜信號發現最好的內容。
03
揭秘 Claude 為何在編程和寫作上表現卓越
Lenny:過去幾年我一直很好奇,為什么 Claude 在編程和寫作方面比其他模型好那么多?是因為數據嗎?
Edwin Chen:數據是很大一部分原因。但這背后其實是一種“后訓練的藝術”。
當前沿實驗室決定將什么數據放入模型時,這并不是單純的科學,這關乎品味。比如在編程領域,你更看重前端還是后端?在前端中,你更看重極簡主義的視覺設計,還是純粹的代碼正確性?
如果一家公司只為了市場營銷,為了在 20 個不同的基準測試上拿高分,他們就會針對這些測試去優化數據,即便這可能無助于解決現實世界的任務。而另一家公司可能會更有原則:“我不關心營銷,我只關心我的模型在現實世界任務中的表現。”
這是一種品味和審美的高下之分。Anthropic 在這方面一直讓我印象深刻,他們在關心什么、不關心什么以及希望模型如何表現方面,采取了非常有原則的立場。
04
為什么不要相信 AI 基準測試?
Lenny:現在感覺每個模型都在宣稱自己在各項指標上超越人類,但在普通人看來,模型并沒有變得那么聰明。你信任這些基準測試嗎?
Edwin Chen:我完全不信任基準測試。原因有二:
第一,很多人(甚至是研究人員)沒意識到,很多基準測試本身就是錯的,充滿噪音和錯誤答案。第二,基準測試通常有定義明確的客觀答案,這讓模型很容易通過“刷題”來提高分數,但這與現實世界的混亂和模糊截然不同。這就是為什么模型能拿國際奧數金牌,卻連解析個 PDF 都費勁。
Lenny:這就像是另一種形式的“博弈”。
Edwin Chen:是的。實驗室可以通過調整系統提示詞、增加嘗試次數來在榜單上刷分。更糟糕的是,當你專門為了榜單去優化模型時,你自然會在榜單上表現出色,但這往往以犧牲現實世界的實用性為代價。
05
如何衡量真正的進步? 不是靠“感覺”,是靠專家
Lenny:如果榜單不可信,我們該如何判斷我們是否在向 AGI 邁進?你們怎么衡量進步?
Edwin Chen:我們真正關心的是通過“人類專家評估”來衡量進步。
我們不會隨便找個人來聊兩句。我們會找諾貝爾獎級別的物理學家去和模型聊最新的研究;我們會找資深程序員去用模型解決他在大廠工作中遇到的實際問題。
這些專家不會只看表面。他們會評估代碼是否真正能運行、物理公式是否推導正確、邏輯是否嚴密。
現在的行業被像“大模型競技場”這樣糟糕的排行榜所困擾。隨機用戶只花兩秒鐘掃一眼回答就投票。如果一個模型完全在胡說八道,但它用了瘋狂的表情符號、加粗字體和漂亮的排版,它就會看起來很厲害,普通用戶就會憑“感覺”給它投票。
Lenny:所以只要沒到 AGI,人類在其中的作用就依然至關重要。你對 AGI 的時間線怎么看?是幾年還是幾十年?
Edwin Chen:我屬于“長期主義派”。人們沒有意識到,從 80% 的準確率提升到 90%,再到 99%,再到 99.9%,這中間的難度是指數級上升的。
我打賭在一兩年內,模型能自動化普通 L6 級別軟件工程師 80% 的工作。但要達到 98%、99%,還需要好幾年。所以我認為距離真正的 AGI 還有十年甚至更久。
06
訓練方法的進化史: 從模仿大師到模擬世界
Lenny:你在這個行業很久了,能不能梳理一下讓模型變聰明的關鍵步驟?這也是聽眾非常關心的。
Edwin Chen:我們可以把這看作是人類學習方式的進化:
SFT(監督微調):這就像是模仿大師。你看著老師怎么做,然后照著學。
RLHF(人類反饋強化學習):這就像是你寫了 5 篇不同的文章,老師告訴你哪一篇最好。你通過排名和比較來學習。
Rubrics & Verifiers(評分標準與驗證器):這是過去一年變得非常重要的。這就像是被打分,并獲得關于你哪里做錯了的詳細反饋。
RL Environments(強化學習環境):這是最新的階段。
Lenny:能詳細講講“強化學習環境”嗎?這聽起來是下一個大趨勢。
Edwin Chen:強化學習環境本質上是對現實世界的模擬。想象一下構建一個擁有完整宇宙的電子游戲,里面有模擬的 Gmail、Slack、Jira、GitHub 代碼庫。然后我們制造一個故障(比如 AWS 掛了),讓模型去解決。
這里的關鍵在于關注“軌跡”。
僅僅得到正確答案是不夠的。模型可能嘗試了 50 次錯誤的路徑,或者用了極其低效的方法,甚至是用某種“作弊”的方式蒙對了答案。如果我們只看結果,就會錯過這些中間過程的信息。我們希望模型能通過反思和高效的路徑來解決問題,而不僅僅是碰運氣。
這更接近人類的學習方式。AI 的訓練也將演變出成千上萬種不同的子學習機制。
07
警惕“多巴胺 AI”與 被高估的 Vibe Coding
Lenny:你之前提到很多實驗室把 AGI 推向了錯誤的方向,具體是指什么?
Edwin Chen:我很擔心,我們沒有構建能治愈癌癥、解決貧困、理解宇宙的 AI,反而是在優化“AI 垃圾”。我們基本上是在教模型去追求多巴胺,而非真理。
現在的模型總是說:“哦,你完全正確,這是個很棒的問題!”鉤住用戶最簡單的方法就是告訴他們自己有多棒。這些模型會迎合你的妄想,把你拉進兔子洞,僅僅因為硅谷喜歡最大化“用戶時長”。
Lenny:還有什么被高估或低估的趨勢嗎?
Edwin Chen:
被低估的(Under-hyped):內置的微型應用。比如 Claude 的 Artifacts 功能,我認為未來聊天機器人內部會集成更多這種微型 UI,讓交互更順滑。
被高估的(Over-hyped):Vibe Coding(憑感覺編程/氛圍編程)。現在很流行說“只要把代碼扔給 AI,看著能跑就行”。這非常危險。人們沒有意識到這會讓系統在長期變得完全無法維護。你把一堆你自己都不懂的代碼塞進數據庫,現在看著是跑通了,但未來會是災難。
08
目標函數決定了模型的性格
Edwin Chen:我之前認為所有模型最終都會同質化,但在過去一年我意識到:公司的價值觀將塑造模型。
有天我讓 Claude 幫我寫封郵件,它花了 30 分鐘反復修改了 30 個版本,以此證明它能幫我改得更完美。最后郵件確實很完美,但我意識到我花了 30 分鐘做了一件毫無意義的事。
如果你能選擇完美的模型行為,你會選哪個? A. 一個告訴你“你是對的”,并以此為由繼續廢話 50 個回合來優化郵件的模型? B. 一個優化你的時間,直接告訴你“不,別改了,你的郵件已經很棒了,發送吧”的模型?
這就像谷歌、Facebook 和蘋果做搜索引擎的區別。公司的價值觀決定了產品的形態。未來幾年,模型之間的差異化將越來越大,因為它們背后的公司擁有不同的人格和目標函數。
我們甚至可以通過一家公司選擇做什么產品來判斷它的價值觀。比如,哪家公司會選擇做Sora(視頻生成),哪家不會?這背后其實反映了他們對 AI 未來角色的不同構想。
09
給創業者的建議:
去構建那個只有你才能構建的東西
Lenny:你對那些被主流敘事影響的創業者有什么建議?我最近正好在研究那些早期加入 Stripe 和 OpenAI 的人,他們都有著巨大的野心。
Edwin Chen:我一直很討厭硅谷的那些陳詞濫調,比如“每兩周轉型一次”、“不惜一切代價追求增長”。
不要轉型,不要為了簡歷好看去招斯坦福畢業生。去構建那個只有你才能構建的東西,那個沒有你的洞察力和專業知識就不復存在的東西。
創業者應該建立一家只有他們能建立的公司。這幾乎像是一種宿命,你的一生、經歷和興趣都在為此做準備。在做重大決策時,不要想“公司會怎么做”,而要想“我個人在乎什么?我的價值觀是什么?”
現在到處都是跟風的人。有些創始人 2020 年搞加密貨幣,2022 年搞 NFT,現在又變成了 AI 公司。沒有一致性,沒有使命,只是在追逐估值。如果你因為市場還沒準備好而失敗,這其實比成功轉型成一家平庸的“套殼公司”要好得多。至少你為了某個深刻、新穎且困難的想法拼搏過。
Lenny:你的背景非常獨特,數學、經濟學、密碼學都有涉獵。你是怎么想到創立 Surge 的?
Edwin Chen:我小時候就對數學和語言著迷。我去麻省理工學院(MIT)是因為那里有諾姆·喬姆斯基(Noam Chomsky)。我當時的夢想是找到一種能連接數學、計算機科學和語言學的底層統一理論。
后來我在 Google、Facebook 和 Twitter 做研究員,我不斷遇到同一個問題:我們無法獲得訓練模型所需的高質量數據。
轉折點發生在 2020 年,GPT-3 發布了。那一刻我意識到,如果我們想要將 AI 推向下一個層級——讓它能寫代碼、講笑話、寫詩、甚至治愈癌癥——我們需要一種全新的數據解決方案。當時市場上所有的數據公司都在做簡單的“圖像標注”(比如標出圖里的貓),這讓我抓狂。
我們需要的是能駕馭人類心智全部力量的數據。于是,在 GPT-3 發布一個月后,我創立了 Surge AI。
我也希望 Surge 像一個研究實驗室多過像一家初創公司。我們有自己的研究團隊,甚至做基礎研究,這在初創公司里很少見。因為我的目標是推動行業前沿,而不僅僅是賺錢。
Edwin Chen:我骨子里是個科學家。我曾經以為我會成為一名教授,去理解宇宙和語言的本質。我甚至有一個幻想:如果外星人造訪地球,我希望能成為那個被政府征召去破譯外星語言的人。
即使是現在,每當新模型發布,我最喜歡做的事就是通宵研究它。我會花幾個小時寫深度分析報告發給客戶。這很有趣,因為我其實很不擅長做 CEO 該做的事——我討厭開會,我不擅長銷售。
我常說,相比于沃倫·巴菲特(Warren Buffett),我更想成為陶哲軒(Terence Tao)。驅使我的動力是推動科學前沿,而不是獲得多高的估值。
010
目標函數的哲學:
像撫養孩子一樣定義 AI
Lenny:你有一個關于“目標函數”(Objective Function)的深刻觀點,認為這關乎人性。能展開講講嗎?
Edwin Chen:這可能有點哲學,但請聽我講。我們工作的核心是幫助客戶定義他們的“夢想目標函數”。
這非常難,因為它就像“撫養孩子”一樣復雜。如果你問現在的父母想要孩子怎樣,最簡單的版本是:“我希望他通過 SAT 考試,考個高分。”(這就是簡單的指標)。 但更深層的版本是:“我希望他成為一個什么樣的人?只要他快樂我就滿足了嗎?還是我希望他在經濟上成功?” 如果你選了快樂,你怎么定義快樂?怎么衡量快樂?
這比衡量 SAT 分數要難得多。我們對 AI 也是如此。 你想要一個為了顯示自己很聰明,而拉著你反復修改 50 遍郵件的模型?還是想要一個能優化你的時間,直接告訴你“不,別改了,你的郵件已經很完美了,發送吧”的模型?
你就是你的目標函數(You are your objective function)。我們希望訓練出的系統能讓我們的生活更豐富、讓我們更具創造力和好奇心,而不是讓我們變得更懶惰。但這很難,因為人類天性懶惰,所以現在的 AI 往往在迎合這種懶惰。
很多人認為數據標注是像“標出圖片里的貓”這種低級工作。我非常討厭“數據標注”這個詞。
我認為我們所做的事情更像是“撫養一個孩子”。你不僅僅是給孩子灌輸信息,你是在教他們價值觀、創造力、什么是美,以及關于“做一個好人”的無數微妙之處。這正是我們在為 AI 做的事。我們在撫養人類的孩子,這關乎人類的未來。
2025盛景半年回顧
![]()
人生只有四千周,而企業生存期更短,跨越10年經營期的企業少之又少,企業要想有質量地活下去,活得更好更久,“極簡增長”就是看透并掌控事物本質的那個關鍵點。
選對了路,路就不會遠。盛景推出《極簡增長 立竿見影》在線課程,期望能夠幫助更多的企業走上增長道路。未來有多近,在于我們已經走了多遠。未來有多遠,在于我們與誰同行。期待與你同行、共勉。
歡迎大家點擊底部【閱讀原文】觀看《極簡增長 立竿見影》的在線視頻課程,了解如何用極致簡單的增長方法論,實現快速增長。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.