網易首頁 > 網易號 > 正文申請入駐

AI招聘平臺Mercor創始人最新訪談：招聘中AI如何評估人

2025-06-05 18:13:40　來源: 明亮Company

上海舉報

分享至

作者：MD

出品：明亮公司

近日，美國紅點創投兩位合伙人Jacob Effron（中）、Patrick Achase（左）在播客“非監督學習“中與AI招聘平臺Mercor的創始人、CEO Brendan Foody（右）展開了一場對談。除了Mercor的核心業務AI招聘的變化之外，三人也一同探討了未來AI與人類未來在工作領域的關系。

Mercor由Brendan Foody在內的三位21歲的Thiel Fellows在2023年創立。今年2月，公司宣布完成1億美元B輪融資，估值20億美元。該輪融資由Felicis領投，Benchmark、General Catalyst和DST Global等投資機構跟投。Mercor通過AI技術自動化簡歷篩選、候選人匹配、AI面試和薪酬管理，旨在提升招聘效率并減少人為偏見。

在訪談中，Brendan Foody提到，目前Mercor實際上已經進入AI模型的評估和數據標注領域。隨著AI模型能力的提升，大量復雜的問題已經無法通過模型本身或普通常識來得到驗證，因此模型的開發者需要借助專業領域的高知人才，但往往這類工作并非長期職位，與“專家網絡”蕾絲，因此通過其平臺為大量AI實驗室找到該領域的人才也就“順理成章”，Foody指出，“數據標注市場正從大規模、低門檻的眾包轉向高質量、專家型標注”。

而在其核心業務“AI招聘領域”， Brendan Foody認為，AI在通過文本進行人才評估方面已接近甚至超越人類，尤其是在簡歷篩選、面試文字分析等場景，但在多模態任務（如情感和氛圍判斷）方面，AI尚有不足。

其中，Brendan Foody還提到了一個觀點：隨著未來招聘和人才評估將越來越依賴豐富的上下文數據，反饋機制和數據輸入的完整性將直接影響模型（評估）效果。比如，如果雇傭一個投資人，將其在播客中的觀點、平日會議記錄等數據輸入模型形成上下文，將無疑更有利于模型判斷這一候選人的認知、能力和求職偏好。而在傳統的招聘中，這類數據的評估要么被完全忽視，要么需要耗費大量的精力，而AI實現的成本更低、效率更高。

因此，AI和人類的分工可能會變為，AI將很快主導人才評估環節，提高效率和準確率——人類則更多參與到“推銷”環節，如溝通崗位氛圍、激勵等，提升候選人體驗。

“我看到的趨勢是，未來人類會專注于創造評測，讓模型能學會還不會做的事，而不是反復做同一個任務” Brendan Foody說。

以下為「明亮公司」編譯的訪談正文（有刪節）：

Jacob：Brendan Foody是Mercor的聯合創始人兼CEO，這是一家為AI-Native勞動力市場搭建基礎設施的公司。Mercor平臺已經被用于數據標注、人才篩選、績效預測，以及評估人類和AI候選人。這是一家非常有趣的公司，處于招聘評估和改進基礎模型的交叉點。

Brandon的團隊最近融資一億美元，他們正在與一些最先進的AI公司合作。我們今天的對話涉及很多有意思的話題，包括未來人類在勞動力中的角色。我們討論了哪些類型的數據標注對模型改進最重要，Brandon回顧了Mercor的快速崛起及他做出的一些關鍵決策，我們還談到了AI在招聘流程中哪些地方有效、哪些地方無效。總之，這是一次非常有趣的對話，我相信你們會喜歡。Brendan Foody，感謝你參加我們的播客。

Brendan：非常感謝邀請。我是你的忠實粉絲，非常興奮。

Jacob：很高興你能來。我想我們可以自上而下開始，對于我們的聽眾來說，我希望你能為大家梳理一下現在我們處在什么階段？AI評估人才的現狀如何？哪些有效，哪些無效？現在的進展如何？

Brendan：我對它的表現感到驚訝。我認為，只要是人類能夠通過文本評估的內容，模型幾乎都已經接近超越人類了，無論是面試的文字記錄、書面評估，還是簡歷上的信號。這其實是一個很有趣的二元對立，因為這些技術實際上在經濟中分布得很少。所以這里有很大的空白地帶，這也是我們非常興奮想要去開發和建設的事情之一。

Jacob：有沒有哪些事情在推理模型出現之前是行不通的？比如說過去六個月，這些模型變得更好了，有哪些終于開始奏效了？

Brendan：是的，我記得在GPT-4發布時，我們構建了第一個AI面試官的原型，結果什么都不行。模型每兩三個問題就會出現幻覺等各種問題。這一路走來，真的是順風順水。我認為推理模型的出現顯然讓模型在知識方面提升很大，尤其是在處理大量上下文、判斷重點、關注焦點等方面變得更強大。

不過，模型在多模態任務上仍然沒那么強，因為過去實驗室對此關注不多，而且用強化學習做這類事更難，但我們對這方面的進展也很期待。

Jacob：你最期待模型什么時候能實現哪些里程碑功能？

Brendan：有一些事情，比如人類擅長做的事情，比如判斷“氛圍”（Vibe）——我是否愿意和這個人共事，這個人是否有激情、是否真誠，這些模型很難做到。即使對最優秀的人類來說也很難，更別說模型了。所以我很期待這方面的突破，也在為此開發評估工具。但每當我閱讀模型的推理鏈，試圖解讀我們評測的內容時，我總覺得模型比我們團隊里負責創建評測的研究員要理性得多。

所以模型進步真的非常快，大家都能看到它們在代碼領域的表現，但我們其實還只是剛剛起步，很多其他領域也在以驚人的速度起飛。

Jacob：你們做的很大一部分其實就是為人類設計評估，看他們能否勝任工作。現在很多人在做AI員工，比如說讓AI代理完成員工的任務，你們在這方面有參與嗎？

Brendan：當然，我們在這方面做了很多。簡單介紹一下公司的背景，我們創辦公司的原因是覺得全世界有很多有才華的人沒有獲得機會，主要原因是勞動力市場高度分散。比如遠程工作的候選人只申請了很少的職位，而舊金山的公司只考慮極少數人選，因為他們要手動解決匹配問題。通過應用大模型，我們可以解決這個匹配問題，建立一個全球統一的勞動力市場，每個候選人都可以申請，每家公司都可以雇傭。但后來我們發現，隨著新型知識工作崗位的出現，對人力的需求激增，尤其是評估大模型的人才需求。所以現在我們為頂級AI實驗室招聘各種專家。這些實驗室使用我們的技術來輔助，不僅是為評估專家創建評測，也為模型和你提到的那些AI代理創建評測。

Patrick：對我們的聽眾來說，Mercor也有很多AI用于篩選候選人、處理簡歷等場景。你能介紹一下你們有哪些AI用例嗎？你們現在用的技術棧是什么樣的？

Brendan：一個很好的方法就是把人類手動做的所有事情都創建評測，然后看我們能否自動化。比如人如何評閱簡歷、面試、排序和決定錄用誰。我們把所有流程自動化，比如評測我們解析簡歷的準確性、評分簡歷各部分的準確性、面試提問的準確性、面試評估的準確性，然后把這些全部輸入模型上下文，再結合推薦信等其他數據，最終做出錄用預測。

Patrick：主要是用現成的模型，你們負責評測和上下文設計嗎？

Brendan：是的，基礎任務用很多現成模型，但在最難的候選人最終評估環節，我們會做后訓練。我們會從客戶的數據中學習，比如哪些人表現好，原因是什么，從這些信號中學習，做出更好的未來招聘預測。

Patrick：你們學到過哪些讓人意外的信號？比如AI發現了什么是你們人類沒想到的？

Brendan：有很多這樣的例子。我認為AI的一個關鍵優勢是能更深入地分析候選人的所有細節，發現人類有時會忽略的小信號，而人類因為“氛圍判斷”可能早就決定了。比如簡歷里如果有人表現出對某個領域極大的興趣，純粹是出于興趣而不是工作需要，這會成為一個信號。或者有人曾在目標國家留學，可能溝通更順暢，更適合團隊環境。這些小細節因項目和客戶而異。

Patrick：你覺得有哪些事情是一定需要人做的？你剛才提到多模態任務，但你怎么看AI和人類面試官的協作？未來會不會全是AI評估？

Brendan：簡單來說，招聘過程分為評估和推銷。評估環節很快就會變得非常強大，大家會發現AI的推薦明顯更準，大家會更愿意相信AI的結果。人類則會繼續在推銷環節發揮很大作用，比如讓候選人了解團隊、崗位、氛圍等。AI讓招聘經理和HR只需專注于真正想要的人選，而不用浪費時間面試不合適的人選。這樣能讓他們更好地幫助候選人了解崗位、團隊和激勵點。

Patrick：你覺得大家會不會開始“刷分”——有意迎合評測信號？你們遇到過嗎？比如大家都說自己去目標國家留學過。

Jacob：大家都說自己去目標國家留學過。

Patrick：對，比如都說自己在招聘地留學過。

Brendan：是的，所以有時候我們要對信號保密。我們和所有大型招聘流程一樣，經常遇到這種情況。關鍵是確保評測足夠動態，比如經常更換問題，或者針對候選人背景問很深入的問題。因為模型能為面試做大量準備，人才評估的深度和廣度前所未有。

比如我第一次面試高管候選人，可能只看幾分鐘LinkedIn和一些筆記，但如果我能聽他們上過的播客，讀他們寫的博客或論文，再針對這些提問，深度和細節就完全不同。

Jacob：你們的模型很擅長預測候選人表現，這個過程需要可解釋性嗎？還是說模型黑箱給出結論就可以？

Brendan：我認為可解釋性很重要，有兩個原因。第一是讓客戶理解和信任模型的結論，建立信任和推理鏈。第二是確保模型選人是基于正確的理由。所以可解釋性很有價值。

但我認為最終的經濟形態可能就是API式的，人們需要完成工作，或者需要一定的人類參與，然后只要一個置信區間預測這個人能否勝任，整個流程里人類的中介作用會大大減少。

Jacob：這算是通往那個目標的信任里程碑，很有道理。目前數據標注環節有明確的反饋回路，比如多個人標注同一份數據。你怎么看把這種方法應用到更模糊的人類工作領域的挑戰？也許你得等15年才能獲得反饋。

Patrick：比如VC（笑）。

Brendan：我的一個看法是，如果有100個人做同樣的工作，很容易給他們排名。但如果100個人做的工作都不一樣，比如創始人，每個人的工作都很有差異，就很難找到共性，難以判斷哪些行為或信息和結果有關。因為變量太多了。所以對于大規模同質崗位，比如招20個客戶經理，模型可以從中學習信號并優化。但對于復雜崗位，比如我們在評估一批Thiel Fellows（蒂爾獎學金項目），這種情況就更具挑戰性，更依賴模型的推理能力。

Jacob：有哪些具體挑戰？

Brendan：主要挑戰是很多信息沒進到模型上下文里，模型無法學習，人們也經常忘記補充信息。比如我聽朋友說某公司產品很好，這種信息沒被輸入模型。確保所有推薦信、人與人之間的細節都被輸入，是主要難題。我們發現，其實只要把必要數據輸入模型上下文，就解決了大部分問題。

Jacob：也許未來我們每個人的智能眼鏡都在錄音，隨時把信息輸入模型。

Brendan：對。

Jacob：會不會變成橋水基金那樣的程度？

Brendan：也許是。但很多公司會排斥這種做法，出于法律和合規原因也不愿意。但我認為會有更好的流程，讓模型能更好地獲取上下文。比如AI做離職面談，采訪經理和團隊成員，了解更多細節。人們腦子里有很多細節信息，我們只需要把這些信息輸入模型，就能做出超越人類的預測。

Patrick：現在越來越多創始人和各種人都會帶AI參加會議，所以很多會議和交流都會被錄音，供AI學習。非常有趣。

Jacob：我們可以把自己的會議轉錄拿來給AI給我們打分排名。

Patrick：哈哈！

Jacob：前提是我能排在前面。

Patrick：你怎么看現在的數據標注市場？不同玩家如何區分？Scale AI似乎遙遙領先，但現在又有很多新玩家，你怎么看這個格局？

Brendan：我認為大多數人不了解數據標注和評估市場的關鍵變化。市場和兩年前完全不同。以前模型不夠好，很容易被難倒，經常出錯。高中生或大學生就能做很多標注或評測，通過眾包方式做大規模數據收集，比如SFT（監督微調）、RHF（人類反饋強化學習），選擇不同的偏好選項。

但隨著模型變得很強，眾包模式失效了，因為你需要高質量人才直接和研究員配合，幫助他們理解模型表現好或不好的原因，設計復雜數據來難倒模型，反映現實世界要自動化的難題。我們的平臺正好能快速招到這些高質量人才。

這讓我們迅速發展，與大實驗室合作。我認為這個趨勢會繼續。那些還停留在大規模眾包的公司會遇到很多麻煩，新的玩家會聚焦高質量人才，繼續搶占市場份額。

Patrick：你覺得數據標注流程里對人類的需求會一直存在嗎？模型越來越強，甚至能訓練小模型，你怎么看未來的演變？

Brendan：我的看法是，只要經濟中還有人類能做、模型還不會做的事情，我們就需要創造或模擬環境讓模型去學習。所以有些領域會很快被攻克，比如數學或代碼，數據量小且易驗證，模型很快能解決。但有些領域很開放，比如評估好創始人，或者很多知識型工作，本質上是開放性難題，難以驗證什么是好，需要把人類的理解輸入模型。這就是為什么我預計人類數據（注：human data，通常指直接從人類或關于人類收集的數據）和評估市場會有數量級增長。

Jacob：如果我理解沒錯，你們最初的“套利點”和公司靈感就是全球各地有優秀的程序員，但他們無法獲得某些工作的機會，這對編程數據來說非常重要。你們顯然已經擴展到其他領域，比如編程本身是個完美的強化學習和評估用例，你們在進入這些更模糊的領域、招聘相關人才時，有哪些需要改變或改進的地方？

Brendan：我認為，借鑒人類手動做事的啟發式方法是很好的做法。例如，如果你想自動化顧問的工作，怎么評估顧問？那就給他們案例研究，也許是和他們背景相關的案例。

Jacob：你們團隊的人可能都很擅長評估程序員，但如果要讓醫生加入平臺，你們怎么知道該用什么啟發式來評估醫生？

Brendan：你提到的這個點很有意思，就是當進入超出機器學習團隊能力范圍的領域時，就需要專家。我們需要醫生來幫助我們設計醫生的評估和評測標準，其他領域也一樣。同樣，這也是研究員需要做的事情。比如做看高中物理題還容易判斷哪個答案對，但如果是博士級化學題，研究員沒有相關學歷就很難理解和改進評測。所以這也是你之前問的評估大變化之一——無論是評估人才還是研究員評估模型，都將變成更協作的過程，需要和專家一起合作，幫助模型進步。

Jacob：我聽你說過，這種短期數據標注合同工作其實是你們最初市場的完美切入點，需求巨大，是通往端到端勞動力市場的楔子。你能聊聊公司實現這個愿景的路徑和階段性目標嗎？

Brendan：我寫過一份“秘密大師計劃”有講到這個。我的看法是，市場網絡效應很強，這讓它既有護城河也很難建立。所以現在我們非常專注于抓住巨大的需求，擴大網絡效應，發展市場。

與此同時，我們也看到很多大科技公司客戶需要大量合同工，比如上百個數據科學家、軟件工程師等，雖然這些崗位和人類數據沒直接關系，但本質上需求類似，只是更傳統的市場，以前是和埃森哲、德勤等公司競爭。我們會把這作為第二重點，然后擴展到全職招聘。但其實我們公司早期做的就是幫朋友和自己招合同工，很多后來轉正了。

所以這些業務是連續的，有很多共性。所有公司都想要更多候選人、更快招聘速度、更高的勝任信心。我們只要不斷衡量并提升這些指標，就能服務好公司發展的每個階段。

Jacob：有沒有哪一刻讓你們決定要轉向人類數據領域，覺得機會特別明顯？

Brendan：有，我還在大學時就遇到了。公司背景是我和合伙人14歲時在高中認識，大家18歲一起創業，他們贏了很多比賽，我沒他們厲害，但一直在創業。后來我們開始在印度招聘國際人才，比如和IIT Code Club合作，發現有很多聰明人找不到工作，我們覺得可以雇他們做項目，朋友們也愿意付錢讓我們幫忙招聘。我們就這樣賺取小額服務費，把公司做到一百萬美元營收，扣除工資后還賺了8萬美金。

我很自豪，但父母還是不滿意。直到我們融資了，他們才滿意。回到你的問題，2023年8月，有客戶把我們介紹給x.ai的聯合創始人，那時他們還在特斯拉辦公室。他說Mercor有印度的超級工程師，擅長數學和編程。第二天x.ai的創始人就和我們通話，非常興奮。兩天后我們就進了特斯拉辦公室，見了x.ai幾乎全部創始團隊，除了Elon，就在他們和Elon開會前。我們還在上大學，簡直不可思議。我們都在想，他們為什么這么想要我們的產品？因為市場變化太快，沒人意識到。現在我們做大了，占了關鍵市場份額，才開始公開講這些。但他們那時還沒準備好用人類數據，大概六個月后我們才和前沿實驗室合作，把業務做大。

Jacob：看到了浪潮來襲。

Brendan：是的，我發現很多創始人在找PMF時太過強求，其實應該觀察市場信號，哪里有金礦就去挖。如果最初銷售都很難做成，后面規模化會更難。要找到最痛點、最有錢的客戶，他們愿意為解決問題付出一切，然后全力以赴。

Jacob：你們現在已經超越了編程，比如醫生這個例子讓我想到，其實評估好醫生的標準最終會被模型公司用來訓練模型，判斷醫生的推理過程對不對。你們在和客戶合作時具體做什么？

Brendan：人類現在比AI強的一個關鍵點是能不斷學習和進步。我們會尋找這些代理信號，比如候選人會問正確的問題，思考方式對，背景里有高績效環境的經歷，這些都能幫助他們發現模型的漏洞、提升模型能力。

Jacob：你們現在自己也用自家產品嗎？具體怎么用在招聘上？

Brendan：當然，除了高管崗位，其他崗位我們都用。高管崗位我們也掛了職位，但大多還是我先面試，主要是為了推銷崗位而不是篩選。我們的AI面試非常有效，很多時候是最有預測力的信號。很多人低估了招聘過程中的“氛圍判斷”偏見，人總覺得自己判斷準。

Jacob：招聘其實是最早的“氛圍”行業。

Patrick：VC們肯定沒有這種偏見。

Brendan：所以我們要用業績數據來做決策。比如我們招聘戰略項目負責人，以前是人類做案例分析，現在全部用AI面試，最終轉正率還提高了。AI面試能讓比較更客觀、標準化，不用不同面試官各自為政。

Patrick：評測環節你們是自己找人做，還是用市場上的人？內部做得多嗎？

Brendan：我們會用市場上的人來做自己的評測流程，和客戶流程類似。當然研究員還是要參與，分析模型出錯原因、完善錯誤分類、優化后訓練數據，流程和用人都一樣。

Jacob：你們提到用多模態能力判斷激情等特質，對未來的視頻、音頻等有何考慮？

Brendan：我常想強化學習（RL）在提升視頻理解能力上的作用。RL擅長搜索問題，而視頻信息量巨大，所以模型處理起來困難。我們要思考如何在多模態上下文里找到關鍵信號，比如候選人是否很激動、是否作弊等。我們要創造合適的數據，讓模型關注這些信號，前沿實驗室也在做底層能力提升。

Jacob：就像你說的，短短幾年，標注市場變化巨大。你覺得兩年后會怎樣？這塊業務還會存在嗎？還是只剩下專家？

Brendan：我認為會是很重要的一塊。我們創業的初衷就是聚合勞動力，讓勞動力配置更高效。關鍵在于判斷五年后人類在經濟中的角色。

我看到的趨勢是，未來人類會專注于創造評測，讓模型能學會還不會做的事，而不是反復做同一個任務。所以我高度看好知識型工作向評測轉型，可能形式會更動態，比如和AI面試官對話解決問題。我認為這是經濟的重要組成部分，但大多數人還沒意識到，因為大家把它和SFT、RHF市場混淆了，而這兩類數據的價值正在下降，預算也在減少。

Patrick：你覺得未來哪些技能最值得培養？如果你建議在校生應該學什么，你會怎么說？

Brendan：我一定會建議大家追求快速學習能力，因為變化太快了。很多領域，人們以為模型很久都做不好，結果很快就突破了。要多和AI協作。我們市場上的人常說，他們喜歡能整天和模型打交道，思考模型做不到什么、缺了什么。這些經驗能幫他們在實際工作中判斷哪些環節用AI更高效。所以要盡量多用模型，熟悉它們在本領域的優缺點。這很有幫助，但很難說一定要做軟件工程師還是別的什么。

Jacob：很有意思，未來我們可能都要花大量時間訓練模型。硬技能有對錯，但主觀領域幾乎無限。也許以后我們還能給自己專屬模型打工掙錢。

Brendan：完全同意。我還建議大家關注需求彈性大的領域。比如軟件開發，經濟里有100倍、1000倍的需求，哪怕不是1000倍新Web應用，也有大量功能迭代、排序算法優化等。相比之下，會計師等需求就很固定。所以要盡量去需求會大幅增長、能提升總生產力的領域，這樣更保險。

Patrick：你說得很對。我前幾天和一個創始人聊天，他說，大家都在說軟件工程師會被淘汰，但其實我真的很需要更多的軟件工程師。

Brendan：我也很興奮。如果我們的軟件工程師生產力提高十倍，我們可能會雇更多的軟件工程師。所以需求和價格的關系總是很有意思。

Jacob：你們創業之初，應該也有誘惑去做招聘協作工具或者為中介機構做軟件吧？你們為什么決定做端到端的服務？這個決定是一開始就確定的嗎？

Brendan：一開始我們有很多第一性原理的思考，反而有優勢，因為我們沒見過傳統做法。我們知道朋友們想解決的問題就是想找到靠譜的軟件工程師，所以我們就把所有環節都包辦了。但現在回頭看，我覺得越來越多公司會走向端到端，因為沒必要為一個未來可能消失的崗位開發協作工具，更合理的是把整套流程自動化，讓它能從反饋中學習和優化。

Jacob：確實，尤其你們做的數據勞動力市場，正好適合在AI能力還不成熟時做端到端。如果沒有這個市場，你們可能也會先做協作工具。

Brendan：對，比如全職招聘，客戶肯定希望員工在自己名下。所以我們很幸運，公司的運營模式和市場需求轉變高度契合。

Jacob：一開始你們是幫朋友找合同工，最初你是不是覺得這是個副業，后來才變成主業？什么時候讓你下定決心全職創業？

Brendan：其實我高中就一直創業，公司做得還不錯，所以我本來不想上大學，和父母說了他們也不高興，后來為了安撫他們還是申請了大學，但我一直說自己會退學，他們也不信，覺得既然我答應上學就不會退學。但我每學期都和他們說同樣的話，最后真的退學了，也沒提前打招呼，因為我已經說了兩年了。

Patrick：我早就知道你會退學。

Brendan：對我來說，我很清楚自己想創業，想做有影響力的事情，而不是上那些感覺沒用的課。我其實一直在尋找值得投入的事情。我的合伙人最初也是當副業做，想拿到足夠證據說服父母退學。他們父母的要求是必須融資成功，哪怕公司已經有百萬美金營收和利潤也不行，必須拿到種子輪投資。所以家長才是VC們的“金主”——只有融資成功才算有“可信度”。

Jacob：沒錯，沒有家長就沒有VC。

Brendan：這就是“權威背書”。

Patrick：說到融資，你們之前（注：今年2月）剛完成一億美元的B輪融資，恭喜！這筆錢會怎么用？你們是怎么判斷何時該融資的？

Brendan：其實我們唯一主動去融資的就是種子輪，為了說服父母退學。A輪和B輪都是被投資人“搶投”的。我們的想法是保持稀釋率在5%左右，建立“彈藥庫”，用來投入產品研發，比如推薦激勵、創新的消費級產品，擴大市場供給端，也會投入更多后訓練數據，提升模型表現預測能力。我們ML團隊最大的瓶頸其實就是做更多評測和訓練環境，這也正好和我們的主營業務吻合。

Jacob：你們的客戶群有很多基礎模型公司，你怎么看這個領域的未來？有人說會只剩兩三家巨頭，你覺得最后會有多少玩家？他們會怎么差異化？

Brendan：這是個好問題。我堅信OpenAI現在和未來都會是產品公司，而不是API公司。很多API能力會大宗商品化，關鍵是怎么和客戶場景深度集成，這才是定價權的來源。但市場足夠大，每家都能在細分領域吸收大量價值。哪怕有實驗室專注做對沖基金，也能賺巨額利潤。大家喜歡用經驗主義說這些公司估值虛高，但如果你從“自動化知識型工作”這個第一性原理出發，這些頂級團隊一定能做出偉大的公司。

Jacob：現在模型跨領域泛化很強，所以感覺贏家通吃，還是會有細分領域的佼佼者？你舉的對沖基金例子很有意思，說明應用層還有很多空間。

Brendan：對，聚焦很有價值。我覺得做通用API不是好生意，最終只會剩下一家。更多價值會在應用層，每個垂直領域和客戶場景都需要深度定制。

Jacob：你覺得這些定制模型會需要很多復雜的標注嗎？

Brendan：肯定會。比如每個交易公司都能針對自己獨特的交易分析做評測，判斷哪些結論準確，哪些不準，能否轉化為盈利。如果有一流的后訓練團隊專門優化交易分析，比人類交易員更快，那機會大得驚人。

Jacob：感覺有些交易公司最優策略應該是暫停交易，花九個月專注后訓練模型。

Brendan：我其實很驚訝，很多交易公司在后訓練上的投入比想象中少，可能是地理原因——他們主要在紐約，實驗室和研究員都在舊金山，而且頂級研究員更想做AI，不愿意只為賺錢。但我相信他們會大舉投資，和前沿實驗室形成九位數、十位數的合作，定制自己的應用。

Jacob：你現在在AI領域最大的未知是什么？如果能知道答案，對公司運營會有什么影響？

Brendan：還是你剛才說的，人類五年、十年后會做什么。這是個極難的問題，也是公司使命的一部分。我們有各種直覺，但世界變化太快。很多工作會被自動化，我們需要更好地理解未來人類的新機會和經濟角色，這很重要。

Jacob：你覺得政策層面還有哪些事可以做？其他機構應該扮演什么角色？

Brendan：當然。很多監管者關注的事情其實離老百姓很遠。我覺得未來兩三年大家會真正擔心的是，AI模型在很多工作上比人厲害多了，我們要想辦法讓人類融入經濟，這一定會發生。這不是那種小概率、大影響的風險，是必然趨勢。所以監管者應該更主動地規劃未來，管理公眾預期，告訴大家幾年后世界會變成什么樣。

Jacob：確實，現在連再培訓什么都還說不清。

Brendan：沒錯。但我希望這方面能有更多討論，更多關注下一代工作的形態，也給學生和求職者更多指引。

Jacob：我們喜歡在采訪最后做一輪快問快答，問些寬泛的問題，想聽聽你的簡短看法。你覺得AI領域有什么被高估、又有什么被低估了？

Brendan：好問題。我覺得評測（E-vals）被嚴重低估了。雖然現在已經很火，但我認為還是被低估了很多。

Jacob：人類能力的最后堡壘。

Brendan：我覺得被高估的是SFT、RHF這類傳統數據。有公司在這上面花了幾十億美元，其實根本沒必要，花費應該減少一個數量級，這個趨勢會變。

Patrick：過去一年你在AI領域有什么觀點發生了變化？

Brendan：有意思。我對自動化軟件工程的時間線預期大幅提前了。以前我對研究員說的“AI能寫出比人類更高命中率的PR”的時間表還持懷疑態度，現在我覺得今年晚些時候、明年上半年就會實現，這會非常酷。

Jacob：是啊。其實兩年前，如果說AI能有現在的能力，大家都會覺得要改變世界了，但真的實現后，反而沒那么震撼。你覺得這會不會導致軟件工程就業出現大規模變化，還是只是10%~20%的變化？

Brendan：關鍵還是我們之前說的“需求彈性”。短期內我不擔心工程師失業，因為工具讓他們更高效，反而會有更多軟件要寫。但崗位性質肯定會變，懂產品、懂模型短板的人會更有比較優勢。

Patrick：除了你們公司，你最看好哪家AI創業公司？

Brendan：我很看好OpenAI的代碼能力，雖然這個答案不夠“逆風”。我也覺得未來會有大量定制智能體，有一家在法國的公司還在隱身狀態，我很感興趣。

Jacob：那你肯定不能在播客里說，等錄完我們再逼你透露（笑）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.