![]()
出品 | 網易智能
作者 | 小小
編輯 | 王鳳枝
在2026年GTC兩小時主題演講引爆全場后,英偉達創始人兼CEO黃仁勛18日再度現身GTC 2026現場,面向金融分析師舉行了一場閉門問答會。面對諸多尖銳提問,“黃教主”不僅展現出對行業趨勢的深刻洞察,更罕見地披露了關于下一代架構的萬億級市場預期。
![]()
黃仁勛在問答中提出了一系列觀點。他認為,AI產業正邁入“第三個拐點”,從生成式AI向“智能體系統”階段演進,AI將不再僅是回答問題,而是能夠自主執行復雜任務。
這一轉變將徹底重塑計算產業形態:計算機正從單純的工具演變為“制造設備”,其核心產出物是具有經濟價值的Token。他將其定義為“AI工廠”模式,并強調衡量算力優劣的標準已轉向“單位功耗下的Token生成效率”。
在黃仁勛看來,驅動這座“AI工廠”高速運轉的核心操作系統,正是當下火爆的開源項目OpenClaw。他毫不諱言地指出:“今天,全球每家公司都必須確立自己的OpenClaw戰略。”
黃仁勛算了一筆“經濟賬”:他曾瀏覽過一篇Reddit帖子,發帖人的Claw智能體一天內竟消耗了5000萬個Token。聽起來猶如天文數字,但折算下來不過區區50美元。倘若這50美元能讓智能體替你從事極具生產力的工作,這筆投資簡直微不足道。未來的常態將是:一位日薪數千美元的精英,統領著一支龐大的智能體大軍,為每個智能體分配50美元的日預算,從而將個人生產力推向極致。這一場景很快便會司空見慣。
事實上,在英偉達,他們已然將此付諸實踐。黃仁勛坦言:“對于那些我每天支付數千美元薪酬的員工,我巴不得他們每天消耗的Token遠超50美元。我期望他們能運籌帷幄,管理一整支智能體編隊來代勞繁雜任務。”他還稱,真心期盼一位日入2000美元的干將,每天能豪擲1000美元在Token消耗上。
正是基于這種由智能體引爆的算力渴求,面對分析師對市場天花板的疑慮,黃仁勛再次重申了其預測:基于Blackwell和下一代Rubin架構,英偉達在2027年前的明確可見市場需求已超過1萬億美元。他進一步展望,傳統的2萬億美元軟件許可行業,正加速向基于AI智能體的Token轉售模式轉型,潛在市場規模有望擴張至8萬億美元。
這場對話不僅勾勒出英偉達的雄心,也揭示了AI底層商業邏輯即將迎來的根本性變革。
以下為黃仁勛記者問答會全文:
![]()
重新定義AI時代:
計算機不再是工具,
是制造設備
主持人:大家早上好。希望各位喜歡昨天GTC的主題演講,雖然時間稍長,但我認為它為我們做了一次極佳的總結。接下來,我們將利用這段時間聚焦各位的需求,解答大家可能存在的其他疑問。我們將先過幾張幻燈片,隨后開放提問。現在,把時間交給黃仁勛。
![]()
黃仁勛:正如我昨日所述,AI的發展正經歷三個關鍵的轉折點:第一個是生成式AI,第二個是推理階段,而我們現在正處于第三個即智能體系統。每一次轉折都建立在上一代的基礎之上,但智能體系統的本質突破在于“自主性”。過去,AI只是回答問題;現在,你可以為其設定目標,它便能真正著手執行任務。
任務可以是什么?最典型的一個應用就是編寫軟件。如今,貴公司的工程師,當然也包括我們公司的,每天都在高頻使用智能體系統。過去,工程師上班只需一臺筆記本電腦;而現在,他們需要筆記本電腦,外加Token。Token預算已成為切實存在的資源。試想,如果你雇了一位年薪30萬美元的工程師,而他在工作中竟完全不消耗任何Token,你恐怕得問問他:你到底在忙些什么?所以結論很清楚:每個工程師都將消耗大量Token,而這些Token必須被生產出來。
這就引發了一場根本性變革:過去計算機只是工具,而未來的計算機將是制造設備。它們和ASML的光刻機沒什么兩樣,都在生產某種可供出售的商品。就像很久以前的發電機生產電力一樣,這些都是制造系統。其能效與生產效率,將直接決定你的營收與競爭力。
![]()
第三個轉折點已經到來。以OpenClaw項目為例,很多人初見其開源版本時,還以為那是個玩具。但若你退一步,從第一性原理出發去思考,便會發現OpenClaw本質上就是一臺計算機,它是AI計算機的操作系統,也是一臺個人AI計算機。它具備計算系統的所有屬性:資源管理、任務調度、執行輸入輸出、網絡連接等,它擁有基礎計算機所需的一切。那條陡峭的增長曲線已說明一切,這才是真正值得矚目的焦點。
所以,今天每家公司都需要思考一個問題:你的OpenClaw戰略是什么?過去,我們必須制定Linux戰略、互聯網戰略、移動云戰略;而如今,每家軟件公司都必須確立OpenClaw戰略。這件事的重要性怎么強調都不為過。
在此背景下,我想更新一下去年做出的某項預測。一年前我曾提到,我們對Blackwell和Rubin架構到2026年的出貨量有著極高的業務可見度,包括明確的采購訂單和需求,當時的預期規模約為5000億美元。很多人當時對此有疑問,想知道最新進展。現在是3月,我們距離2027年底還有很長時間。正因為我們在建設的是基礎設施和工廠,而每個人的交付周期都很長,所以我希望他們盡早下單以確保供應。
今天我可以更新的數據是:我們對Blackwell加Rubin的出貨價值(僅限這兩款產品)突破1萬億美元,有著極強的信心與可見度。這不是一個浮動的估值,不是精確到小數點后94位的數字,我們也沒有在錙銖必較地算零頭。我的意思是,針對超過1萬億美元的Blackwell加Rubin市場,我們抱有強烈的預期。為什么只說Blackwell和Rubin?因為去年我提的時候只談了這兩款芯片。今年我們新增了Groq、獨立的CPU還有很多其他產品,但為了口徑一致,我今天的更新只聚焦于Blackwell和Rubin。
所以我需要把話說清楚:我所說的這1萬億美元,只包括Blackwell和Rubin這兩款產品。不包括Feynman,不包括Rubin Plus或Rubin Ultra,不包括Vera Standalone,也不包括Groq。僅僅是Blackwell加Rubin,我們就已經有了超過1萬億美元的采購訂單,這是基于高度確信的需求、清晰的可見性和扎實的預測得出的結論。
我們一直在達成交易、完成出貨,而且從現在到2027年底,我們預計還會達成更多交易、預訂更多訂單、出貨更多產品。原因很簡單:我們會一直工作到那一天。英偉達有一個獨特的優勢。因為我們設計和交付的是高度復雜的整體系統,我們可以在同一個季度內完成從贏單、預訂到出貨的全過程。如果你做的是ASIC(專用集成電路),你做不到這一點。如果你現在還沒看到需求,就不可能趕在2027年底前出貨。但我們不同。
我們提前建立庫存,構建了完整的供應鏈,我們必須把這個優勢用足。當前客戶對算力如饑似渴,如果他們在最后一刻突然提出“我們還需要更多”,我希望我們永遠有底氣回應:“沒問題,我們樂意效勞。”更何況,我們還在開拓新客戶、新市場、新區域,這些甚至還沒有算進這1萬億美元里。畢竟,距離2027年底還有21個月。因此,我希望大家真正理解這1萬億美元意味著什么:它絕非終點,它本身將持續增長,未來勢必會超越這一數字。
![]()
推理經濟學:
最貴的計算機,
最便宜的Token
我再補充幾點。
2025年對我們來說是意義非凡的一年,因為它是“推理之年”。在這一年里,我們幫助市場理清了一個核心邏輯:計算機的售價與Token的成本之間并無必然聯系。人們買這些計算機是為了生產Token,而Token的生產效率至關重要。如果你買了一臺昂貴的計算機然后轉手賣掉,那它確實只是“昂貴”;但若你用它來生產Token,它的“貴”則源于其技術足夠先進,能以驚人的效率產出Token。這意味著你完全可以同時擁有“最昂貴的計算機”與“成本最低的Token”,這正是我們每天在做的事,也是我們創造獨特價值的根源。
這種價值差,最終體現在兩個指標上:每秒生成的Token數以及每瓦功耗產出的Token數。我們每一代產品都在實現指數級的性能躍升,以至于客戶寧愿出高價購買我們的下一代產品,也不愿低價購入上一代。Vera Rubin一旦上市,他們便會立刻切換。因為盡管價格更高,其創造的價值卻大得多。我之所以將這兩個系統放在一起比較,是因為它們已成為全球事實上的標準。在無法超越這兩個系統之前,購買其他產品毫無意義。然而想要超越它們難如登天,因為摩爾定律無法再賦予你35倍的性能提升,單靠制造更快的芯片已無濟于事,你必須打造出“海量的、速度更快的芯片群”。
![]()
作為推理之年,2025年我們也切實證明了自身在推理領域的領導力,從訓練到后訓練,再到推理,全面領跑。
去年我們還完成了另一件大事:大幅拓寬了平臺的模型覆蓋廣度。我們新增了對Anthropic的支持,這是全新的舉措;新增了對Meta Superintelligence Labs的支持,這是一個擁有全新計算需求的全新實體。眾所周知,去年開源軟件與開源模型真正迎來了爆發。時至今日,若按生成的Token總量計算,位列第一的是OpenAI,第二名是所有開源模型的總和,第三是Anthropic,第四是xAI。繼續梳理下去你會發現,英偉達正是全球開源模型的最佳運行平臺,這也解釋了為何我們在如此龐大的基數之上,依然能實現加速增長。
最后我想強調一點:我們極為珍視與超大規模云廠商的合作關系,但這絕不僅僅是簡單的買賣關系。我們也在幫他們“獲客”。既然CUDA運行在他們的云端,就意味著所有CUDA開發者、AI原生初創企業以及與我們合作的大型企業都會隨之遷移。我們每推動一家大企業或初創公司落地,都會引導他們到某家云廠商處進行托管。從某種意義上說,我們堪稱全球各大云廠商最頂尖的銷售團隊之一。
你去展區看看就明白了:AWS的展位規模龐大,Google Cloud、Azure、Oracle、CoreWeave的展位同樣宏大。他們為何匯聚于此?正是為了向我們的開發者推銷產品。而我們的開發者只熟悉一種編程方式,那就是CUDA。當他們完成開發并尋求落地時,自然會選擇入駐某位云服務提供商合作伙伴的云平臺。這便是我們與超大規模云廠商之間最真實的關系。
![]()
拆解60/40客戶版圖:
英偉達成了云廠商最好的銷售團隊
最后,我想重點談談客戶結構的另一面。
![]()
我們與超大規模云廠商的合作固然緊密,貢獻了約60%的業務份額。但許多人忽視了另外的40%,即來自區域云、工業、企業及本地部署的龐大需求。戴爾、聯想、惠普正在快速增長,所有的ODM也在快速增長。這部分業務,正在流向圖表右側的那40%。
這40%意味著什么?倘若沒有英偉達的全棧能力,沒有我們構建完整“AI工廠”的實力,沒有全球所有開源平臺皆運行于英偉達之上這一鐵律,你根本無從觸及這片市場。左側那60%的份額中,很大一部分歸功于我們將開發者引流至云端;而右側這40%的陣地,如果僅僅是一家芯片制造商,絕對是100%無能為力的,因為這部分客戶不買芯片,他們買的是平臺。
不知我是否將這一信息傳達清晰了?準確理解我們的業務結構至關重要。我們將這一切深度整合,并統稱為“加速計算”。
明年我們可能會換一種方式拆分業務,大概就像這張圖表展示的那樣:超大規模占60%,但請記住,其中很多客戶是我們帶上云的。右側那40%,只做芯片的公司永遠夠不著。
一張幻燈片里塞滿了三重信息,可能讓大家有些應接不暇。我本該將其拆分為三張的,盡管那樣演講可能會拉長到七個小時,但也絕對物超所值。
好了,就這些。謝謝。
以下為問答環節:
![]()
OpenAI和Anthropic的收入,
你們低估了
問:首先感謝你們提供這次交流機會。祝賀你和你的團隊。現在大家都理解了推理的重要性,但我認為市場最大的疑慮是:投入到底值不值?超大規模企業能否通過API和云服務獲得足夠的收入增長,來證明當前資本支出的合理性?我自己做了一些測算,目前他們的資本支出比云API收入高出20%。Jensen,你看到的情況是什么?你曾說過,你的客戶,尤其是那些支撐Anthropic和OpenAI的超大規模企業,會帶來巨大的現金流上行空間。那么,我們什么時候能看到這些收入真正兌現?我知道這個問題對您而言略顯棘手,畢竟您還要兼顧對其他公司的指引。但如果我們能看到這種上行空間,市場對你們的信心會強得多,大家才會相信這種建設是可以持續的。那么,收入上行何時出現?我們怎樣才能更有信心?
黃仁勛:我多希望這些公司已經上市,這樣大家就能真切地看到我眼中的景象了。縱觀歷史,從未有過任何一家未上市的初創企業,能實現每周狂攬十億乃至二十億美元的營收增量。而他們當下正在經歷的,正是這種堪稱恐怖的量級增長。
記住我剛才說的是“每周”。整個IT軟件行業的規模約為2萬億美元。在我看來,這一行業不會被顛覆,而是將迎來徹底的重塑。我堅信,這2萬億美元IT版圖中的每一家企業,都會將OpenAI、Anthropic及各大開源模型整合進來,接入名為OpenClaw的開源軟件中。隨后,我們會將其打造為企業級版本,也就是NeMoClaw。借此,你瞬間便能擁有一個智能體。目前已有150萬人下載了OpenClaw并搭建了專屬智能體。只需寥寥一行代碼,當你下達任務指令時,這個智能體便會自動展開學習與執行。
未來,這些智能體會被整合進整個IT行業。這個行業現在還是2萬億美元的軟件許可模式,但將來可能會變成8萬億美元規模。同時,他們還會轉售海量的Token。全球100%的IT公司,都將成為OpenAI和Anthropic的經銷商。因此,請各位務必調高對OpenAI和Anthropic的估值預期。
我相信,Anthropic、OpenAI,當然還有所有的IT公司,也會用開放模型來修改和定制自己的軟件。這就是英偉達開源大模型NeMotron的用途,這就是開發與部署平臺NeMo的用途。我們創建了所有這些工具,這就是為什么我們和每一家公司都在合作。他們都會去創建整合了這三個組件的智能體。我相信他們會以難以置信的速度增長。這個時刻很快就會到來,因為你可以從Anthropic和OpenAI的數字里看到,他們不是在普通地增長,他們在一個月內就能增長出一家完整的IT公司。
這些AI公司的營收模式在于:其能力一部分將由企業直接采購使用,另一部分則會通過IT公司分銷,深度嵌入到IT企業的產品線中。因為AI本身就是軟件。他們的軟件可以直接提供給企業,也可以被集成、被定制,變成特定領域的、受管控的、安全的、易于配置的智能體系統,連接到企業的核心系統。然后這些智能體系統會被租給客戶,而客戶在使用過程中,仍然需要通過AI工廠來消耗Token。無論這些Token來自OpenAI、Anthropic還是開放模型,都需要被生成出來。
歸根結底,傳統的IT公司售賣的是軟件授權,而未來的IT企業出租的將是Token。他們的商業模式必將重構,企業體量將進一步膨脹,毛利率結構亦將隨之改變,因為如今他們的成本核算中加入了Token這一銷貨成本,但相應地,他們所能提供的價值也呈幾何級數躍升。對他們而言,這無疑是令人振奮的時代機遇。
![]()
40%會變成70%:
物理AI的萬億市場
問:我想聊聊那張60/40圖的演變。你昨天談到了NeMo,又發布了Vera Rubin DSX AI工廠參考設計,這基本上是為非超大規模客戶提供了一個藍圖,讓他們有能力與超大規模企業競爭。當你把所有這些東西整合在一起,看到Token生成量的大幅飆升,你預計這張圖會如何演變?我們該怎么看待不同參與者的發展方向?
黃仁勛:我認為該圖表的左右兩側均會保持增長,且在未來幾年內增速將基本持平,直至物理AI的拐點真正降臨。
一旦跨過那個拐點,工業端的計算處理就必須轉至本地,必須在邊緣側、在業務現場、在生產車間內完成。到那時,那40%很可能會開始加速增長。我甚至認為,最終那40%會變得更大,因為與物理AI相關的全球工業規模,遠比與數字AI相關的規模大得多。
全球工業領域有高達70萬億美元的經濟活動亟需物理AI的深度介入,因為世界的運轉并非僅僅局限于我們的筆記本電腦屏幕內,而是實實在在地發生于廣袤的物理空間中。大量與原子相關的業務,沒有物理AI根本處理不了。因此我堅信,也熱切期盼著,那40%的份額最終能攀升至70%。
但無論比例如何變化,兩邊都會變得極其巨大。因為這個世界將進入一個狀態:每天、每時每刻都在持續不斷地生產Token,永不停歇。就在我們說話的這會兒,我們所有的筆記本電腦都在持續運轉,希望你們大部分人的電腦都處于閑置狀態,但在未來,計算機會24小時不間斷運行,持續創造Token。因為你的智能體們正在替你工作。
我曾瀏覽過一篇Reddit帖子,發帖人的Claw智能體一天內竟消耗了5000萬個Token。聽起來猶如天文數字,但折算下來不過區區50美元。倘若你手下有一個智能體正在從事極具生產力的工作,這50美元簡直微不足道。你完全可以讓一位日薪數千美元的精英,統領一支龐大的智能體大軍,為每個智能體分配50美元的日預算,從而將生產力推向極致。這一場景很快便會司空見慣。
在英偉達,我們已然付諸實踐。對于那些我每天支付數千美元薪酬的員工,我巴不得他們每天消耗的Token遠超50美元。我期望他們能運籌帷幄,管理一整支智能體編隊來代勞繁雜任務。說實話,我真心期盼一位日入2000美元的干將,每天能豪擲1000美元在Token消耗上。這絕非天方夜譚,此時此刻全球各地的軟件公司里,這一切正在真實上演。
![]()
解密推理光譜:
Groq不是來取代,
是來補位的
問:你們談過Rubin會在下半年開始出貨,Groq聽起來像是在第三季度推出。那么,我是否可以認為Rubin應該和Groq一起推出?因為我不認為Groq是獨立存在的。然后,我想問一個更長遠的問題。我真的很喜歡你們前幾天放出的那張圖,它在我看來幾乎是展示了推理光譜的延伸,這為Groq創造了價值。你過去常說GPU是唯一的出路,我們現在看到像Groq這樣的架構是必要的,以便利用不斷擴大的推理光譜,低延遲變得更加重要。我想知道的是,你如何看待這個光譜從今往后的演變?你的平臺現在是否擁有了未來幾年所需的所有組件?展望未來,隨著推理的發展,會出現哪些新型的工作負載?你是否擁有抓住這些機會所需的所有組件?
黃仁勛:謝謝你對Groq和LPDDR的提問。我們確實溝通過,Groq也會在今年下半年開始出貨,具體時間臨近時再看,但確實是在今年。你可以說Groq在第三季度出貨,我昨天確認了,這是我們的預期。但我要說明一點:Vera Rubin會在Groq之前出貨。原因是我們已經在生產Vera Rubin了,系統已經在生產線上跑著。Vera Rubin本身便難以逾越,即便對手是Groq亦是如此,哪怕將Groq與Vera Rubin強強聯手,想要擊敗純粹的Vera Rubin也并非易事。
在計算架構領域,大致可劃分為兩大流派:一派追求極致的低延遲,另一派則主攻極高的吞吐量。事實上,CPU本質上就是一臺低延遲計算機,看看其芯片上的緩存規模便知,幾乎全由SRAM構成。而Groq正是此類架構的極端化產物:SRAM幾乎霸占了整塊芯片,任務調度完全依靠靜態完成,由編譯器精準測算數據與計算指令的位置,確保它們“如期相遇”。整個Groq系統猶如一臺龐大的同步機器,這賦予了它極強的確定性與極低的延遲。然而代價也顯而易見:編程門檻高、缺乏靈活性,且并非面向通用計算。
因此我們所做的是采用了Vera Rubin,正如昨天我所描述的,它占據了大約四分之三的空間。Vera Rubin是正確的答案。我們不知道如何使它變得更好。如果我們知道如何讓它變得更好,我們就會去改進它。NVLink 72以及Vera Rubin Ultra NVLink 144、Feynman NVLink 1152,我們會繼續擴大左側那個高吞吐量至關重要的區域的范圍。同時,我們會把Groq加進來,與Vera Rubin融合,與我們的GPU融合,用Groq來處理自回歸模型的最后一個階段,也就是語言模型中那個對帶寬要求極高的最后階段。如果我們把一大堆SRAM聚集起來,比如數千個Groq芯片,比例大概是8比1。
所以,對于最后25%的功耗以及最后25%的用例,我們都在用ChatGPT,但我們以不同的方式使用它,我們有不同的定價層級。因為你的數據中心有各種各樣的用例,不是只有一種。我們都在我那張圖里的不同波段中。我展示了零級、免費級、好、更好、最好、極致版本。對于免費、好、更好這幾個層級,Vera Rubin是無敵的,我們想不出任何接近的東西。而對于最好和極致,加上Groq,你可以提高最好層的吞吐量,甚至把極致層推得更遠。
“極致”層級開辟了一片全新市場,但受制于吞吐量曲線,其受眾規模注定極小,你無法指望需求量呈爆發式增長,因此必須輔以極高的定價策略。然而,一個全新的高凈值客戶群已然浮出水面:那些身價不菲的資深軟件工程師。其自身的人力成本本就極為高昂,若我每天再為他們增加100美元的推理與Token成本,我也甘之如飴。哪怕在項目攻堅期暴增1000美元,他們同樣樂見其成。我描述的是一個正在成熟的市場里正在發生的事情。
在市場莽荒期,沒人確切知曉該如何駕馭這項技術,技術本身亦不夠成熟,用戶根本無法做到精準施放。100%的早期推理客戶都在免費層。但隨著技術開始達到o1和o3水平,付費層突然飆升,因為人們現在能用它來做有用的事情了。然后當智能體出現時,比如云代碼、Codex,那些Token比免費層貴得多,也比每月20美元貴得多。所以我們剛剛增加了兩個細分市場。
這和iPhone沒什么不同,起初只有一個版本,現在有很多版本。和汽車行業沒什么不同,和任何行業都沒什么不同。隨著市場擴大,細分市場也在擴大。
我展示的是一個能夠生產不同細分市場和不同層級Token的工廠:從非常聰明、極其快速,到高吞吐量的免費層。這描述的是一種AI工廠架構,允許你覆蓋所有需求,最終最大化工廠的總收入。我們讓你自己決定如何搭配組合。
我的估計是,現在大概有25%的市場,主要針對少數幾家公司,你需要是其中之一,你需要生成大量Token才值得這么做。然后還有一大批所謂的推理服務提供商、API服務提供商,我認為他們也可以從中受益,因為他們希望有不同的Token生成細分市場。所以我稱之為一個由10家客戶組成的群體,其中那25%的客戶代表了那個蛋糕的很大一部分。通過Groq,我們可以把那25%的蛋糕的總收入提高2倍。
問:隨著你繼續推出新版本的Groq,新一代產品會對市場產生什么影響?你是把那個邊界推得更遠,還是降低成本并增加需求?
黃仁勛:我們始終在雙線并進:一方面不斷拉升各個層級的吞吐量上限,另一方面持續拓寬AI的智能邊界。各位留意到那張帕累托圖了嗎?我始終在將其向上推舉。剛才我向大家演示了從Hopper、Blackwell到Vera Rubin的代際演進,每一次架構迭代,我都在將其向上推、向外拓。
每當我向上推,你的工廠在同等價格點上的產量就會增加。每當我向外推,你就可以引入全新的AI層級、全新的Token層級,從而獲得全新的價格點。現在的價格點大概是每百萬Token 6美元左右。但我知道,大家都希望看到每百萬Token 50美元的產品,那是超大模型、超快速度的層級。你能想象一個10萬億參數的模型,以每秒500個Token的速度運行嗎?我們的工程師會為此付出大價錢,我也會讓我的工程師為此付出大價錢。那個世界很快就會到來,然后明年還會再來,因為模型會變得更大,它們會思考得更多,會使用更多工具。
這就像早年的Nvidia。不知道你們有多少人記得,我們最初只有一個產品:Riva 128,299美元,就這一個SKU。那些美好的舊時光。然后今天我們有了5090、5080兩個不同的SKU,5070更是分出了三個。所有這些SKU的出現,是因為市場變大了,開始出現細分,人們想要不同的東西。
Token市場也完全一樣。它正變得越來越大,不同的細分市場想要不同的東西。所以我需要幫助我們的客戶、幫助我們的模型制造者,為不同的細分市場制造不同的Token。我知道它們看起來只是數字,但它們是不同的AI。
所以答案是:我們將同時提高吞吐量并提高他們的定價。這就是Vera Rubin帶來的好處,我們每一代都是這樣做的。我們用Blackwell做到了,用Vera Rubin做到了,用帶Groq的Vera Rubin也會做到,用Vera Rubin Ultra同樣會做到。我們會持續不斷地突破那個邊界。
最終,簡單來說,就是那張帕累托圖。一個工廠要處理大量不同的工作負載和不同的客戶,我們希望不斷地把帕累托前沿向外推、向上推,不斷地向外、向上。而要做到這一點所需要的計算機科學,是所有問題中最難的。
![]()
1萬億之外的1.25萬億:
Groq、CPU、存儲的增量空間
問:我有兩個相關的問題。第一,在1萬億美元之外,昨天你還談到了其他產品:Vera CPU、其他CPU、Groq、存儲解決方案、CPX。這些增量有多少?沒有包含在這1萬億里的可尋址市場有多大?我假設它們對這1萬億是增量。第二,我想更深入了解Groq。你提到它將占據推理的25%,這是個相當重要的聲明。它是在蠶食什么嗎?隨著時間的推移,Groq的價值捕獲是怎樣的?很多人問我們,它是否會蠶食高帶寬內存的需求?
黃仁勛:首先,今天全球只有我們一家公司能夠在一個AI工廠里,同時優化和整合三種內存架構:HBM內存是我們第一個使用LPDDR5的公司,它具有極高的帶寬和極低的功耗,這徹底改變了CPU的游戲規則;第三種是SRAM。我們現在可以利用所有這三種內存類型,來打造真正完美的架構。
過去,我們只有一個機柜產品:NV Link72 Grace Blackwell。現在我們有了五個機柜。NVLink 72的設計目標就是運行各種大型語言模型,我們所有的推理棧都在上面跑。但你要理解智能體系統是什么,它正在運行的東西比如Claude Code現在做的,比如Codex現在做的。這些系統的內存需求進入了KV緩存,那是在STX系統上處理的。這個內存增長得實在太快了,必須被加速。我們運行時占用的內存越多,能解決的問題就越難。這涵蓋了結構化與非結構化數據,正是我在主題演講開篇所提及的cuDF與cuVS。過去鮮少有人談及這些底層架構,但其未來的商業價值無可估量,因為智能體的處理速度遠超人類,它將以更為狂暴、迅猛的姿態瘋狂吞吐這些數據。
然后是工具使用,比如網頁瀏覽器。網頁瀏覽器運行在CPU上,所以你需要一個CPU來讓智能體訪問工具。然后它會衍生出子智能體:其中一個可能是Co-opt,由GPU加速;另一個可能是Omniverse,同樣由GPU加速。所以我們在數據中心里需要那種GPU。
所以,理解Vera Rubin的正確方式是:Vera Rubin作為一個系統,它的能力被極大地擴展了,我們從處理那90%的工作負載擴展到了處理所有這些任務。這就是AI。這是ChatGPT開始的地方,但這是它現在所處的位置。
這就是一個智能體。那么,剛剛在我們的數據中心里發生了什么?畢竟,沒人希望數據中心被東拼西湊成“科學怪人”般的縫合怪,它渴求的是極其優雅的供電與液冷系統。所以我們把所有這些計算機都放進了MGX機柜,為其中每一個組件都設計了完美的處理器,然后直接裝上機架。如果你要把存儲放進去,如果你要把那東西放在和計算同一條走廊的東西向網絡上,你最好別搞成弗蘭肯斯坦那樣。你不能一邊用著液冷的NVLink 72機柜,另一邊用著風冷的;不能這里用300千瓦,那里用50千瓦。所以我們把所有這些統一到一個單一的機柜架構里。如果你想建一個能運行那個智能體的集群,你只需要把它們全部連接起來:同樣的供電,同樣的冷卻系統,全部100%液冷,全部針對工作負載做了完全優化,全部完全加速。
所以回到你的問題。為了運行這個智能體,為了提供我們剛才討論的所有這些東西,你的資本支出會增加,你的GPU計算支出會增加25%。你把Groq加到那25%的工作負載里,你購買八倍數量的芯片,價格大概和NVLink 72機柜差不多。所以25%乘以2,就是25%的增量?對,你的計算支出增加了25%。這是第一點,而這部分不在那1萬億美元里面。所以如果那1萬億美元中的100%都加上Groq,那就變成1.25萬億美元。
然后我們還有存儲。這個量很大,因為世界上存儲量本來就很大,它是第二大計算支出。第三是用于工具使用的CPU,但我不預期CPU會占很多,大概5%左右。所以如果你要問,Grace Blackwell機柜和Vera Rubin機柜之間的全部差異,如果它增加了另外50%的機會,我認為這很可能差不多。
這就是Grace Blackwell上市和Vera Rubin上市的根本區別:在Grace Blackwell時代,我們要解決的是推理,我們要成為推理之王;而Vera Rubin,我們解決的是這個。這就是為什么我說OpenClaw是完全變革性的,終于我們有了一個統一的軟件可以運行在這整個架構上,一個開源軟件。它就是這張圖的操作系統。現在,世界上的每一家公司都可以去構建這個了。
問:能談談你們如何使用現金來建立業務戰略優勢嗎?你們在投資生態伙伴,有組件的采購承諾,也在向股東返還現金。你們如何平衡這些優先事項?
黃仁勛:優先事項必須這樣安排:第一,必須為我們的增長提供資金。我們與供應鏈的合作非常緊密,我們今天與供應鏈的關系處于良好狀態是有原因的,因為我們和他們進行非常長期的合作。我們幫助他們規劃業務,把業務授予他們來支持他們的增長,我們甚至會預付款項,有時甚至會資助他們擴充產能。我們正在為未來幾年那超過1萬億美元的需求做準備。
第二,我們投資于我們的生態系統,因為CUDA開發者和這個階段AI原生公司的增長非常重要。在這之后,我們仍然會產生大量的自由現金流。這個問題我讓CFO科萊特·克雷斯(Colette Kress)來回答。
克雷斯:隨著我們未來1萬億美元的強勁增長,這自然為我們的自由現金流創造了非常有利的局面。黃仁勛剛才也提到了一些關鍵點:首先,我們要確保供應商以及構建所需的一切都井然有序,這當中可能涉及一些預付款。其次是我們仍在履行的投資承諾,這些是去年做出的,需要今年上半年完成。一旦我們把這些事情推進并落實,我們就有機會進行股票回購,把重心真正放在向股東返還資本上。這依然是我們接下來工作的重要部分。去年我們做得不錯,在向股東返還資本這件事上,今年我們也會交出出色的成績。
關于資本返還,我們現在討論的情況,還沒有把那個“加號”考慮進去。如果不算那個“加號”,我們目前的計劃是:將自由現金流的50%用于股票回購和股息加總。這是我們現在的起點。但那個“加號”是真實存在的,它會給我們帶來額外的機會,讓我們有能力做得更多。至于具體的時間安排,需要考慮的是,我們今年上半年還有一些現有的承諾需要處理。但請保持關注。
![]()
利潤率問題的正面回擊:
買便宜的設備,
還是賺更多的錢?
問:有人認為你們從生態系統中獲取了太多價值,長期來看無法維持這樣的利潤率。你如何回應這種擔憂?我知道你在網上也看到一些關于"必須投資生態系統"的評論,有些人用消極的方式解讀。你能談談你們如何維持利潤率嗎?
黃仁勛:首先,我昨天告訴大家的幾乎都是全新的視角。每個人都必須理解Token經濟學。這個世界需要重新認識:計算機已經變成了什么。如果我們能持續每年交付每瓦每秒Token數量的成倍增長,如果我們能持續通過引入新的Token細分市場,讓客戶的平均售價也成倍增長,那客戶有什么理由不繼續和我們合作?
還有一點,我以前也說過,這在數學上絕對清晰。我會挑戰每一家云服務提供商的CEO,讓他們為自己畫出那張圖,我會幫他們畫。然后你選你最喜歡的其他配置,無論是第三方芯片還是自研芯片,忠實地把它放進那個模型里。然后你自己決定:你是想要更高的收入,還是更低的?想要更高的平均售價,還是更低的?想要更高的利潤率,還是更低的?這才是全部的意義所在。
臺積電的晶圓堪稱全球最貴,但其性價比同樣冠絕全球,我極其樂意為此買單。ASML的系統造價不菲,但絕對物超所值,這毫無爭議。所以問題很簡單:你是想賺更多錢,還是想買最便宜的設備?
我剛才拋出的本質上是一個前沿概念:我將計算機系統視作臺積電的晶圓廠,視作ASML的光刻機來對待。而在過去,人們的認知并非如此。如果我有兩個CPU,一個是256核,另一個也是256核,哪個更好?更便宜的那個更好,因為我按核租賃。但Token不是這樣創造的。你不是按核租賃,你是通過每秒Token數量來實現收益的。這是一種完全不同的經濟模式,你不是在租核心,不是在租節點,你是在生產Token。這就是為什么一切都變了。
任何散布此類言論的人,純粹是外行。他們滿腦子只想采購最廉價的設備。“我的設備便宜30%”,但這筆賬算到整座工廠頭上,究竟意味著什么?這才是觸及靈魂的拷問。如果有人跑來向你推銷“我的芯片便宜50%”,請務必將這番話置于“AI工廠”的宏大語境下審視,這番說辭恰恰暴露了他對AI的一竅不通。
問:你昨天幾次提到,預計到2027年產能都會緊張。能詳細說明一下你具體在哪里看到這些短缺嗎?另外,你稱自己為“首席收入破壞者”,微軟CEO薩蒂亞·納德拉也評論過說不想過度依賴某一代產品,因為知道很快就會有下一代。這種行為是微軟獨有的嗎?這些限制是否反而保護了您的其他客戶?還是說他們也持有類似的心態?
黃仁勛:納德拉也會告訴你這話是誰跟他說的,是我告訴他的:買你今年需要的,因為明年會有更好的。我不希望你們過于細致地揣測我們的用詞。
世界在某種程度上是否供應緊張?是的。我們可以達成共識,說相反的話反而奇怪。世界上汽車緊張嗎?你看到汽車了,但如果我把需求提高三倍呢?一切都某種程度上是緊張的,這完全取決于具體情況。
因為我們建設的規模如此之大,我們的生活并不簡單。我們正在多個維度上與多個供應商合作,確保一切和諧運轉。不能太多,不能太少,要能夠滿足我們的需求甚至更多。我們想要滿足需求甚至更多,是因為未來21個月總有新需求出現。我還有很多新需求要來,所以我必須為此做好準備。這里有各種各樣的參數,并不簡單。如果我告訴你們我們在某個特定項目上供應緊張,那我知道你們接下來會做什么了。
所以我認為系統是和諧的:沒有太多,也沒有太少。我們沒有太多電力,也沒有太少電力。我們沒有太多建筑工人,也沒有太多水管工。我們沒有太多電纜,也沒有太少光模塊。就是剛好差不多。我們會每天努力維持這種平衡。但那一萬億美元訂單,我們是可以滿足的。
問:我收到了很多關于昨天演示的問題:CPO從哪里開始,銅纜到哪里結束?你概述了NVLink 576,有一張幻燈片上還有NVLink 1152。所以我很好奇你目前關于同時提供這兩者的想法,以及隨著我們擴展到Vera Rubin Ultra,這會如何演變?
黃仁勛:首先,請善待我的合作伙伴們,他們都做得很好。我這里說的任何話都不意味著他們的業務會走向另一條路,他們所有的業務都會因為我們而增長。我們會讓銅纜業務增長,也會讓光模塊業務大幅增長。我說的有沒有完全合乎邏輯?答案是肯定的。讓我告訴你為什么。
我們應該盡可能用銅纜擴展,能撐多遠就撐多遠。但在一米左右,銅纜有其物理極限。你們已經看到我們從NVLink 72發展到現在的Rubin Ultra NVLink 144,背板設計就是為了支持這一點。我們會繼續研究,如果能從144擴展到288,我們非常樂意這么做,因為你應該盡可能使用銅纜。銅纜更容易制造,更可靠,人類制造和使用銅纜已經很長時間了。
這道理好比呼吸空氣:只要條件允許,你就應該大口呼吸自然空氣,直到氧氣耗盡。在那之后,你或許不得不依靠壓縮液態空氣續命。但在此之前,自然空氣不僅免費,而且極其安全。
所以第一原則是:盡可能用銅纜擴展。如你們所知,我們也把以太網帶到了結構化電纜背板,這是增量的增長機會。我們要把以太網的背板變成這些脊柱,因為這些結構化電纜非常容易使用。現在我們掌握了如何制造和使用的技術,我們可以創造這些東西,使其容易維護,容易運輸,容易布線,不會出錯。
然而,同時我們想擴展到72以上,到144,到1152,甚至未來可能更遠。銅纜能走多遠是有限度的。所以你可以看到這樣的演進路徑:目前是100%銅纜。下一代Ultra會有兩個選擇:你可以用銅纜,或者銅纜加CPO。這是從現在起一年后。兩年后,到1152,就全是CPO了,因為銅纜的物理距離極限到了。所以會有一個自然的過渡。
但即使當NVLink變成了CPO,Spectrum X也變成了CPO,我們在機架上的以太網scale-up仍然會使用銅纜,我們的存儲也仍然會使用銅纜。因為我們有五個不同的機柜。所以銅纜的使用量會繼續維持在高位,因為即使scale-up在兩三年后轉向CPO,隨著所有其他機柜的需求和總產能持續增長,銅纜連接器的總消耗量也會持續增長。
![]()
細分市場的終局猜想:
法拉利沒有免費版,
Token也一樣
問:你之前談到Token成本,聽到高端占25%非常有幫助。你如何看待市場隨時間演變,低端或免費層與高端層的增長率會如何?在一個以Token成本大幅下降為前提的市場中,你認為這一趨勢會如何發展?是否會開始放緩或趨于平緩?
黃仁勛:Token成本會持續下降,每年都在下降。從Grace Blackwell到Rubin,Token成本會再次下降,Rubin Ultra還會繼續下降。與此同時,每個Token背后的智能程度,會隨著我們把那條曲線向右推而持續上升。同時,我們會不斷提高吞吐量。
這一切都繞不開一個核心命題:任何人都不應盲目盯著“每秒Token數”看,你必須始終將其與功耗相除進行歸一化。邏輯很簡單,你的數據中心容量存在物理天花板。你的數據中心是一個吉瓦,你不會有第二個;如果是200兆瓦,你也不會有第三個。所以你必須始終將其歸一化到功耗。否則,你無法比較任何架構。摩爾定律也總是要除以某個東西。所以你必須看的是:每瓦每秒Token數。任何向你兜售其他衡量標準的人,要么是AI門外漢,要么就是心懷鬼胎。這正是SemiAnalysis(半導體研究機構)之所以能看透本質的原因,一切指標都必須歸一化至單位功耗。
我們將不斷提高吞吐量。所以無論Token價格是多少,無論平均售價是多少,我們都在提高吞吐量。同時,無論那個細分市場是什么,我們都在降低成本。下端基本上是你們的細分產品市場,那是吞吐量、產量、成本的問題。這就是為什么這兩條曲線如此重要。現在我把這兩條曲線結合在一起,這條曲線本質上就是帕累托前沿。
目前世界大部分地區還在這里,這是Hopper的世界。Blackwell把它擴展了,并增加了一些新的細分市場。這非常有價值,因為這里和這里的平均售價差異可能達到5倍、10倍,模型更大,速度更快。
那么我如何看待需求曲線的變化?昨天我用了25%在這里,25%在這里,25%在那里,25%在另一邊。但一個制造商的不同產品細分市場的分布,完全取決于具體情況。法拉利全是高端,沒有免費層;而其他品牌則完全不同。我認為這里也一樣。
如果你的業務是搜索,你主要會在免費層,因為沒人會為搜索付費。如果你是代碼生成、智能體代碼,你會大量集中在這里。如果你的客戶是企業員工,平均工資可能是5萬或7萬美元,你可能在這里,你希望你的產品定價也在相應的位置。這取決于你的客戶、你為他們做的工作,以及競爭格局。AI Token是一種產品,一種新商品,它會以這種方式被營銷。不同的供應商、不同的品牌、不同的目標市場,會有完全不同的形狀分布。我昨天只是隨便選了一個平均分布做示例。
問:你認為未來哪個細分市場增長更快?
黃仁勛:目前它們都會增長得非常快,都在呈指數級增長。我們還處在開始階段,增長率是被一個很小的基數相除后得到的結果。
問:我們的實地調研告訴我們,AI工程師對狀態空間模型感到興奮,因為它們解決了內存需求問題。在主題演講中,你展示了NeMotron 3在頂級模型中的基準測試,我相信那是一個混合了混合專家和狀態空間的模型。智能體AI是否創造了對新AI模型的需求?這就是你通過NeMotron和混合模型所做的嗎?狀態空間為NeMotron 3帶來了什么,是純混合專家模型沒有的?如果發生向新型AI模型的轉變,這對Nvidia的競爭環境有何影響?
黃仁勛:我們運行所有AI模型,無論是純Transformer、離散Token、連續模型、擴散模型、狀態空間模型,還是混合模型。我們架構的美妙之處在于,它能處理所有模型。舉個例子,Groq做不了擴散模型,但我們什么都能做。我之所以拿Groq開玩笑,絕非刻意針對,畢竟它現在已歸我麾下。只是客觀而言,每種架構都各有其主戰場。
英偉達之所以如此全能,之所以被如此廣泛地自由使用,是因為無論你的研究科學家明天想出什么創新,我向你保證:它在CUDA上會運行得很好。原因很簡單,我們擁有執行所有這些任務所需的所有計算元素。
NeMotron 3的設計初衷,是為了讓你能夠處理極長的上下文。將來,你與你的AI的對話,希望能持續你的一生。所以問題來了:如何處理上下文?如何處理相關的對話記憶?一方面,如果你記住了所有東西,隨著時間的推移,我們談論過很多事情,當記憶太多時,你該調用哪個版本?可能會變得混亂。這些都是研究的前沿領域。
但我認為,混合架構將是一件非常重要的事情。因為它允許你處理極長的上下文,而不必遭受計算量二次爆炸的痛苦。這就是我們發明它的原因。我們把它開源,希望每個人都能使用它。它的目的就是推動AI進步,而不是與任何人競爭。我們只是想推動AI向前發展。
問:我想試著理解你下游的AI市場目前有多集中,以及未來會如何演變。你那張圖顯示60%是超大規模企業。但我感覺另外40%里,大部分是二級云提供商,而他們中的很多人實際上是在把產能轉售或租賃給超大規模企業或前沿實驗室。所以如果把超大規模企業和前沿實驗室合在一起,可能80%的實際基礎設施使用者都在里面了。而這些模型,比如Anthropic的模型、OpenAI的模型,似乎只有極少數真正處在最前沿。你認為這是對今天情況的準確描述嗎?你如何看待這種情況的演變?這對價值鏈上的賺錢能力、發展方向以及AI的進一步加速意味著什么?
黃仁勛:我會把它拆成三個維度來看。
第一個維度是:最終運行的是什么模型?我之前說過,OpenAI是最大的,第二大類是所有開放模型的總和,絕對穩居第二,第三是Anthropic,然后依次往下排。長尾其實相當長。所以如果你看模型消費的世界,哪怕只看語言模型,也應該這樣思考。我們運行所有這些模型,我們參與其中每一個。
在這個模型的子維度里,你還必須加上物理AI模型,也就是機器人技術。你看到的所有機器人,它們運行的是視覺模型、語言模型、動作模型。這些和純語言模型完全不同。舉個例子,控制電機是連續的,不是離散的“點、點、點”;物理世界是連續的,生物學里的基因組遵循的是幾何規律。所以有很多不同類型的模型。但重點是,你首先要搞清楚正在運行的是哪些類型的模型,這有助于你思考如何開展業務。
第二個維度是:根據公司的結構、意圖或利益,計算的位置在哪里?他們是想要自研芯片的公司,那我們必須和他們競爭?他們是想要在自己的云里托管Nvidia客戶的公司,顯然CUDA只在Nvidia上運行?他們是像NCPs這樣的公司,他們不能只買芯片,他們真的需要買系統,所以他們是真正的基礎設施客戶?還是那些想要本地部署的公司?因此,我們的分銷渠道需要通過戴爾、惠普和聯想,因為必須整合一大堆其他企業計算組件,而戴爾和惠普不自研芯片。或者是在邊緣,也許是無線網絡、機器人系統、自動駕駛汽車,甚至是衛星?現在你得決定計算在哪里進行。
當你把這些全部細分完之后,再回到我展示的那張60/40圖。在那40%里,他們本質上需要的是計算平臺。不管他們運行什么模型,可能是OpenAI的模型,可能是Anthropic的模型,Nvidia支持機密計算,這讓OpenAI和Anthropic有可能在右側那部分運行。那一邊,他們想要完整的平臺,想要機密計算,想要在世界不同地方部署計算機,而不僅僅是在云里。
即使在云里,我們也和那60%CSP圖中的某一部分存在競爭關系,但我們也把客戶帶到另一部分。所以在那60%的CSP圖里,有一部分我們必須競爭。我們的工作就是比世界上任何人都更好地交付那張圖的價值,我們做得非常好,實際上我們的地位還在日益增強。而在另一部分,我們把客戶帶給他們,他們只有感激。
我把所有這些維度壓縮成兩個餅圖。你可以用這個壓縮后的圖來檢驗:他們是否設計自己的芯片?我們是否在芯片層面和他們競爭?我不認為OCI會設計自己的芯片,我認為他們這樣做不明智。顯然Coreweave也不會設計自己的芯片。所以我們在哪里競爭?我們在哪里為云服務提供商帶來客戶?他們云收入的很大一部分,顯然OCI幾乎是100%,是因為Nvidia。
![]()
黃仁勛的組織哲學:
60個人管1萬億
問:展望未來,12個月的創新飛輪是你競爭優勢的關鍵部分。但當我看到員工人數時,增長其實非常緩慢,相對緩慢。然而,你們承擔的任務量比這增長得快得多。你如何管理這一點?如何管理這可能給業務帶來的風險?
黃仁勛:我的直接匯報團隊有60人。我們需要60人,是因為公司的架構就是為了交付這種產品架構而設計的。組織的架構應該反映他們構建的產品。每家公司不應該看起來都一樣。打造法拉利與流水線生產福特的方式截然不同,前者是圍繞底盤調動技師,后者則是讓車輛在流水線上流轉穿梭。這完全取決于你渴望締造怎樣的結果,而組織架構理應成為這一愿景的映射。
你看看我的管理團隊,構建Vera Rubin整個工廠所需技術的每一個方面,都在那里,百分之百具備。每個人都代表一個關鍵領域,所有專業知識都坐在同一張桌子上,共同決策。
第二件事是,我們有紀律去開發整個軟件棧。如果你不能把它啟用起來,你就無法每年構建我們所構建的東西。如果不能啟用,你怎么測試它?如果你從其他人那里拼湊新技術,你怎么能做到每年啟用一次?這根本不現實,不可能。
所以我們讓我們所有的芯片與平臺對齊,所有七款芯片都只有一個流片時間表。我不會拼湊每個人的流片時間表然后算出系統什么時候出來。系統需要在它該來的時候來,每個人都對齊到那個時間點。而軟件棧,我們完全擁有每一部分。存儲是我們自己開發的,網絡當然也是,甚至工廠操作系統Dynamo也是我們創造的。這樣我們就可以交付每一個基準測試,測試到極限,測試可靠性。
英偉達構建NeMotron的原因,就是為了我們能做預訓練、后訓練,現在還能做推理。我們擁有所有的軟件,這樣我們就可以每年啟用所有的系統,這基本上意味著你一直在啟用。
如果你不擁有所有東西,你毫無機會,是絕對的零概率事件。人們談論他們的新GPU,但他們的scale-up結構從哪里來?那要怎么工作?我們之前討論的那個完整的智能體系統,就是未來的計算機。所以我們公司的組織、公司的使命、公司的能力,都與我向市場交付承諾的目標完全一致。這就是為什么我們能持續做到。
區區一張PPT是絕對造不出那套系統的。僅憑一張畫著兩根柱狀圖的幻燈片,也絕無可能忽悠別人砸給你500億美元。當你真正將其全面工程化,并在數據中心內部成功落地時,我們早已遙遙領先了兩個身位。這正是我們倒逼整個行業滾滾向前的獨特模式,一條鋪滿荊棘的極難之路。我們之所以能披荊斬棘,全憑我剛才詳述的種種底蘊。
我們的每一個系統都與CUDA兼容,所以第一天,昨天的軟件就能完美地在今天的系統上運行。我擁有所有的scale-up交換機、所有的scale-out交換機、所有的軟件。第一天,我把昨天的軟件放到新系統上。如果它不工作,那還有什么意義?然后一旦我們啟用了所有東西,因為我們擁有整個軟件棧,我們就可以把它推向極限。擁有CUDA兼容性,我們有這個叫DOCA的兼容層。我們擁有所有的編譯器,我們擁有所有的軟件棧,這非常非常重要。你不能把這外包給別人。別人為你構建芯片,但他們不會為你啟用系統,不會為你做驗證。
![]()
99%的算力應該用在推理上
問:這次活動上我們談了很多關于推理的內容。我希望你能花幾分鐘談談訓練。你認為計算強度會如何增長?未來幾年,驅動因素是什么?仍然是越來越大的模型,還是你看到地平線上有其他東西?如果從三到五年的角度來看,你對訓練與推理在計算需求上的比例有何看法?
黃仁勛:訓練已經從預訓練發展到了后訓練階段。
預訓練的本質是記憶和泛化。你記憶得越多,泛化能力就越強,你擁有的基礎就越好。有了這個基礎,也就是預訓練模型,它有點像AI的幼兒園,或者更準確地說,是AI的高中,它掌握了基本的詞匯、語法,甚至隱含了很多推理能力。這樣當我教它新技能時,它才能理解我在說什么。如果你連我的意思都聽不懂,怎么可能去執行任務?所以預訓練做的就是這件事。
后訓練則是教模型各種各樣的技能:強化學習、帶可執行基礎的強化學習、帶可驗證反饋的強化學習、面向批處理的強化學習技術、工具使用,無論是基于結構的API,還是非結構化的工具使用。領域太多了。這部分的計算強度,我猜可能比預訓練大一百萬倍。我可能差個1.2倍,但肯定是非常大的量級。原因是有太多技能需要學習,而所有這些技能的學習周期都非常非常長。所以模型必須變得越來越大。當你把這些技能都掌握之后,你生成的大量合成數據,其中一部分又會回流到下一輪的預訓練中。
因此,過去的預訓練皆以互聯網數據為起點,當下的預訓練依然以此為主力。但假以時日,再歷經幾代迭代,合成數據將全面接管預訓練的半壁江山。同時,你還在增加多模態能力,增加運動能力,讓模型能夠在物理世界中長時間執行動作。因為有很多常識是與認知邏輯相關的,如果你能在物理世界中互動,即使在抽象世界中,你也能更容易地處理那個概念,因為你擁有了在物理世界中接地的經驗。
請注意我剛才描述的計算量。我們未來所需的訓練計算量是百萬倍、十億倍級別的,再加上持續學習。幾乎每個人的模型都會被最后訓練、被微調,以便它也能為每個人做記憶和泛化。所以在未來,推理從哪里開始、從哪里結束,訓練從哪里開始、從哪里結束,會變得越來越模糊。你什么時候在學習,什么時候在應用你的智慧?對大多數人來說,現在是持續不斷的。
至于推理與訓練的比例,我的希望是:世界上99%的計算都用于推理。因為推理環節,才是我們將生成的Token兌現為真金白銀的變現場。世界上沒人會為你的學習過程買單,也沒人會替你的訓練成本掏錢,你必須自掏腰包搞訓練,而真正能榨出商業價值的,唯有推理。我希望這個世界能夠把這些Token用于有價值的成果:醫療保健、制造業、金融服務、工程等等。我們希望未來99%的Token都用于產生經濟效益,而AI模型則在不斷學習。
有一個很好的理由可以解釋為什么Nvidia去年全力以赴投入推理,因為我們看到了這個未來:推理和訓練、預訓練和學習,所有這些都只是一個大的連續統一體。不妨回味一下兩年前坊間流傳的論調:“英偉達確實擅長訓練,但推理簡直是小菜一碟,阿貓阿狗的公司都能做。”諸位還記得嗎?時至今日,真相大白,推理簡直難如登天。端詳一下這張圖表,它難到了極點,且未來將呈地獄級難度遞增。推理的本質就是深度思考、硬核工作、真刀真槍地干活。這種苦差事,怎么可能“容易”?
所以我認為人們完全把它搞反了,他們只是想編造故事來合理化他們自己的機會,這沒問題。但你得從第一性原理來推理。我花很長時間回答你們的問題,而不是用一個高度篩選、精心選擇、精準調整動詞和名詞的簡短回答,是因為我希望你們學會如何通過這些來推理。這樣當你們自己看到某些說法時,你會想“不,那沒道理”或者“那有道理”。因為你們是分析師,你們需要能夠理解這些事情。
——社群推薦——
與前沿大腦同步在線,讓思維時刻領先。
歡迎掃描下方二維碼,加入你的科技同行圈。
—— END ——
排版 | 北北 審核 | 北辰
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.