![]()
LexFridman采訪黃仁勛,值得仔細看
![]()
黃仁勛:芯片公司的時代已經結束了,現在是 AI 工廠的時代
來源: Founder Park
最擅長做深度訪談的 Lex Fridman 采訪黃仁勛,肯定是值得看的。
對談中,老黃聊了聊他對于現在整個 AI 行業邏輯的理解:AI 已經不是一種軟件功能了,更像是工業產品。同樣,OpenClaw 這類 Agent 不再是聊天工具,是一種持續運行的算力消耗。
NVIDIA 不只是單純的 GPU 芯片公司,更像在建造一種新型基礎設施:AI 工廠。原料是電力和數據,產出是 Token。
每一代 GPU 就是工廠里的新產線,算力即產能。
以下是對談的精華內容,為了方便閱讀,Founder Park 進行了微調。
TLDR:
每一代產品都必須同時推進所有維度,從芯片到機架,從軟件到散熱,極限協同設計意味著不能有任何短板;
公司架構應該反映你想要生產的產品,而不是照搬其他公司;
我的直屬匯報超過 60 人,沒有組織架構圖,沒有一對一會議,我們提出問題,所有人一起攻克。公司一直在做極限協同設計。
計算正在從檢索轉向生成,從倉庫轉向工廠。舊世界需要存儲,新世界需要算力,token 開始像 iPhone 一樣細分市場。
AI 訓練的瓶頸已經不是數據,是算力。推理的本質是思考,但思考是困難的。
OpenClaw 對智能體系統的意義,就像 ChatGPT 對生成式系統的意義一樣。這是一件非常重大的事情。
市場規模決定了研發能力,研發能力決定了在計算領域可能產生的影響力。專業化與通用化之間存在根本張力,NVIDIA 必須找到那條極窄的路;
計算平臺完全取決于開發者,開發者不會僅僅因為它可以執行一些有趣的功能就來到一個計算平臺。安裝基數定義了架構,其他一切都是次要的,NVIDIA 最重要的護城河是 CUDA 的安裝基數;
光速是我對物理能做什么的極限是什么的簡寫,我們做的每一件事都要與光速進行比較,內存速度、數學速度、功率、成本、時間、努力、人數、制造周期時間。
Lex:你概括了四個擴展定律:Pre-training Scaling Law、Post-training、Test-time Scaling、Agentic Scaling Law。繼續擴展下去,你最擔心的障礙是什么?
Jensen:我們可以回顧一下人們曾經認為的障礙是什么。一開始,我們是第一批遇到 Pre-training Scaling Law 的。人們理所當然地認為,我們擁有的高質量數據將限制我們能達到的智能水平。這個擴展定律非常重要:模型越大,對應更多的數據,就能產生更智能的 AI。這就是預訓練。
然后 Ilya Sutskever 說了一句"我們的數據用完了",或者類似的話。"預訓練結束了",類似這樣。整個行業陷入恐慌,認為這是 AI 的終結。當然,這顯然不是真的。我們會繼續擴展用于訓練的數據量。很多數據可能會是合成的,這也讓大家困惑。
人們沒有意識到的是,我們用來相互教學、相互告知的大部分數據本來就是合成的。它是合成的,因為它不來自自然。你創造了它。我消費它。我修改它、增強它、重新生成它,別人再來消費它。
Lex:所以合成數據本身并不是什么新事物?
Jensen:我們現在達到了 AI 能夠獲取基本事實、增強它、強化它、合成生成大量數據的水平。Post-training 的這一部分繼續擴展。人類生成的數據在訓練中占比會越來越小,我們用于訓練模型的數據總量將繼續增長,直到我們不再受限于數據,訓練的瓶頸變成了算力,原因正是大部分數據是合成的。
然后是下一階段:Test-time Scaling。我還記得人們告訴我:"推理?哦,那很容易。預訓練,那才難。"他們認為推理芯片會是小小的芯片,不像 NVIDIA 的芯片。將來推理會是最大的市場,而且會很容易,我們會將其商品化,人人都能造自己的芯片。
這對我來說從來就是不合邏輯的,因為推理就是思考,而我認為思考是困難的。
Lex:為什么你認為思考比預訓練難?
Jensen:思考比閱讀難得多。預訓練只是記憶和泛化,在關系中尋找模式,你在不停地讀、讀、讀。而思考、推理、解決問題,是在處理未經探索的體驗、新體驗,把它們分解成可解決的部分,然后通過第一性原理推理,或者通過先前的例子、過往經驗,或者干脆探索、搜索、嘗試不同的事情。
Test-time Scaling 的整個過程,說白了就是關于思考,關于推理、規劃、搜索。這怎么可能是輕量級的計算呢?我們對此的判斷是完全正確的,Test-time Scaling 是極其計算密集型的。
Lex:那超越 Test-time Scaling 之后是什么?
Jensen:顯然,我們現在創建了一個智能體,這個智能體有我們開發的大型語言模型。但在測試時,這個智能體系統會去做研究,敲打數據庫,使用工具,而它做的最重要的事情之一是衍生出一大堆子智能體。
這意味著我們現在正在創建大型團隊。通過雇用更多員工來擴展 NVIDIA,比擴展我自己容易得多。所以下一個擴展定律是 Agentic Scaling Law,這就像 AI 的「乘法」。我們可以隨心所欲地快速衍生智能體。所以我有四個 Scaling Law。
當我們使用智能體系統時,它們會創造更多數據、更多體驗。其中一些我們會說:"哇,這真的很好,我們應該記住這個。"那個數據集會一路回到預訓練。我們記憶并泛化它,然后將其精煉、微調回到后訓練,再通過測試時計算和智能體系統進一步增強,推向行業。這個循環會不斷持續。歸根結底,智能的擴展取決于一件事,那就是算力。
Lex:但硬件架構無法快速轉向,你必須提前預測 AI 會往哪里走,比如混合專家模型,這件事實在太難了。
Jensen:這些 AI 模型架構大約每六個月就會出現新的發明,而系統架構和硬件架構大約每三年一次。所以你需要預測兩三年后可能發生什么。
有幾種方法可以做到。首先,我們可以在內部做研究,這也是我們有基礎研究和應用研究的原因之一。我們自己創建模型,所以我們有第一手的實踐經驗。這就是我所說的協同設計的一部分。另外,我們也是世界上唯一一家與全球幾乎所有 AI 公司都合作的 AI 公司。在可能的范圍內,我們會了解人們正在遭遇什么挑戰。
Lex:所以你在傾聽整個行業、各大 AI 實驗室的竊竊私語。
Jensen:沒錯。你必須傾聽并向所有人學習。然后最后一點是要有一個靈活的架構,能夠適應并隨風而動。CUDA 的好處之一就是,它一方面是一個令人難以置信的加速器,另一方面又真的非常靈活。這種專業化與通用化之間的極致平衡,必須足夠專業,否則我們無法加速 CPU;又必須足夠通用,才能適應不斷變化的算法,這非常關鍵。這就是為什么 CUDA 一方面如此有韌性,而我們又在不斷增強它。我們現在已經到了 CUDA 13.2,以如此快的速度演進架構,才能跟上現代算法的步伐。
舉個例子,當混合專家模型出現時,這就是為什么我們有了 NVLink 72 而不是 NVLink 8 的原因。我們現在可以把一個完整的四萬億、十萬億參數的模型放在一個計算域中,就好像它運行在一個 GPU 上一樣。
如果你看 Grace Blackwell 機架的架構,它完全專注于做一件事,處理大語言模型。然后一年后,你看到的是 Vera Rubin 機架:它有存儲加速器,有全新的 CPU Vera,有 Vera Rubin 和 NVLink 72 來運行大語言模型,還有一個新的附加機架 Rock。這整個機架系統與之前的完全不同,多了所有這些新組件。原因是上一代是為運行混合專家大語言模型推理而設計的,而這一代是為運行智能體而設計的,智能體需要調用工具。
Lex:這些系統的設計,顯然必須在 OpenClaw 出現之前就完成了。你是怎么預判到這一切的?
Jensen:不,比那簡單。你只需要推理。不管發生什么,在某個時刻,為了讓大語言模型成為一個數字工作者。假設我們希望大語言模型成為一個數字工作者。它必須做什么?它必須訪問真實數據,那就是我們的文件系統。它必須能夠做研究,它不可能知道所有事情。我也不想等到這個 AI 對過去、現在和未來的一切都變得普遍聰明之后才讓它有用,所以不妨讓它去做研究。顯然,如果它要幫助我,它必須使用我的工具。
有人會說:"AI 將完全摧毀軟件,我們不再需要軟件了,甚至不再需要工具了。"這太荒謬了。做個思想實驗就能看清楚:如果我要創造未來十年能想象到的最驚人的智能體,假設是一個人形機器人。這個人形機器人,是更可能走進我的房子、使用我現有的工具完成工作?還是這只手一瞬間變成 10 磅重的錘子,下一瞬間變成手術刀,為了燒水從手指射出微波?還是它更可能就是使用微波爐?
第一次走到微波爐前,它可能不知道怎么用。但沒關系,它連上了網,讀微波爐的說明書,讀完立刻成為專家,然后就用它。
Lex:你剛才描述的其實就是 OpenClaw 的幾乎所有屬性。
Jensen:是的。它會使用工具,訪問文件,能夠做研究,有 I/O 子系統。當你用這種方式推理完之后,你會說:"天哪,對計算未來的影響是極其深遠的。"原因是,我認為我們剛剛重新發明了計算機。
如果你看我在 GTC 上使用的 OpenClaw 示意圖,你會發現它是兩年前的。就在兩年前的 GTC 上,我就在談論智能體系統,它與今天的 OpenClaw 完全一致。當然,許多事情的匯合必須先發生,我們需要 Claude、GPT 以及所有這些模型達到一定的能力水平,他們的創新和持續進步至關重要。然后,必須有人創建一個足夠強大、足夠完整的開源項目,讓我們所有人都能投入使用。我認為 OpenClaw 對智能體系統的意義,就像ChatGPT對生成式系統的意義一樣。這是一件非常重大的事情。
Lex:是的,這是一個非常特殊的時刻。我不太確定為什么它吸引了如此多的世界關注,但確實如此。
Jensen:因為消費者可以接觸到它了。
Lex:這么強大的技術,安全邊界在哪里,我們還在摸索怎么找到那個平衡點。
Jensen:是的,我們立刻就參與進去了,派了一批安全專家。我們做了一個叫 OpenShell 的東西,已經被集成到 OpenClaw 中了。NVIDIA 還推出了 NemoClaw。
我們給你三項權限中的兩項。智能體系統可以訪問敏感信息、可以執行代碼、可以進行外部通信。如果我們在任何時候給你這三項能力中的兩項而不是全部三項,我們就能保持安全。在這兩項能力中,我們還根據企業給你的權限提供訪問控制。然后我們將其連接到所有這些企業已有的策略引擎。所以我們將盡力幫助 OpenClaw 更好。
02計算機從存儲倉庫變成了收入工廠,每一個 Token 都有價值
Lex:如果 NVIDIA 有一天真的價值 10 萬億美元,那個世界是什么樣子的?
Jensen:我認為 NVIDIA 的增長極有可能,在我看來,是不可避免的。讓我解釋為什么。我們是歷史上最大的計算機公司。僅這一點就應該引出問題,為什么?
原因當然是兩個基礎技術原因。第一個原因是計算從基于檢索的文件檢索系統轉變了。幾乎所有東西都是文件,我們預先寫一些東西,我們預先記錄一些東西。你知道,我們畫一些東西,我們把它放在網上,我們把它放在文件中。我們使用推薦系統,一些智能過濾器,來找出為你檢索什么。
Lex:所以從檢索到生成?
Jensen:我們從基于檢索的計算系統轉向了基于生成的計算系統。我們在這個新世界中需要比舊世界多得多的處理。我們在舊世界需要大量存儲。我們在這個新世界需要大量計算。
所以這是第一部分。我們從根本上改變了計算和計算的完成方式。唯一會導致它倒退的是,如果這種計算方式,這種生成上下文相關、情境感知、在生成信息之前基于新見解的信息的計算密集型計算方式,只有在它無效時才會倒退。
第二個想法是,計算機,因為它是一個存儲系統,它主要是一個倉庫。我們現在正在建造工廠。倉庫賺不了多少錢。工廠直接與公司的收入相關。
所以,計算機做了兩件事。它不僅改變了它的做法,它在世界上的目的也改變了。它不再是計算機,它是工廠。它是工廠,用于產生收入。
Lex:Token 作為產品?
Jensen:我們現在看到這個工廠不僅在生產產品、人們想要消費的商品,我們看到這些商品如此有趣、如此有價值,對如此多不同的受眾來說,Token 開始像 iPhone 一樣細分。
你有免費 Token,你有高級 Token,中間還有幾種 Token。所以事實證明,智能是一個可擴展的產品。有極高智能的產品,用于專門事物的 Token,人們愿意付費。有人愿意為每百萬個 Token 支付 1000 美元的想法就在眼前。這不是是否的問題,只是何時的問題。
Lex:用一個可能荒謬的定義來問:能創辦并運營一家價值超 10 億美元科技公司的 AI,算 AGI 嗎?我們離這個還有多遠?
Jensen:我認為就是現在。我認為我們已經實現了 AGI。
Lex:你認為一家公司真的可以由這樣的 AI 系統運營嗎?
Jensen:可能的,原因是這樣的。你說了 10 億,但你沒說要永遠持續。比如說,一個 Claude 完全有可能創建一個網絡服務,某個有趣的小應用,突然之間幾十億人用了,每人付 50 美分,然后不久后它又倒閉了。我們在互聯網時代看到過很多這樣的公司,大多數那些網站并不比今天 OpenClaw 能生成的更復雜。
Lex:實現病毒式傳播并將其貨幣化。
Jensen:是的,這正在發生。當你去中國時,你會看到很多人在教他們的 OpenClaw 去找工作、做事、賺錢。我不會驚訝如果有人創造了一個數字網紅,超級可愛,或者某個社交應用,比如喂你的小電子寵物之類的,然后突然爆紅。很多人用幾個月然后就消失了。但是,10 萬個這樣的 Agent 建造 NVIDIA 的概率是零。
Lex:但這讓很多人興奮,想著"我可以啟動一個 Agent 然后賺很多錢"。
Jensen:我想確保大家都明白的一點是,人們真的很擔心他們的工作。我想提醒他們,你工作的目的和你用來做工作的任務和工具是相關的,但不是一回事。我做我的工作已經 33 年了,我是世界上任期最長的科技 CEO,34 年。在過去 34 年里,我用來做工作的工具一直在不斷變化,有時在幾年內變化相當劇烈。
Lex:你能舉個例子嗎?
Jensen:計算機科學家和 AI 研究人員說的第一個要消失的工作是放射科醫生。因為計算機視覺將達到超人水平,而且確實做到了。計算機視覺在 2019、2020 年左右就已經是超人水平了。所以預測是放射科醫生會消失,因為研究放射掃描將成為過去,AI 會做這個。
Lex:但結果呢?
Jensen:他們絕對是對的。計算機視覺完全是超人水平的。今天每個放射學平臺和軟件包都由 AI 驅動,然而放射科醫生的數量卻增長了。問題是為什么?我們現在世界上放射科醫生短缺。警告過頭了,嚇跑了人們從事這個對社會如此重要的職業。
Lex:為什么預測錯了?
Jensen:因為放射科醫生的目的是診斷疾病,幫助患者和醫生診斷疾病。因為我們現在能夠如此快速地研究掃描,你可以研究更多掃描,診斷得更好,可以更快地服務患者,可以看更多人。醫院賺更多錢,醫院有更多患者,需要更多放射科醫生。這是如此明顯會發生的事情。
Lex:你認為編程人員的數量可能會增加而不是減少嗎?
Jensen:是的。原因是這樣的。編碼的定義是什么?我認為今天編碼的定義就是規范說明,也許如果你想更直接一點,你甚至可以給它一個你想要編寫的軟件的架構。所以問題是,有多少人能做到這一點?描述一個規范讓計算機去構建。多少人?我認為我們剛從 3000 萬增加到可能 10 億。
Lex:所以每個職業都會被提升?
Jensen:未來每個木匠都將是一個編碼員,只不過有 AI 的木匠也是一個建筑師。他們剛剛大大提高了可以為客戶提供的價值。他們的藝術性剛剛得到了巨大的提升。我相信每個會計師也是你的財務分析師,也是你的財務顧問。所有這些職業都剛剛被提升了。如果我是木匠,我看到 AI,我會完全瘋狂的。如果我是水管工,也會完全瘋狂。
Lex:對于目前的程序員和軟件工程師呢?
Jensen:我認為他們處于理解如何使用自然語言與 Agent 溝通以設計最佳軟件的前沿。隨著時間的推移,他們會融合,但我仍然認為學習編程有價值,學習什么是編程語言,什么是編程語言的良好實踐,什么是大型軟件系統的編程語言設計原則。
Lex:為什么學編程仍然重要?
Jensen:編寫規范就是編碼。所以你可能會決定相當規范,因為你在尋找一個非常具體的結果。你可能會決定這是一個你想要更具探索性的領域,所以你可能會規定不足,讓你能夠與 AI 來回交流,甚至推動你自己的創造力邊界。這種在光譜中的位置的藝術性,這就是編碼的未來。
Lex:回到 AGI 的問題,你說"我認為就是現在,我認為我們已經實現了 AGI"。這是一個相當大膽的聲明。你能詳細解釋一下嗎?
Jensen:讓我們從根本上分解什么是智能。智能這個詞,我們一直在使用,它不是一個神秘的詞。智能有含義,它是一個包括感知、理解、推理和計劃能力的系統,這個循環就是智能。智能不是一個完全等同于人性的詞。
Lex:所以你在區分智能和人性?
Jensen:我認為這真的很重要。我們有兩個詞。我不會過度幻想,也不會過度浪漫化智能。實際上我認為智能是一種商品。我被聰明人包圍著。我被比我更聰明的人包圍著,在他們各自的領域。然而,我在那個圈子里有一個角色。這實際上很有趣。
Lex:你是說盡管被更聰明的人包圍,你仍然能協調他們?
Jensen:他們比我受過更好的教育。他們上了比我更好的學校。他們在各自的領域都比我更深入。我有 60 個這樣的人。他們對我來說都是超人。不知何故,我坐在中間協調所有 60 個人。所以你得問自己,一個洗碗工怎么能坐在超人中間?這說得通嗎?
Lex:所以智能不是一切?
Jensen:我的觀點是智能是一個功能性的東西。人性不是功能性地定義的。它是一個更大得多的詞。我們的生活經歷、我們對痛苦的忍耐、我們的決心,這些都是與智能不同的詞。
Lex:那么什么才是真正重要的?
Jensen:我們真正應該提升的詞是人性。品格、人性、同情心、慷慨。所有你剛才說的這些東西,我相信這些是超人的力量。現在智能將被商品化。不幸的是,我們的社會把一切都放進了一個詞里,而生活不止一個詞。
Lex:所以當智能被民主化和商品化時,不要讓它引起你的焦慮?
Jensen:我的生活表明,在智能曲線上比我周圍的每個人都低,并不會改變我是最成功的這個事實。我試圖希望激勵其他所有人,不要讓智能的民主化、商品化引起你的焦慮。你應該受到它的啟發。
03極限協同設計,
每一代產品都必須同時推進所有維度
Lex:NVIDIA 已經從做最好的GPU,擴展到了整個系統的極限協同設計——GPU、CPU、內存、網絡、散熱、機架,甚至整個數據中心。協同設計這么復雜的系統,最難的部分是什么?
Jensen:首先,極限協同設計之所以必要,是因為問題已經無法裝進一臺計算機里由一個GPU來加速了。你想要解決的問題是,你添加了比如說 10,000 臺計算機,但你希望速度提升一百萬倍。
突然之間,你必須分解算法,你必須重構它,你必須分片管道(shard the pipeline),必須分片數據,必須分片模型。當你以這種方式分布問題時,不僅僅是擴展問題規模,而是在分布問題本身,那么一切都會成為障礙。
Lex:這就是阿姆達爾定律(Amdahl's Law)的問題吧?
Jensen:沒錯。阿姆達爾定律告訴我們,你能獲得的加速取決于這部分占總工作量的比例。如果計算只占問題的 50%,即使我把計算加速無限倍,比如一百萬倍,我也只能把總工作量加速兩倍。
現在突然之間,你不僅要分布計算,還要以某種方式分片管道。你還必須解決網絡問題,因為所有這些計算機都連接在一起。所以在我們這種規模的分布式計算中,CPU 是問題,GPU是問題,網絡是問題,交換是問題。在所有這些計算機之間分配工作負載也是問題。這就是一個極其復雜的計算機科學問題。所以我們必須調動每一項技術。
Lex:你在每個領域都有世界級專家,內存、網絡、光學、散熱……這些學科差異極大,你怎么讓他們坐在一起協同解決問題?
Jensen:這就是為什么我的直屬團隊如此龐大。
Lex:當你知道要把這一切塞進一個機架時,專家和通才具體是怎么協作的?
Jensen:有三個問題。第一個問題是:什么是極限協同設計?我們在整個軟件棧上進行優化,從架構到芯片,到系統,到系統軟件,到算法,到應用程序。這是一層。
第二件事超越了 CPU 和 GPU、網絡芯片、擴展交換機和橫向擴展交換機。當然,你還必須包括電源和散熱,因為所有這些計算機都極其耗電。它們做大量工作,能源效率很高,但總體上仍然消耗大量電力。
第三個問題是,你如何做到這一點?這有點像這家公司的奇跡。當你設計計算機時,你需要有計算機的操作系統。當你設計公司時,你應該首先考慮你希望公司生產什么。
Lex:詳細說說嗎?
Jensen:我看到很多公司的組織架構圖,它們看起來都一樣。漢堡公司的組織架構圖、軟件公司的組織架構圖、汽車公司的組織架構圖,它們看起來都一樣。這對我來說毫無意義。
公司的目標應該是成為生產產品的機器、機制和系統。那個產出就是我們想要創造的產品。公司的架構設計應該反映它所處的環境,這幾乎間接告訴你應該如何組織。
我的直屬團隊有 60 個人。我不和他們做一對一會議,因為那是不可能的。如果你的團隊有 60 個人,還要做一對一,你就無法完成工作。
Lex:所以你有 60 個人直接匯報?而且大多數至少在工程方面有涉足?
Jensen:幾乎所有人都是。有內存專家,有 CPU 專家,有光學專家。GPU、架構、算法、設計……
Lex:太不可思議了。所以你一直在關注整個技術棧,并且在進行關于整個棧設計的深入討論?
Jensen:沒有任何對話是一個人的事。這就是為什么我不做一對一會議。我們提出一個問題,然后所有人一起攻克它。因為我們在做極限協同設計。從字面上講,公司一直在做極限協同設計。
Lex:所以即使你在討論特定組件,比如散熱、網絡,每個人都在聽?
Jensen:沒錯。
Lex:他們可以貢獻意見,"這對電源分配不起作用,這對內存不起作用"?
Jensen:正是如此。誰想退出就退出。團隊里的人知道什么時候該注意。如果有他們本可以貢獻但沒有貢獻的東西,我會叫他們出來。"嘿,來吧,參與進來。"
Lex:NVIDIA 是一家適應環境的公司。NVIDIA 從游戲GPU一路適應到深度學習,再到現在的 AI 工廠。這個轉變是從什么時候開始的?
Jensen:我可以系統地推理這個過程。我們最初是一家加速器公司。但加速器的問題是應用領域太狹窄。它的好處是對特定工作進行了難以置信的優化。任何專家都有這個好處。
但高度專業化的問題是,當然,你的市場覆蓋面更窄,但這甚至都還好。問題是,市場規模也決定了你的研發能力。而你的研發能力最終決定了你在計算領域可能產生的影響力。
所以,當我們最初作為加速器,非常特定的加速器時,我們始終知道那將是我們的第一步。我們必須找到一種方法成為加速計算公司。但問題是,當你成為一家計算公司時,它太通用了,會削弱你的專業化。
我連接了兩個實際上存在根本張力的詞。我們越成為更好的計算公司,作為專家就越糟糕。越專業化,我們做整體計算的能力就越少。我故意把這兩個詞連在一起,公司必須找到那條非常狹窄的道路,一步一步地擴大我們的計算孔徑,但不放棄我們擁有的最重要的專業化。
Lex:這種組織結構如何幫助極限協同設計?
Jensen:我們把需要不同專業知識的人聚在一起。比如內存專家、CPU 專家、光學專家、GPU 專家、架構師、算法專家、設計師,所有人都在同一個房間里。
當我們討論一個問題時,所有相關的人都在場。這不是串行的決策過程,而是并行的。散熱專家可能會對網絡設計提出意見,網絡專家可能會對內存架構有想法。這種交叉授粉是極限協同設計的核心。
Lex:這與傳統的層級組織結構完全不同。
Jensen:完全不同。我們沒有組織架構圖。我們的組織反映了我們想要構建的產品,一個高度集成、相互依賴的系統。就像我們的產品需要所有組件協同工作一樣,我們的團隊也需要這樣工作。
這也是為什么我花大量時間在團隊面前推理。每次會議都是推理會議。我在公司內外的每一刻都在盡快向人們傳遞知識。我學到的任何東西都不會在我桌上停留超過幾分之一秒。"天哪,這太酷了。"在我自己還沒完全學完之前,我已經在指給別人看了。"快看這個。這太酷了。你會想要學習這個的。"
04安裝基數定義架構其他都是次要的
Lex:能說說把 CUDA 放在 GeForce 上的決定嗎?明明負擔不起,為什么還是選擇這么做?
Jensen:那是第一個接近生存威脅的戰略決定。我們發明了 CUDA,它擴大了我們可以用加速器加速的應用范圍。問題是,我們如何吸引開發者使用 CUDA?因為計算平臺完全取決于開發者。
開發者不會僅僅因為它可以執行一些有趣的功能就來到一個計算平臺,他們來到計算平臺是因為安裝基數很大。因為開發者像其他人一樣,希望開發能觸及很多人的軟件。所以安裝基數實際上是架構最重要的部分。
Lex:安裝基數就是一切。
Jensen:安裝基數定義了架構,其他一切都是次要的。到那個時候,GeForce 已經很成功了。我們每年銷售數百萬個 GeForce GPU,我們說,"我們應該把 CUDA 放在 GeForce 上,把它放進每臺 PC 里,不管客戶是否使用它,并以此作為培養安裝基數的起點。"
問題是 CUDA 大大增加了那個 GPU 的成本,這是一個消費產品,它完全消耗了公司所有的毛利潤。當時公司大概價值 80 億美元左右。在我們推出 CUDA 后,我意識到它會增加這么多成本,但這是我們相信的東西。我們的市值降到了大約 15 億美元。我們在那里待了一段時間,然后慢慢爬回來,但我們在 GeForce 上保留了 CUDA。
我總是說,NVIDIA 是 GeForce 建造的房子,因為是 GeForce 把 CUDA 帶給了每個人。
Lex:那個生存時刻,你還記得嗎?內部的討論是什么樣的?
Jensen:我必須向董事會說明我們在嘗試做什么,管理團隊知道我們的毛利率會被壓垮。你可以想象一個世界,GeForce 承擔 CUDA 的負擔,而游戲玩家都不會欣賞它,也不會為此付費。
我們的成本增加了 50%,而我們是一家 35% 毛利率的公司,所以這是一個相當困難的決定。但你可以想象有一天這會進入工作站和超級計算機,在那些細分市場,也許我們可以獲得更多利潤。但這仍然花了十年時間。
Lex:NVIDIA 現在是世界上最有價值的公司。我必須問,NVIDIA 最大的護城河是什么?
Jensen:我們作為一家公司最重要的財產是我們計算平臺的安裝基數。我們今天最重要的東西是 CUDA 的安裝基數。
20 年前,當然沒有安裝基數。但如果現在有人想出一個 GUDA 或 TUDA,根本不會有任何區別。原因是這從來不只是關于技術。技術當然是令人難以置信的有遠見的。但事實是公司致力于此,堅持下去,擴大了它的覆蓋范圍。
不是三個人讓 CUDA 成功,是 43,000 人讓 CUDA 成功。還有幾百萬相信我們的開發者,相信我們會繼續開發 CUDA 1、2、3、13,他們決定在上面移植和專注他們的軟件,他們在上面的大量軟件。
所以安裝基數是第一重要的優勢。當你用我們執行的速度放大這個安裝基數,在我們談論的規模上,歷史上沒有任何公司建造過這種復雜性的系統。每年建造一次是不可能的。
Lex:這種速度和安裝基數的結合產生了什么效果?
Jensen:從開發者的角度來看,如果我支持 CUDA,明天它會好 10 倍。我只需要平均等待六個月。不僅如此,如果我在 CUDA 上開發,我能觸及幾億人、計算機。我在每個云中,我在每個計算機公司,我在每個行業,我在每個國家。
所以如果我創建一個開源包并首先把它放在 CUDA 上,我同時獲得這兩個屬性。不僅如此,我 100% 相信 NVIDIA 會保留 CUDA 并維護它、改進它,只要他們還活著就會繼續優化庫。你可以把這個存入銀行,最后一部分,信任。
Lex:這種信任是如何建立的?
Jensen:把所有這些放在一起,如果我今天是一個開發者,我會首先瞄準 CUDA。我會最多地瞄準 CUDA。這就是我認為最終分析中我們的第一個核心優勢。
我們的第二個是我們的生態系統。我們垂直集成了這個極其復雜的系統,但我們將它水平集成到每一家公司的計算機中。
Lex:具體來說呢?
Jensen:我們在 Google Cloud,我們在 Amazon,我們在 Azure。我們現在正在瘋狂地擴大 AWS。我們在像 CoreWeave 和 Nscale 這樣的新公司。我們在 Lilly 的超級計算機中。我們在企業計算機中。我們在邊緣的無線基站中。這太瘋狂了,一個架構在所有這些不同的系統中。
我們在汽車中,我們在機器人中,我們在衛星中,我們在太空中。所以你有這一個架構,生態系統如此廣泛,它基本上涵蓋了世界上的每一個行業。
Lex:CUDA 安裝基數如何演變成未來的 AI 工廠作為護城河?你認為未來的 NVIDIA 可能完全是關于 AI 工廠嗎?
Jensen:計算單元對我們來說曾經是GPU,然后它變成了一臺計算機,然后變成了一個集群。現在是整個 AI 工廠。
當我看到一臺計算機,當我看到 NVIDIA 構建的東西時,在過去,我會可視化芯片。然后當我宣布新產品、新一代時,比如"女士們先生們,我們今天宣布 Ampere",我會拿起芯片。那是我的心智模型。
Lex:但現在不同了?
Jensen:今天,拿起芯片仍然很可愛。但它很可愛。這不是我在做什么的心智模型。我的心智模型是這個巨大的吉瓦級的東西,它有連接到電網的發電裝置。它有難以置信的巨大的冷卻系統和網絡。
10,000 人在那里試圖安裝它,數百名網絡工程師在那里,數千名工程師在后面試圖給它供電。你知道,啟動這些工廠之一,如你所知,不是某人說"現在開了"。需要數千人來啟動它。
05當你設計一家公司時,首先要考慮你希望公司生產什么
Lex:你高度贊揚了 Elon 和 xAI 在孟菲斯的成就,Elon 四個月在孟菲斯建成了 Colossus,現在已經有 20 萬個GPU。他的工程方法里,是什么讓這件事成為可能?
Jensen:首先,Elon 在許多不同的主題上都很深入。但他也是一個真正優秀的系統思考者。所以他能夠跨多個學科思考,而且他顯然會推動事情,質疑一切。
第一,這是必要的嗎?第二,必須這樣做嗎?然后,必須花這么長時間嗎?他有能力質疑一切,直到一切都減少到必要的最小量,你不能再拿走任何東西。然而產品的必要能力仍然存在。他是你能想象到的最極簡主義者,而且他在系統規模上做到這一點。
Lex:他具體是怎么做的?
Jensen:我也喜歡他出現在行動點的事實。如果有問題,他會直接去那里。"給我看看問題。"當你把所有這些結合起來時,你就克服了很多以前的"這就是我們的做法"、"我在等他們"之類的借口。每個人都有很多借口。
然后最后一點是,當你個人表現出如此緊迫感時,它會讓其他人也產生緊迫感。每個供應商都有很多客戶,每個供應商都有很多項目在進行,而他讓自己成為其他人所有項目的最高優先級。他通過展示這一點來做到這一點。
Lex:是的,我參加過很多那樣的會議。看起來很有趣,因為真的,沒有足夠的人問這樣的問題:"好吧,這能做得快很多嗎?怎么做?為什么必須花這么長時間?"
Jensen:對。而且這往往變成一個工程問題。我記得有一次和他在一起時,他真的在經歷將電纜插入機架的整個過程。他正在與一位在地面上執行該任務的工程師合作,他只是試圖了解這個過程是什么樣的,以便減少錯誤。
從組裝數據中心涉及的每項任務中建立直覺,你立即開始在詳細尺度和廣泛系統尺度上感知到效率低下的地方,因此你可以使其越來越高效。另外,你還有能夠說"讓我們完全不同地做"的大錘。
Lex:在 NVIDIA 極限系統協同設計方法中,你是否看到了 Elon 處理系統工程的方式的相似之處?
Jensen:首先,協同設計是終極的系統工程問題。我們從這個角度來處理我們的工作。
我做的另一件事,這是一種哲學、思想、心態,我想是一種方法,我 30 年前就開始了,它叫做光速(speed of light)。
Lex:能詳細解釋一下"光速"哲學嗎?
Jensen:光速不僅僅是關于速度。光速是我對"物理能做什么的極限是什么"的簡寫。我們做的每一件事都要與光速進行比較,內存速度、數學速度、功率、成本、時間、努力、人數、制造周期時間。
當你考慮延遲與吞吐量、成本與吞吐量、成本與容量時,所有這些東西,你都要針對光速進行測試,以分別實現所有這些不同的約束。然后當你把它們放在一起考慮時,你知道必須做出妥協,因為實現極低延遲的系統與實現非常高吞吐量的系統在架構上是根本不同的。
但你想知道實現高吞吐量的系統的光速是什么,實現低延遲的系統的光速是什么。然后當你考慮整個系統時,你可以做出權衡。
Lex:這與持續改進的方法有什么不同?
Jensen:我不喜歡其他方法,就是持續改進。持續改進的問題是,首先,你應該從第一性原理設計一些東西,用光速思維。
只受物理極限的限制。在那之后,當然你會隨著時間的推移改進它。但我不喜歡進入一個問題時有人說,"嘿,今天做這件事需要 74 天,我們可以為你在 72 天內完成。"
我寧愿把一切都剝離回零,然后說,"首先,向我解釋為什么是 74 天。讓我們想想今天什么是可能的。如果我要從頭開始完全構建它,需要多長時間?" 通常,你會驚訝地發現可能只需要 6 天。
現在,從 6 天到 74 天的其余部分,可能都有很好的理由和妥協,成本降低,以及各種不同的事情。但至少你知道它們是什么。現在你知道 6 天是可能的,那么從 74 天到 6 天的對話就會有效得多。
Lex:Vera Rubin pod 有 7 種芯片類型、40 個機架、近 2 萬個 NVIDIA 芯片……復雜到這種程度,簡單性還是你在設計時追求的目標嗎?
Jensen:那只是一個 pod。我們可能每周要生產大約 200 個這樣的 pod,只是讓你有個概念。
Lex:有這么多不同的組件,我想簡單性是不可能的,但這是你在設計時努力達到的指標嗎?
Jensen:我最常用的短語是,我們需要事物盡可能復雜,但盡可能簡單。所以問題是,所有那些復雜性都是必要的嗎?我們應該測試這一點。我們必須挑戰這一點。然后在那之后,其他一切都是多余的。
Lex:這仍然幾乎令人難以置信。半導體行業廣泛來說,但 NVIDIA 正在做的,是歷史上最偉大的工程之一。這些系統真的是工程奇跡。
Jensen:這是世界上制造過的最復雜的計算機。當你設計一家公司時,你應該首先考慮你希望公司生產什么。公司的目標是成為生產輸出的機械、機制和系統。那個輸出就是我們喜歡創造的產品。
06開源就是最快的創新放大器,中國比任何人都懂這一點
Lex:中國在過去十年建立了這么多世界級的科技公司和工程團隊。你怎么理解這件事是怎么發生的?
Jensen:有很多原因。首先,讓我們從一些事實開始。全世界 50% 的 AI 研究者是中國人,大概是這個比例,而且他們大多數仍在中國。我們這里有很多中國研究者,但中國仍有非常優秀的研究者。
他們的技術產業恰好在正確的時間出現。在移動云時代,他們的貢獻方式是軟件,所以這是一個在科學和數學方面非常出色的國家。孩子們受過良好教育。他們的技術產業是在軟件時代創建的。他們對現代軟件非常熟悉。
他們還有一種社會文化,家庭第一,朋友第二,公司第三。因此,他們之間的交流量非常大。他們本質上一直都是開源的。所以他們更多地貢獻給開源是非常合理的,因為他們會想,"我們在保護什么?"你知道,我的工程師,他們的兄弟在那家公司,他們的朋友在那家公司,他們都是校友。
Lex:所以知識共享是文化的一部分?
Jensen:校友的概念。有一個校友,你就是終身兄弟。所以他們分享知識非常、非常快。因此沒有必要隱藏技術。你還不如把它放在開源上。所以開源社區就會放大、加速創新過程。
你得到的是快速的、令人難以置信的優秀人才,由于開源和朋友的本質而產生的快速創新,以及公司之間的瘋狂競爭。出現的是令人難以置信的東西。所以這是當今世界上創新速度最快的國家。
Lex:而且從文化上來說,在中國做工程師是很酷的事情。聊聊開源,你提到了 DeepSeek 和 MiniMax 這些公司真的在推動開源 AI。NVIDIA 也在發布接近最先進水平的開源LLM。你對開源的愿景是什么?
Jensen:首先,如果我們要成為一家偉大的 AI 計算公司,我們必須了解 AI 模型是如何演進的。我喜歡 Nemotron 3 的一點是,它不只是一個純 transformer 模型,它是 transformer 和 SSM 的結合。我們很早就開發了條件 GAN,這些漸進式 GAN 一步步導向了擴散模型。
所以,我們在模型架構和不同領域進行基礎研究這一事實,讓我們能夠看到什么樣的計算系統會適合未來的模型。這是我們極限協同設計策略的一部分。
其次,我認為我們正確地認識到,一方面,我們想要世界級的模型作為產品,它們應該是專有的。另一方面,我們也希望 AI 擴散到每個行業、每個國家、每個研究者、每個學生。如果一切都是專有的,就很難進行研究,很難在上面、圍繞它、與它一起創新。
所以開源對于許多行業加入 AI 革命是根本必要的。NVIDIA 有規模,我們有動機不僅有技能、規模和動力來建立并繼續建立這些 AI 模型,只要我們還活著。
第三個原因是認識到AI 不僅僅是語言。這些 AI 可能會使用在其他信息模態上訓練的工具、模型和子 Agent。也許是生物學或化學,或者物理定律,或者流體和熱力學,并非所有這些都是語言結構。
所以必須有人去確保天氣預測、生物學 AI、物理 AI,所有這些東西都能被推到極限和前沿。
Lex:這對不同行業意味著什么?
Jensen:我們不制造汽車,但我們想確保每家汽車公司都能獲得優秀的模型。我們不發現藥物,但我想確保禮來公司擁有世界上最好的生物學 AI 系統,這樣他們就可以用它來發現藥物。
所以這三個基本原因,既認識到 AI 不僅僅是語言,AI 真的很廣泛,我們想讓每個人都參與到 AI 世界中,然后還有 AI 的協同設計。
Lex:我必須說,再次感謝你們開源,真正開源 Nemotron 3。
Jensen:是的,我很感激你這么說。我們開源了模型,我們開源了權重,我們開源了數據,我們開源了我們如何創建它。是的,這非常了不起。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.