網易首頁 > 網易號 > 正文申請入駐

AI芯片十年路線圖：英偉達和谷歌等聯手撰文

2026-03-23 09:55:49　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

近日，英偉達、谷歌和美國多家多學研究人員寫了一篇名為《10-Year Roadmap for AI + Hardware》的文章。在文章中，他們披露了包括芯片在內的AI硬件預期。

以下為文章正文：

人工智能 (AI) 和硬件 (HW) 正以前所未有的速度發展，但它們的軌跡已密不可分。大型 AI 模型和數據密集型應用的指數級增長對更強大、更高效的硬件加速提出了更高的要求，而從 GPU、FPGA 和 TPU 到新興的 NPU、模擬 AI 芯片、光子系統和神經形態處理器等專用計算平臺的突破，正在重新定義智能系統的極限。

這種良性循環正在改變計算格局，但也暴露出一個關鍵的差距：盡管兩者協同演進迅速，但全球研究界缺乏一個統一的、長遠的戰略愿景來協調 AI 和硬件的發展。今天的算法是圍繞昨天的系統設計的，而明天的芯片是針對今天的工作負載優化的。這種碎片化限制了構建能夠在云端、邊緣和物理環境中高效學習、推理和運行的整體性、可持續和自適應 AI 系統的進程。

與此同時，人工智能的能源消耗已達到環境和經濟上不可持續的水平。訓練一個前沿模型所需的能源相當于數百個家庭的用電量，而人工智能數據中心的電力需求也日益堪比國家。人工智能的未來不僅取決于智能規模的擴展，還取決于效率的擴展，即實現每焦耳智能的指數級增長——每焦耳智能指的是單位能量所能提供的有效能力、洞察力或任務性能，而非無限制的計算消耗。應對這一重大挑戰需要重新思考整個計算堆棧。

本愿景文件提出了一個涵蓋算法、架構、系統和可持續性的人工智能與硬件協同設計與開發的十年路線圖。我們闡述了圍繞能效、系統級集成和跨層優化重新定義規模擴展的關鍵見解。我們指出了關鍵挑戰和機遇，包括訓練與推理的鴻溝、基礎設施限制、異構集成以及公平獲取先進硬件。

我們探討了重要的未來發展趨勢，從以內存為中心和3D集成架構到自改進系統、去中心化人工智能代理以及新興計算范式。我們坦誠地評估了潛在的障礙和陷阱，包括研究孤立、資源不均以及過度依賴硬件優勢，并提出了基于算法創新、硬件進步和軟件抽象的集成解決方案。

展望未來，我們對未來十年的成功做出如下定義：人工智能訓練和推理效率提升1000倍；構建節能、自優化的系統，實現云端、邊緣和物理人工智能的無縫銜接；普及先進的人工智能基礎設施；并將以人為本的原則融入智能系統的設計。

最后，我們為學術界、產業界、政府和更廣泛的社會群體制定了具體的行動方案，呼吁開展協調一致的國家級舉措，共享基礎設施，培養人才，加強跨部門合作，并建立持續的公私合作伙伴關系，以確保人工智能與硬件協同設計成為一項統一的長期使命。

文章內容總結

（1）重塑計算和人工智能基礎，實現1000倍效率提升

要實現人工智能訓練和推理效率提升1000倍，需要人工智能模型和硬件架構之間的深度協同創新。大型模型的快速增長使得數據傳輸成為主要瓶頸，其速度超過了計算、內存和互連技術的進步。應對這一挑戰需要轉向內存沉浸式計算，通過計算和內存的密集三維集成來實現超高帶寬和低能耗。同時，開發低復雜度但高質量的人工智能模型，包括混合模型、香農啟發式模型、神經啟發式模型、近似模型和概率模型，對于在不犧牲精度的前提下降低計算和內存需求至關重要。硬件感知模型還必須通過冗余減少、低秩低精度訓練和高效的測試時擴展等技術來進一步適應系統約束。結合跨層優化和透明的、與硬件無關的基準測試框架，模型、編譯器、運行時、庫、架構和設備的緊密協同演進可以帶來未來的人工智能系統，最大限度地提高每焦耳的智能，并開啟可持續人工智能計算的新時代。

（2）革新設計生產力和適應性

人工智能創新的速度如今已遠遠超過硬件和系統設計的速度。彌合這一差距需要將人工智能融入到開發的每個階段，構建人工智能在環設計工作流程。開放數據集和標準化基準對于電子設計自動化 (EDA) 的透明度、可復現性和進步至關重要。通過利用專門的大型和小型語言模型，實現細粒度的任務-智能體對齊，可以自動化并加速設計子任務，同時提升智能效率。結合上下文工程技術，這些進步將催生出人工智能原生設計方法，將技術、架構和算法統一到一個連貫、自適應的協同設計生態系統中。

（3）構建可靠且值得信賴的人工智能系統

隨著人工智能的普及，可靠性和可信度必須通過權衡準確性、魯棒性和效率（包括復雜性、能耗和延遲）來理解。魯棒性必須涵蓋模型和硬件，這就需要設計方法明確地管理這些權衡，并為系統行為提供保證。人工智能硬件范式應根據其在多維權衡曲面上的位置進行評估，優秀的方案應在關鍵指標上接近帕累托最優。實現這一點需要形式化驗證、基于物理的約束和運行時監控。雖然通用生成式人工智能已經改變了許多領域，但要彌合其與硬件設計之間的差距，需要專門的語言模型和上下文工程人工智能系統來理解電路、架構和設計自動化的語義。基準測試也必須超越 MLPerf，將魯棒性、可解釋性和可持續性納入考量。

（4）用于科學發現、機器人和自主代理的物理人工智能

人工智能創新的下一個飛躍在于將數據驅動學習與物理定律相結合。物理信息人工智能，包括基于神經算子和可微模擬器的各種方法，為建模科學和工程領域的核心多尺度現象（從材料發現到芯片設計）提供了一種原則性的方法。與此同時，物理和具身人工智能系統（例如在現實世界中運行的機器人和自主代理）對能效、實時響應和魯棒性提出了嚴格的要求，因此學習、控制和硬件之間的緊密集成至關重要。盡管這些領域前景廣闊，但由于缺乏統一的基準、數據集和可擴展的求解器，相關進展受到阻礙。新興的潛在世界模型，例如聯合嵌入預測架構（JEPA），旨在學習物理世界的結構化潛在表示。這些方法可能為未來人工智能系統中符號推理、物理信息先驗和更高效的決策機制的集成奠定基礎。

（5）解決核心瓶頸并統一人工智能與硬件演進

未來人工智能的一大前沿領域在于開發緊湊、節能的模型，使其在性能上能夠與前沿模型相媲美，同時還能在邊緣和嵌入式平臺（包括支持物理人工智能的平臺）上高效運行。要實現這一目標，需要不斷創新，超越當前主流的實現方式，將注意力機制與互補架構、算法稀疏性、狀態空間模型和系統級優化相結合，以提高效率、可擴展性和泛化能力。在硬件方面，下一代人工智能計算平臺將基于異構的、以內存為中心的架構構建，通過可擴展的低延遲互連技術集成人工智能加速器、可編程架構和量子處理器。跨領域的重點包括人工智能與硬件的協同設計、全棧能耗優化、人工智能驅動的芯片和系統自動化以及大規模集群效率。此外，隨著智能體人工智能系統能力的不斷提升，人機交互（HAI）必須始終是關注的焦點，確保人類和智能體能夠無縫協作、透明地溝通意圖，并可靠、安全地執行復雜任務。

（6）人工智能與硬件的實踐：邁向協調一致的全球影響

盡管“人工智能與硬件實踐”看似側重于產業界，但學術界在構建可持續且具有全球競爭力的AI生態系統中扮演著至關重要的補充角色。產業界在大型語言模型（LLM）和數據中心級基礎設施的主流范式下快速發展；然而，這種側重可能會限制對學術界擅長的全新方向的探索。一個具有韌性的AI生態系統依賴于嚴謹的學術研究和批判性評估，以確保提出的技術進步能夠有效地轉化為實際應用。在整個技術棧上協調一致的AI+硬件工作對于應對系統性挑戰至關重要，這些挑戰包括在監管和數據主權限制下將試點系統擴展到持續部署，管理前沿模型不斷攀升的成本和能源需求，以及彌合開放式學術研究與目標明確的產業目標之間的差距。通過協調一致的政策、共享資源和持續合作，AI和硬件創新可以以可持續、公平且具有全球影響力的方式向前發展。

（7）構建可持續的產學研政伙伴關系

要實現這一宏偉愿景的目標，需要學術界、產業界和政府之間的深度合作。擴大諸如國家人工智能研究資源（NAIRR）等政府舉措，將有助于實現計算、數據和模型的民主化獲取。目前仍存在一個持續的挑戰，即如何將學術界的長期探索性研究與產業界的短期產品驅動型開發相銜接。彌合這一鴻溝需要共享基礎設施、開源協作以及能夠將學術創造力與產業規模和重點相結合的政策框架，從而確保創新既具有基礎性又具有影響力。

背景與動機

人工智能已進入一個前所未有的強大時代，但也面臨著嚴重的失衡。在更大的數據集、更深的網絡和海量計算資源的推動下，人工智能模型呈指數級增長，在科學、工程和日常生活中取得了非凡的突破。然而，這種發展軌跡正變得越來越難以為繼。每一代前沿模型都需要數量級更高的能源和內存帶寬，單次訓練運行就會消耗數百萬千瓦時，并產生大量的碳排放。如今，支撐人工智能崛起的系統本身也受到現有硬件范式在物理、架構和經濟方面的限制。

當今的計算基礎設施仍然以計算為中心，計算和數據存儲彼此分離。由此產生的“內存墻”造成了嚴重的性能瓶頸，因為傳輸數據所消耗的能量現在超過了計算數據所消耗的能量。盡管GPU、TPU 、NPU和神經形態處理器推動了人工智能的發展，但它們的架構仍然針對特定工作負載進行優化，而非適應不斷演進的計算。缺乏統一的 AI+硬件協同設計理念，創新就會變得支離破碎：人工智能算法假定后端是靜態的，而硬件則是為很快就會過時的模型而設計的。這種不匹配阻礙了進步，導致效率低下，并且這種低下會在整個系統堆棧中不斷累積。

與此同時，軟件框架和算法的進步速度遠超硬件開發周期，甚至落后數年。這種不匹配使得研究人員難以將快速發展的AI范式適配到固定的硬件平臺上，而芯片設計人員則必須預測尚未出現的工作負載。盡管研究界已經開始探索AI+HW協同設計。盡管如此，此類努力在人工智能和硬件領域仍遠未成為主流。缺乏系統性的協同設計導致了各自為政的局面，數據傳輸、能耗優化和可編程性被視為彼此獨立的問題，而不是一個連貫系統的組成部分。

未來發展需要重新思考“擴展”本身。該領域不應再追求蠻力計算，而應采用節能、自優化和架構自適應的系統。諸如以內存為中心的架構、密集的 3D 集成和內存計算技術等新興方向有望降低數據傳輸的能耗和延遲。類似地，AI 在環硬件設計、生成式 EDA 工具和跨層優化框架將使系統能夠學習、適應并與它們所支持的算法共同進化。

在這種新范式下，衡量成功的標準不再是浮點運算次數或模型規模，而是每焦耳的智能、可信度和跨尺度的適應性。實現這一愿景需要一個協調一致的多層次路線圖，將應用需求、算法創新和相關硬件技術整合到一個不斷發展的生態系統中。只有通過這種徹底的整合，我們才能在確保人工智能高效、易用和造福全球的同時，維持其持續增長。

過去幾年，一個充滿活力的研究生態系統應運而生，為人工智能與硬件快速發展的交叉領域提供支持。諸如MLCAD、MLSys和ICLAD等專注于人工智能+硬件研究的新興會議和社群獲得了顯著發展，匯聚了來自機器學習、計算機體系結構、EDA和系統等領域的研究人員。此外，包括DAC、MICRO、ISCA、ASPLOS和ISSCC等旗艦會議在內的許多知名會議也越來越多地設立了專門的專題研討會、講座和教程，探討人工智能驅動的硬件設計和硬件感知型人工智能算法。這些發展反映了跨學科社群的快速擴張，并凸顯了人們日益認識到，未來的突破需要人工智能算法、硬件架構和系統軟件之間的緊密集成。加強和協調這一研究生態系統對于加速創新和實現人工智能+硬件協同演進的長期愿景至關重要。

激進變革的理由

人工智能的擴展不應再以計算能力的提升為核心，而應以計算能力的優化為核心。未來的人工智能系統必須具備節能意識、自我優化能力和架構自適應性。從以計算為中心向以內存和數據為中心的架構轉變，對于突破長期以來限制當今系統的內存和性能瓶頸至關重要。為了實現這一轉變，必須在計算堆棧的各個層面進行創新，從材料和器件到算法和應用程序。同樣重要的是，這些層面必須通過人工智能與硬件的協同設計和協同演進而共同發展，從而確保效率、可擴展性和設計生產力同步提升。

AI+硬件協同演化的多層次愿景

人工智能的未來取決于對硬件與智能之間關系的深刻結構性反思。未來十年的進步并非來自孤立的突破，而是來自三個抽象層面的協同創新：

1. 硬件技術（硬件層）

2. 算法與范式（算法層）

3. 應用與社會影響（應用層）

硬件技術、算法和范式，以及應用和社會影響共同構成了一個緊密耦合的動態反饋回路。在頂層，硬件技術的進步定義了人工智能系統的性能、能耗和可擴展性的邊界，并決定了哪些算法技術是可行的。基于這些能力，中間層的算法和范式將硬件的限制和機遇轉化為高效的學習、推理和優化方法。在底層，應用和社會需求驅動著對算法和硬件的新要求，通過激勵整個技術棧的進一步創新來形成閉環。這種高度的相互依賴性要求持續的跨層協同設計，其中人工智能幫助設計硬件，硬件加速人工智能的訓練和推理，兩者共同演進以響應諸如生產力、可持續性、安全性以及可靠性等社會優先事項。圖 1 展示了 AI+HW 協同演化的這種多層次愿景。

各抽象層的主要特征

在本小節中，我們將詳細闡述圖 1 中所示的每個抽象層的定義特征和設計原則。這些層共同體現了所提出的 AI + HW 協同設計框架的層次結構和雙向交互。

一、硬件層：硬件技術

未來十年，硬件設計必須進行根本性的創新，同時配合更高效的人工智能模型，才能在人工智能訓練和推理效率方面實現千倍提升。關鍵方向包括：以內存為中心的架構，最大限度地降低數據傳輸的能耗和延遲；高密度3D單片集成，將計算層、內存層和互連層垂直堆疊；3D芯片堆疊；以及內存計算和模擬人工智能加速器，直接在數據所在位置執行計算。

同樣重要的是連接性和計算協同設計，包括光子和光電互連以及計算架構，這些架構能夠大規模地提供超高帶寬、低延遲和節能的通信。需要采用人工智能優化的系統拓撲和路由策略來匹配新興的模型結構和數據流，從而實現CPU、GPU、FPGA、ASIC和特定領域加速器等異構組件之間的高效協調。

與此同時，量子-經典融合為混合系統開辟了新的機遇，將經典人工智能流水線與量子處理器相結合，以應對經典方法無法企及的優化、仿真和學習任務。這些進步將共同重新定義吞吐量、成本和能效的極限。實現這一愿景需要人工智能驅動的電子設計自動化成為硬件工作流程的核心組成部分，利用大型和小型語言模型來自動化設計空間探索、代碼生成、驗證、綜合以及跨器件、架構和互連的系統級協同優化。在下面的章節中，我們將全面討論這一抽象層，包括其關鍵概念、挑戰、新興趨勢、潛在陷阱、未來十年的成功里程碑以及針對學術界、工業界和政府的建議行動方案。

二、算法層：算法與范式

在這一層，人工智能需要與硬件層協同工作，使其具備硬件感知能力，同時硬件也需要具備人工智能自適應能力。目前模型創新與硬件開發脫鉤，造成了持續的不匹配：人工智能的演進周期以月為單位，而硬件的演進周期則以年為單位。彌合這一差距需要將人工智能直接嵌入系統設計循環中。人工智能在環設計自動化將徹底改變架構、編譯器和系統的構思方式，使基于學習的方法能夠近乎實時地優化內存層次結構、互連和微架構。

與此同時，硬件感知的訓練范式將通過低精度計算、稀疏性、模塊化和內存高效執行來提高效率。諸如可微分模擬器、用于加速器的神經架構搜索以及基于強化學習的硬件調優等新興方向，都指向能夠通過反饋不斷改進的自演化計算堆棧。除了優化之外，新的學習范式，包括物理信息學習和潛在世界模型（例如 JEPA ），承諾構建能夠推理物理過程而非僅僅擬合數據的AI系統，從而將符號推理與持續學習相結合。下面的文章將詳細探討這一抽象層，并沿用第下文建立的結構框架。

三、應用層：應用與社會影響

在這一層，人工智能系統最終必須滿足人類和地球的需求，同時保持計算的可持續性。隨著人工智能滲透到生產力工具、醫療保健、材料發現、教育、交通運輸、經濟系統和國家安全等領域，計算需求和能源消耗的增長速度越來越快，可能超過現有基礎設施的承載能力。

到本十年末，訓練一個前沿模型所消耗的能源可能相當于整個國家的能源消耗，這將引發嚴重的環境、經濟和倫理問題。因此，硬件和算法層的創新對于這一層至關重要：硬件技術的進步使得大規模部署成為可能，而算法創新，包括硬件感知訓練、領域特定模型和基于物理信息的學習，則將這些能力轉化為實用高效的解決方案。

與此同時，這一應用層的需求必須反饋到其他兩層。現實世界的應用對能源、延遲、魯棒性、可解釋性和成本提出了限制，這些限制反過來又推動了新的算法范式的出現，并對硬件系統提出了具體的設計目標。應對這些挑戰需要的不僅僅是更多的硬件，而是更智能、目標明確的人工智能系統。針對特定領域的 AI，例如科學發現、工程設計或物理建模。

通過將物理定律、結構和因果先驗直接嵌入學習中，可以顯著降低計算和數據需求。許多應用還將依賴于混合邊緣-云架構，其中低延遲推理在邊緣進行，而大規模訓練和適應在云端進行。從經濟和社會角度來看，衡量成功的標準必須從原始吞吐量轉向每焦耳的智能。這種轉變將重新定義我們評估創新的方式，并使技術進步與全球可持續發展目標保持一致。

跨層協同設計：從各自為政到協同增效

如前所述，未來的變革不僅源于各層級的進步，也源于跨層的協同設計。算法必須適應物理限制；硬件必須演進以服務于學習動態；而系統軟件則必須充當連接組織，確保系統的適應性和可靠性。

例如，優化端到端能源利用需要統一的抽象概念，將模型結構與芯片布局、運行時調度乃至散熱策略聯系起來。同樣，可靠性和可信度必須通過形式化驗證、基于物理原理的彈性設計和安全計算等方式構建到硬件層面，而不是作為軟件的后續考慮。

這一愿景也重新定義了設計效率。通過利用人工智能模型進行硬件生成、驗證和仿真，從概念到原型的周期可以從數年縮短到數月甚至數周。開放數據集、模塊化模擬器和標準化基準測試，例如 ITBench ，IMC-Bench 以及 CVDP 基準測試，這將進一步加速可重復性進展。

為了更具體、更細致地擴展圖 1 所示的愿景，表 1 列出了一系列細粒度的抽象層及其使能技術、新興趨勢以及相關的影響和挑戰。它全面且前瞻性地展現了未來人工智能和硬件系統的發展前景，涵蓋了從器件和材料到算法和模型的各個層面，并著重闡述了為何任何單一層面的進展都不足以滿足下一代人工智能系統的需求。

該表的創新之處在于明確地展示了材料、3D 集成、模擬和光子計算、架構、互連、系統基礎設施、軟件棧和算法等各層之間的緊密耦合和相互依賴關系，從而揭示了豐富的跨層優化機會，而這些機會往往被各自獨立的研究工作所掩蓋。通過系統地將使能技術、人工智能軟硬件與其相應的影響和挑戰聯系起來，該表格提供了一個統一的框架，旨在指導學術界開展高影響力、跨學科研究，幫助產業界優先考慮提升性能、能源效率和可擴展性的有效協同設計策略，并向政府資助機構提供信息，明確哪些領域最需要持續、協調的投資。

在未來十年，這種分層視角將提供強大的戰略價值，它闡明了如何將某一層面的突破與其他層面的創新協同開發，以克服數據傳輸、內存壁壘、電源供應、可編程性和可靠性等根本瓶頸，最終通過整體性的跨層協同設計，實現可持續、高效且可擴展的人工智能系統。

未來人工智能系統的硬件技術

關鍵見解

硬件技術決定了未來人工智能系統的物理極限和發展機遇，因此必須與算法范式持續協調設計。如表1多行所示（例如，3D集成/異構封裝；模擬/混合信號/內存計算；光子/光互連/計算；冷卻和供電；系統基礎設施），人工智能系統的主要制約因素正從原始計算能力轉向數據傳輸、連接性、能效、系統級集成和成本效益（例如，每個token的成本）。由此可見以下幾個基本要點：

1、系統級限制已成為主要限制因素：供電、散熱、可靠性和數據傳輸現在比芯片級考慮因素更為重要，因此需要在機架和整個計算集群之間進行協調的協同設計。

2、數據移動已成為主要瓶頸：跨內存層次結構和互連移動數據的能量成本現在遠遠超過算術運算，直接促使人們采用新的算法技術，如第下文中描述的稀疏性、局部性感知模型和模塊化執行。

3、連接性與計算能力同樣重要：性能擴展越來越依賴于互連帶寬、延遲和拓撲結構，需要連接性-計算協同設計，而不是將網絡視為次要考慮因素。

4、集成密度重塑架構：密集的 3D 集成和異構封裝打破了邏輯、內存和互連之間的傳統界限，從而實現了在平面系統上無法實現的新算法數據流。

5、硬件必須具備適應性：固定功能的硬件無法跟上快速發展的人工智能算法；相反，硬件必須是可重新配置的、可編程的，并且在設計時要考慮到算法的演進。

6、人工智能必須幫助設計硬件：未來系統的規模和復雜性需要人工智能驅動的EDA，從而形成一個閉環反饋，人工智能系統設計出能夠加速未來人工智能模型的硬件。

這些見解強調了硬件創新和算法創新是不可分割的，必須作為一個統一的系統進行共同設計。

主要挑戰與機遇

從跨層視角來看，硬件層面臨著幾個相互交織的挑戰，同時也創造了前所未有的創新機遇。

一、主要挑戰

1、內存和數據傳輸壁壘（表 1：內存層次結構、互連）

（1）在訓練和推理過程中，片外內存訪問是造成能耗和延遲的主要原因。

（2）傳統的基于緩存的層次結構與 AI 訪問模式不匹配，尤其是對于注意力機制和大型嵌入表而言。

（3）這些限制直接促使人們采用算法壓縮、局部感知訓練和模型劃分策略。

2、連接擴展極限（表 1：光子/光互連）

（1）電氣互連在帶寬密度和能源效率方面難以擴展。

（2）網絡啟動延遲和協議開銷限制了大型分布式模型的有效利用。

（3）網絡拓撲結構與人工智能數據流不匹配會降低可達到的性能。

3、熱力及電力輸送限制（表 1：冷卻和電力輸送）

（1）高密度三維堆疊結構會加劇散熱難題。

（2）功耗和散熱限制現在直接制約著人工智能的性能、可擴展性和可靠性。

（3）熱變化會帶來可靠性和使用壽命方面的問題。

4、設計復雜性爆炸式增長（表 1：系統基礎設施、EDA）

（1）硬件模擬器和評估工具越來越跟不上現實世界系統的復雜性，導致研究原型和可部署系統之間出現驗證差距。

（2）如今的設計空間涵蓋了器件、材料、封裝、架構、互連和軟件等多個方面。手動設計流程無法有效地探索這一空間，從而導致系統性能欠佳。

雖然硬件層面臨著根本性的擴展性挑戰，但它也提供了一些最強大的杠桿點，可以在與下文中的算法和系統共同設計時實現變革性的收益。

二、關鍵機遇

1、邁向跨層、系統中心的AI硬件設計。

未來的AI硬件必須采用跨層、系統中心的視角進行設計。將算法、編譯器和物理平臺緊密耦合。這需要新的硬件抽象，將數據移動、內存局部性和能耗成本作為一等基本要素公開，使學習算法能夠直接推理物理約束，而不是依賴抽象的浮點運算次數（FLOPs）。硬件研究也應與新興的AI范式（例如模塊化、智能體和物理信息模型）協同演進，支持可重構的執行基礎架構、彈性內存層次結構和可編程互連，使其能夠隨著模型的變化而調整。相應地，評估方法必須超越組件級指標，轉向端到端系統指標，包括每焦耳智能、實際工作負載下的持續利用率以及對熱和功率變化的魯棒性，才能準確捕捉AI+硬件協同設計的真正效果。

2、以內存為中心和內存內計算作為算法使能器。

模擬、混合信號和數字內存計算架構通過將計算與存儲置于同一位置，從根本上減少數據傳輸，從而提供目前最先進的能源效率和計算密度。盡管擴展到更大的模型仍然是一個巨大的挑戰。除了原始效率之外，這些架構還實現了新的算法抽象。例如，近似計算和噪聲算術可以被本質上穩健、概率性或自糾正的算法所接受。這為以犧牲精確性為代價，換取數量級的效率提升的學習范式開辟了機會，尤其是在訓練和大規模推理方面。

3、面向新型數據流的三維集成與異構封裝。

高密度三維集成和先進的封裝技術縮小了邏輯、內存和互連之間的物理距離。這使得細粒度、高帶寬的通信模式成為可能，并可被分層、模塊化和局部性感知模型所利用。從協同設計的角度來看，算法設計者可以采用新的空間和時間局部性形式，而硬件設計者可以根據模型結構調整垂直集成策略，從而產生全新的計算-內存數據流。

4、光子和光電連接：擴展性的突破。

光子和光電互連提供近乎與距離無關的帶寬和低延遲，使人工智能系統能夠橫向擴展和縱向擴展，不再受電信號傳輸限制。這為那些依賴于豐富、低延遲全局通信的算法范式創造了機遇，例如大規模模型并行、分布式注意力機制以及跨智能體的集體推理。隨著時間的推移，光子計算元件還有望催生線性代數和信號處理領域的新原語。

5、連接性-計算-拓撲協同設計。

人工智能工作負載展現出高度結構化的通信模式，與傳統網絡拓撲結構不匹配。圍繞人工智能數據流協同設計系統拓撲、路由和計算資源部署，可以提高資源利用率并降低能耗。這一機遇與結構化稀疏性、流水線并行性和基于圖的執行模型等算法研究直接相關。

6、人工智能驅動的設計自動化：倍增器。

未來硬件系統的復雜性使得人工智能驅動的EDA成為關鍵因素。這不僅有益，而且至關重要。基于學習的設計工具可以探索龐大的設計空間，優化各層之間的權衡，并快速針對新興算法定制硬件。反過來，這些工具又依賴于人工智能模型在學習、優化和表示方面的進步，從而形成一個良性循環：人工智能改進硬件，進而加速未來的人工智能發展。

7、用于超高密度 3D 集成電路的熱支架。

新興的熱介電材料和熱支架結構對于超高密度 3D 集成電路將變得越來越重要，能夠改善垂直堆疊式 AI 系統的散熱、降低熱阻并提高可靠性。此類材料層面的創新可以從根本上重塑下一代人工智能加速器的熱環境。

關鍵問題及答案

Q1：硬件創新仍然是人工智能進步的主要驅動力，還是算法已經超越了硬件創新？

A：兩者單獨來看都不夠。算法的突破越來越依賴于硬件能力，而硬件的提升只有在算法相應調整的情況下才能轉化為實際影響。持續進步需要兩者不斷協同演進，硬件催生新的算法范式，而算法也積極影響硬件的設計目標。

Q2：未來人工智能硬件中，專業化和通用性能否共存？

A：是的，但只能通過分層和模塊化設計來實現。專用加速器、Chiplet和模擬或光子組件必須通過可編程接口和編譯器支持組合成靈活的系統。如細紋所述，算法模塊化和可組合性對于使專業化具有可持續性而非脆弱性至關重要。

Q3：人工智能系統能夠容忍多大的近似性和異構性？

A：比傳統計算模型假設的要多。許多人工智能工作負載本質上是統計性的，可以容忍噪聲、精度降低和近似計算。諸如魯棒性感知訓練、不確定性建模和自適應精度等算法技術，使系統能夠在保持準確性和可靠性的同時，充分利用人工智能模型和異構硬件組件的統計特性。

Q4：硬件設計周期能否真正跟上人工智能創新的步伐？

A：傳統工作流程無法實現。然而，人工智能在環硬件設計、生成式EDA和可重用芯片生態系統可以顯著縮短設計周期。這種方法與下文中提到的趨勢相呼應，即學習系統會持續適應變化，而不是靜態定義。

Q5：硬件層面的成功應該如何衡量？

A：傳統的指標，例如峰值浮點運算次數（FLOPs），已不足以衡量成功。必須從系統層面的結果來衡量成功，例如每焦耳智能、端到端延遲、可擴展性以及對不斷演進的算法和應用程序的適應能力。這些指標與底層討論的應用層目標直接相關，并強調了跨層優化的必要性。

Q6：社會和應用需求如何影響硬件優先級？

A：諸如能效、魯棒性、實時響應性和邊緣部署能力等要求必須反饋到硬件設計中。這些約束條件既影響算法選擇，也影響硬件架構，從而確保創新始終與社會影響保持一致，而不是僅僅追求技術指標。

重要的未來趨勢

為了把握人工智能模型擴展性和效率的未來趨勢，我們利用2020年至2025年的代表性數據，研究了時間、準確率和模型規模的聯合演變，并將趨勢外推至2030年。我們同時展示了二維和三維預測圖，以揭示互補的見解。

圖2展示了二維圖，清晰地呈現了模型規模、準確率和時間之間的兩兩關系。盡管這些可視化圖是二維的，但其中隱含了來自第三維度的額外信息——例如，在“模型準確率與時間”圖中，模型規模由圓圈的大小表示。

從這些圖中，我們可以發現幾個一致的趨勢。首先，即使模型規模發生變化，準確率也會隨著時間的推移而穩步提高，這表明效率的提升并非僅僅依靠蠻力擴展，而是源于算法和架構的進步。其次，在固定的時間窗口內，更高的準確率通常與更大的模型規模相關，這反映了當代基礎模型普遍存在的擴展規律。第三，在固定的模型規模范圍內，準確率會隨著時間的推移而提高，這凸顯了訓練方法、數據管理和模型設計方面的進步。雖然這些趨勢很有啟發性，但當我們在三維空間中直接檢查它們的關聯性時，這些趨勢會變得更加完整和直觀，如圖 3 所示。

圖 3 通過將時間、模型大小和精度整合到一個三維幾何表示中，擴展了上述分析，并使用相同的底層數據點捕捉它們之間的聯合相關性。通過將每個模型明確地放置在共享的三維空間中，該視圖能夠直接比較不同世代模型的進展，更清晰地識別異常值，并更全面地評估效率提升。重要的是，三維表示允許固定一個維度（例如時間、精度或模型大小），同時觀察其他兩個維度如何協同演化，如圖中繪制在三維平面上的三條曲線（藍色、綠色、紅色）所示。這使得我們能夠獲得比僅基于二維投影的更多見解，例如達到目標精度所需的模型大小如何隨時間縮小，或者在固定資源預算下精度如何變化。除了單個趨勢之外，三維視圖還提供了模型、性能和效率協同演化的結構化和全面圖像。

這些趨勢表明，人工智能系統進步的定義和追求方式正在發生根本性的轉變。過去，進步往往是通過優化單一主導維度（最顯著的是模型規模）來驅動的，其假設是更大的模型必然會帶來更高的精度。雖然這種規模驅動的階段取得了顯著的成果，但如今已接近飽和，促使人們自然而然地轉向優化其他關鍵維度，例如效率、功耗、延遲、成本和可部署性。該領域的長期發展方向并非著眼于在這些維度之間進行權衡，而是致力于融合各種解決方案，以提升所有維度的設計質量，即通過算法、硬件和系統的協同設計，構建更小、更專業的模型，從而實現更高的精度和效率。

在這種新興范式中，智能效率將成為核心指標，討論的焦點將從單個模型轉向完整的系統和智能體生態系統，其中合適的模型會動態地與合適的任務相匹配。大型模型對于復雜的推理仍然不可或缺。隨著人工智能與物理世界的交互日益頻繁，規模較小的領域優化模型將主導集中式和資源受限的工作負載，尤其是在知識合成和物理領域，小型化人工智能將占據主導地位

展望2035年，物理人工智能預計將占據現實世界推理的絕大部分，而高效的小型模型將為此提供主要支持。這一前景強調了整體設計人工智能系統的必要性，并將每焦耳、每美元和每秒的智能作為首要目標。基于這些趨勢，我們重點介紹以下關鍵技術方向。

一、近期使能技術發展趨勢（2-5年）：

1、具有原生量化和稀疏性支持的領域特定 AI 加速器（例如，張量核心、NPU），通過使硬件執行與現代 AI 工作負載的結構、精度和稀疏性保持一致，從而大幅提高每瓦性能。

2、異構計算節點結合了 CPU、GPU 和 NPU，使得 AI 流水線的不同組件（控制邏輯、密集計算、稀疏執行和 I/O）能夠映射到最合適的硬件，從而提高利用率并減少系統級效率低下。

3、高帶寬內存 (HBM) 集成，具有更寬的接口和更緊密的計算耦合，解決了內存帶寬和數據移動日益成為訓練和推理的主要瓶頸問題。

4、3D封裝和基于芯片的架構，能夠實現計算、內存和專用加速器的可擴展組合，同時與單片設計相比，還能提高良率、靈活性和上市時間。

5、硬件感知編譯器、自動調優器和優化的運算符庫對于將架構進步轉化為真正的、持續的效率提升以及縮小峰值能力與實際利用率之間的差距至關重要。

6、通過對 API、中間表示、模型格式、運算符和內核庫以及安全性、隱私性和溯源規范進行標準化，減少生態系統碎片化，實現異構 AI 系統的可移植性、互操作性和更快的采用。

7、邊緣和設備端 AI 功能以小型、高效的模型為中心，支持低延遲、保護隱私和節能的推理，為大規模部署與物理世界交互的 AI 系統奠定了基礎。

8、混合和統一內存層次結構，將快速 DRAM 與較慢的 NVRAM 或閃存相結合，并在 CPU、GPU 和加速器之間實現統一內存，以更好地匹配新興 AI 工作負載的分層訪問模式和持久狀態要求。

二、中長期使能技術發展趨勢（6-10年）：

1、通過混合量子-經典系統實現量子加速人工智能，其中量子處理器與經典人工智能管道互補，用于優化、采樣和模擬任務，這些任務使用傳統方法難以擴展。

2、芯片內部和芯片之間的光子和光學互連，可顯著提高帶寬密度和能源效率，使大規模人工智能系統能夠突破電互連的限制。

3、光子加速器和模擬-光學混合計算，為專門的 AI 工作負載中的線性代數和信號處理提供新的節能原語。

4、更廣泛地采用內存計算和模擬計算，通過將計算與存儲放在一起，從根本上減少數據移動，同時依靠算法的魯棒性和容錯學習來管理噪聲和變化。

5、計算、內存和邏輯的密集 3D 異構集成，打破了傳統的架構邊界，實現了新的數據流、更緊密的耦合和更高的系統級效率——這些能力對于支持未來物理人工智能系統中許多新興的應用和工作負載至關重要。

6、如果能夠大規模制造，超越傳統 CMOS 的新材料和晶體管技術將克服功率、速度和集成密度方面的根本限制。

7、具有自適應一致性和編排能力的超可擴展分布式人工智能系統，能夠動態管理跨云、邊緣和設備層的計算、內存和通信，支持大量智能代理的協調運行。

潛在障礙、陷阱和解決方案

障礙與陷阱

? 模擬和光子系統中的噪聲、漂移和校準挑戰。

? 高密度3D集成中的良率和可靠性問題。

? 軟件生態系統碎片化，限制了可移植性。

? 過度專業化會降低通用性和可重用性。

? 在采用先進技術節點制造的大規模人工智能系統中，靜默數據損壞 (SDC)（包括測試逃逸和集群級潛在錯誤）對可靠計算構成日益嚴重的威脅，尤其是在激進的電壓縮放和異構集成的情況下。

潛在解決方案

? 算法魯棒性技術，例如噪聲感知訓練和誤差補償。

? 使用嵌入式學習代理的自適應校準。

? 第 4 節中與算法抽象相一致的模塊化硬件和軟件接口。

? 社區驅動的標準和開放基準。

? 跨層可靠性監控、錯誤檢測和糾正機制、機群規模遙測分析以及硬件-軟件協同設計方法，

這些方法明確地對生產部署中的 SDC 風險進行建模和緩解。

十年后，成功意味著什么？

十年后，硬件的成功將體現在異構組件間的無縫互操作性上，即無需重新設計整個軟件棧即可集成新的加速器，并且可靠性能夠隨系統規模的擴大而可預測地擴展。數據傳輸通過設計得到最大程度的減少，連接性能夠透明地擴展，硬件能夠隨著算法的演進而不斷調整。模擬、數字、光子和量子組件能夠在統一的系統中共存。硬件和算法通過人工智能驅動的設計自動化持續進行協同優化。最重要的是，這些系統能夠顯著提高每焦耳能量的智能水平，從而使技術進步與社會和環境的可持續性保持一致。

成功還意味著硬件平臺可以通過軟件和編譯快速重新專門化，或者進行結構重新配置，從而無需重新設計芯片即可部署新的 AI 模型、代理和物理世界工作負載，從而縮小硬件生命周期與 AI 創新速度之間長期存在的差距。

針對學術界、產業界、政府和社區的建議行動項目

一、學術界

? 領導跨學科研究，涵蓋材料、器件、架構、算法和EDA。

? 開發反映跨層交互的開放式測試平臺和基準測試。

? 培養學生熟練掌握硬件和人工智能領域的各項技能。

二、行業

? 應該投資于硬件和算法的協同設計，而不是孤立的優化。

? 共享競爭前的基礎設施和標準。

? 大規模部署人工智能驅動的設計工作流程。

三、政府

? 資助三維集成、光子學、模擬人工智能和量子-經典系統等領域的長期研究。

? 支持國家共享基礎設施和開放平臺。

? 鼓勵跨部門合作。

四、社區

? 將評估指標轉向系統層面的效率和社會影響。

? 鼓勵可復現性、開放性和互操作性。

? 培養一種整體性、跨層次的創新文化。

可擴展人工智能+硬件的算法和范式

關鍵見解

本節探討了算法、架構和基礎設施中可擴展人工智能的核心瓶頸；討論了開發小型高效模型的必要性和機遇，這些模型能夠與大型模型在邊緣應用（包括物理人工智能）中相媲美；審視了當前基于注意力機制的低層模型（LLM）方法的局限性，并探索了新的人工智能模型；同時提出了未來高效硬件架構的研究方向，以加速人工智能運行，重點關注異構、粗粒度可重構、以內存為中心的計算堆棧，涵蓋CPU、GPU、可編程架構，甚至具有可擴展互連的量子處理器。貫穿各章節的主題包括人工智能模型與硬件的協同設計、能效優化、人工智能驅動的芯片設計自動化、計算-內存集成以及千兆瓦級集群優化。物理信息學習、神經算子和混合符號-物理推理不僅對科學應用至關重要，而且對提高人工智能系統的效率、魯棒性和可解釋性也至關重要。智能體人工智能系統越來越多地扮演著協調者的角色，在現實世界的約束下動態地選擇模型、內核、硬件資源和執行策略。

從歷史上看，算法創新帶來的效率提升是突飛猛進的，其效果足以媲美甚至超越單純的硬件擴展。過去的轉型——例如從循環架構到基于注意力機制和狀態空間模型的演進——表明，模型結構、訓練動態和表示方式的根本性變革能夠釋放此前無法企及的可擴展性和效率。展望未來，模塊化架構、長期記憶系統、稀疏感知學習、因果和物理信息表示以及任務的智能體分解等領域的進步有望帶來類似的突破。這些算法的變革能夠顯著降低計算量、內存流量和通信需求，從而重塑硬件設計目標，而不僅僅是適應現有目標。因此，要實現人工智能訓練和推理效率提升1000倍，就需要持續投入算法研究，重新定義所需的計算類型，而不僅僅是提高現有計算的執行效率。

訓練和推理對系統提出了截然不同的要求，必須將其視為不同的協同設計目標。訓練工作負載優先考慮吞吐量、統計效率、峰值準確率以及長期的攤銷能耗成本，而推理——尤其對于機器人、自動駕駛汽車和工業控制等物理人工智能系統而言——則需要在嚴格的功率預算下實現毫秒級延遲、確定性響應和極高的能效。對于在物理世界中持續運行的實體系統而言，能效直接影響運行壽命（例如，每次充電后的自主運行時間）、安全裕度和熱可靠性。

現有的已部署系統，例如自動駕駛平臺，已經證明了在嚴格的延遲和功耗限制下進行大規模實際推理的可行性，為人工智能與硬件的協同設計提供了寶貴的經驗。這些系統表明，推理效率不僅取決于算術成本，還取決于內存訪問、傳感器融合、控制回路集成以及最壞情況下的執行保證。展望未來，要實現物理人工智能效率的量級提升，需要針對實時推理進行專門優化的軟硬件堆棧，包括可預測的內存層次結構、局部性優先執行、混合關鍵性調度以及平衡準確性、魯棒性、延遲和能源效率的領域專用模型。

這些目標的實現必須依靠密切的跨學科合作，旨在縮小并最終消除快速發展的模型/算法開發與進展緩慢的硬件路線圖之間創新速度的不匹配。人機交互（HAI）仍然是重中之重，尤其是在智能體時代，人類和智能體需要無縫協作，才能使人們表達意圖并使機器可靠地執行復雜任務。

主要挑戰與機遇

要實現可擴展的AI+HW創新，需要解決以下挑戰：

孤立的硬件開發和模型設計（表 1：算法、模型、編程抽象、系統基礎設施）：

傳統上，人工智能硬件開發各自為政，算法、編譯器和物理平臺大多獨立優化，評估指標也局限于組件層面，例如峰值浮點運算次數或帶寬。未來的人工智能硬件必須采用跨層、系統中心的設計視角，將算法、編譯器和物理平臺緊密耦合。這需要新的硬件抽象，將數據移動、內存局部性和能耗成本作為一等基本要素暴露出來，使學習算法能夠直接推理物理約束。基于跨層學習的模型將根據實時硬件遙測數據（例如擁塞情況、溫度狀況和能源可用性）動態調整執行策略，包括精度、稀疏性、分區和布局。

算法暴力破解與檢索優勢（表 1：算法、模型、內存層次結構、編程抽象）：

當前模型主要依賴注意力機制、向量相似性和檢索，導致隨著參數數量和上下文長度的增加，效率下降。類人抽象和替代模型架構（包括小型模型集成）可以顯著提高效率。我們需要新的學習算法來利用深度內存層次結構、分層存儲和持久內存，從而將優化目標從浮點運算次數 (FLOPs) 轉向內存流量和數據局部性。

能量、存儲和互連壁壘（表 1：存儲層次結構、互連、3D 集成、異構封裝）：

在硬件層面，能量是限制因素，芯片內部和芯片間的互連是能量開銷的主要來源。這導致內存容量和帶寬成為主要的性能瓶頸。近內存/內存內計算、2.5D/3D異構集成和光互連是克服這些挑戰的有希望的方向。內存高效架構，包括Mamba中提出的架構[23]和 HMT [27這些代表了值得進一步探索的有前景的方向。

利用率低和協同設計差距（表 1：加速器架構、系統基礎設施、編譯器、運行時、軟件棧）：

在實際部署中，系統通常僅以 5% 至 20% 的利用率運行。新的加速器芯片經常在軟件棧尚未完全針對上一代芯片進行優化之前就已面世，這凸顯了自動化、跨層設計空間探索和優化的必要性。這種協同設計方法可以彌合當前人工智能算法發展速度與硬件設計速度之間的差距。自改進系統正迎來日益增長的機遇，在這種系統中，模型可以生成優化的內核、指導編譯并隨著時間的推移不斷改進硬件利用率。硬件高效的架構，例如 FlashAttention，PagedAttention、以及 RadixAttention 已展現出強大的潛力，值得繼續研究和更廣泛地采用。

吉瓦級運行（表 1：互連與聯網、系統基礎設施、冷卻與電力輸送）：

優化必須針對整個GW級集群（調度、部署、功耗/散熱/冷卻、電網約束），而不僅僅是單個節點。目標是在整個部署范圍內優化每瓦性能和每瓦精度。互連感知和拓撲感知模型必須與工作負載感知的網絡架構協同演進，以降低大規模同步和通信開銷。

邊緣約束（表 1：內存層次結構、系統基礎設施、算法、模型）：

機器人和移動系統的設備端人工智能既是一個新興的挑戰，也是一個重要的機遇，它推動了新的硬件創新（例如 3D 集成或內存計算），并推動了特定應用模型與專用硬件的緊密協同設計。

關鍵問題及答案

下面我們總結了與 AI+HW 協同創新相關的算法和平臺層面的幾個核心問題，并給出初步答案。

Q1.可擴展的 AI + HW 的瓶頸是什么？

A：瓶頸：能源限制、內存（容量/帶寬/局部性）瓶頸、互連架構限制、基礎設施利用率不足以及缺乏抽象層。解決方案：細粒度的內存內計算/近內存集成、可擴展的3D內存、更好地探索模型和硬件開發的設計空間、人工智能研究、硬件設計、編譯器開發以及集群級（GW級）優化之間的早期協同設計。

Q2.體積小 10-100 倍的模型是否也能具備同樣的功能？

A：通過專注于特定應用領域，這是可以實現的。可能的途徑包括：剪枝和量化；具有清晰法律和知識產權框架的特定領域蒸餾；新型架構，例如集成長期記憶的架構；效率大幅提升的異構硬件；以及混合部署策略。生態系統視角：一項由政府資助、社區參與的計劃，旨在訓練大型“教師”模型，并明確授權用于蒸餾；在效率、延遲或隱私至關重要的場景部署小型模型，在質量至關重要的場景部署大型模型；并實現多智能體系統，其中本地模型可以協作，并根據需要選擇性地調用大型模型。

Q：我們只需要attention嗎？

A：不。attention對于大型語言模型（LLM）至關重要，但并非萬能；卷積神經網絡、狀態空間模型（SSM）和擴散模型也同樣重要。重要的是使用客觀的、與任務相關的指標，并避免將相關性與因果關系混淆。由于參數數量龐大，如今的LLM推理很大程度上受限于內存以及隨著上下文長度增加，KV緩存流量的主導地位日益增強；滑動窗口/稀疏模式、緩存共享和長期存儲器的使用有所幫助，但進一步提高運算強度仍然至關重要。硬件應該重視可重構的底層原語，并考慮提高內存利用率，而不僅僅是浮點運算次數。

Q4.理想的硬件架構是什么？

A：異構、大規模并行、以內存為中心的系統：節能核心與 3D 堆疊式可擴展內存緊密耦合；高效支持遵循小世界網絡模型的密集局部連接和稀疏全局連接；用于高帶寬全球通信的光鏈路；用于靈活性的可重構結構；以及有針對性地使用量子計算，這些系統還必須解決部署復雜性、軟件堆棧集成以及艦隊級功率和資本支出權衡等問題。

Q5.最重要的研究重點是什么？

A：人機交互（HAI）通過更清晰的抽象、明確定義的人機交互角色以及有效的人機協作，將人類意圖與機器執行聯系起來；利用人工智能輔助技術，跨層探索和協同設計人工智能算法、系統、芯片和設計工作流程；人工智能賦能的量子計算，包括在低溫和控制功率限制下運行的量子糾錯解碼、編譯和嵌入式人工智能；人工智能驅動的芯片和系統設計自動化，通過智能體編排，智能體動態選擇模型、資源和上下文信息；以及自我改進系統，其中模型生成優化的內核，不斷改進自身的基礎設施，并適應特定領域的、通常是實時的數據流。

重要的未來趨勢

融合異構堆棧：未來的人工智能基礎設施將采用融合異構堆棧[68]將經典的、人工智能專用的密集計算、可重構結構和量子計算機集成在一起，并在密集的局部 3D 計算內存之上建立光學全球鏈路。
計算與內存融合以克服能耗/延遲限制。諸如內存內計算/近內存計算等技術，3D堆疊，以及以內存為中心的數據流將成為主流。這些變化將需要新的編程模型、散熱設計以及針對局部性和效率優化的混合模擬-數字組件。
小型模型與大型模型的共生：大型模型將作為提煉和推理支架的來源，而緊湊型小型語言模型（SLM）則可在邊緣和嵌入式設備上高效運行。領域優化的SLM將從開放前沿教師模型中提煉而來，并由多智能體框架進行協調。
機制理解驅動專業化：隨著可解釋性研究揭示模型內部如何表示計算，這些知識將轉化為新的、專門的數據結構和領域優化的內核。模型洞察將指導壓縮、緩存和稀疏性策略，并將越來越多地直接編譯成硬件指令，從而實現內核的自動生成和形式化驗證，以確保其性能和安全性。
自優化流水線：能夠自我調度、合成內核并與硬件協同演化的模型將會出現，從而縮短設計周期，提高持續利用率，模糊人工智能模型、軟件棧和硬件平臺之間的界限。人工智能生成和驗證的內核將成為標準，從而實現跨不同硬件后端的性能可移植性和正確性。
隱私保護策略的分歧：生態系統日益分裂為嚴格的設備端推斷和安全的云執行兩類，從而推動了雙軌制工具和部署策略的出現。消費者和監管機構的壓力將促使邊緣設備擁有更強的本地自主權，而企業則會將高價值工作負載整合到加密、可審計的云環境中。
去中心化和以代理為中心的AI系統將日益成為集中式云端模型的補充。未來的AI系統不再依賴于單一的推理終端，而是由大量半自主代理組成，這些代理運行于邊緣設備、機器人、虛擬環境和數字孿生體等平臺，并通過稀疏通信和共享抽象進行協調。這種去中心化的AI生態系統類似于元宇宙規模的系統，其中計算、學習和決策分布在具有不同能力和信任假設的異構節點上。這種范式在編排、一致性、安全性和能源效率方面帶來了新的挑戰，但也提供了彈性、可擴展性和本地化優勢。

潛在障礙、陷阱和解決方案

以下問題被認為是潛在的障礙和陷阱，我們提出了一些初步解決方案。還需要研究界提供更多解決方案。

“先有雞還是先有蛋”的問題常常會阻礙技術棧（服務、系統、硬件）各個碎片化層面的進展：

解決方案：解決此問題需要服務提供商、系統設計人員以及 SoC 和存儲器供應商之間進行有意識的跨層協作和/或垂直聯合投資。

異構性帶來了巨大的軟件負擔和車隊層面的權衡取舍，而品牌慣性（“一切都是GPU”）進一步強化了這一點：

解決方案：開發通用中間表示 (IR) 和圖形編譯器、可移植性層和驗證工具鏈；戰略性地規劃電力和資本支出 (CapEx) 分配；并建立披露標準和溝通實踐，以揭示真實的架構屬性，例如數據流模式、內存強度和互連特性。

蒸餾過程中的法律/知識產權和數據壁壘：

解決方案：開放數據信托；政府支持的許可；溯源/合規性；資助明確允許提煉的開放教師模式。

量子能量和控制的研究工作受到噪聲、可擴展性有限和集成復雜性的阻礙：

解決方案：投資低溫CMOS控制和分布式低溫設備；將高性能計算/GPU集群與量子處理器放在一起；開發魯棒的控制理論和節能的硬件-軟件優化。

十年后，成功意味著什么？

我們認為，以下目標或里程碑可以作為衡量未來 10 年可擴展 AI+HW 創新成功與否的良好指導方針。

能夠根據人類意圖可靠地執行復雜任務的系統（在實踐中實現的人機交互）。

算法的成功需要可重復的多指標評估——涵蓋質量、延遲、能源、成本和利用率——以及能夠有效規劃、選擇合適的工具、模型和資源、強制執行安全和驗證約束，并在云、企業、邊緣或物理人工智能環境中以最小的監督執行多步驟目標的 AI 系統。

100倍的端到端能源效率和≥集群持續利用率達到 60%，并在千兆瓦級規模下進行了優化。

效率的提升來自于計算與內存的集成（近內存/內存內、3D堆疊內存、局部性優先算法）以及閉環集群優化，該優化將遙測、自動調優和智能調度集成到千兆級數據中心和大型邊緣集群中。

完全可互操作的異構系統，具有無縫協調和光纖全球鏈路。

生產堆棧集成了 CPU、GPU、粗粒度可重構結構、特定領域的 ASIC 和量子計算機（如適用）；默認情況下以內存為中心；采用密集的本地連接和稀疏的全球連接，并在全局層使用光網絡；并且能夠跨供應商和站點可移植地協調工作負載。

一個成熟的領域調整型 SLM 生態系統，由從寬松許可的開放教師中提煉而來，并部署在多智能體框架中。

合法、開放的教師模型具有明確定義的使用權，能夠實現特定領域的知識提煉；而緊湊的小型語言模型（SLM）則運行在邊緣和機器人平臺上，以滿足隱私、延遲和能耗方面的限制。這些SLM可以與基于云的LLM協同工作。1，21，57通過多智能體系統，動態地為每個任務選擇合適的模型、上下文和計算資源。

可自我改進的芯片和系統人工智能管道交付≥硅設計周期加快 3 倍，具有可預測的 PPA，以及機制明確、性能可移植、經過驗證的內核。

模型會定期生成和驗證內核，共同設計訓練和推理堆棧，并協助完成從規范到 RTL、驗證、閉包和啟動的 EDA 流程，并由人參與最終確認；內核在異構堆棧中具有性能可移植性。

針對學術界、產業界、政府和社區的建議行動項目

最后，我們建議學術界、工業界和社區采取以下行動，以實現 AI+HW 效率提升 1000 倍。

一、學術界：

1、應將精力集中在以抽象為中心的學習范式（組合推理、程序化中間體、規劃模塊等）上，以超越蠻力方法。

2、與壓縮/系統相關的先進機制可解釋性。

3、追求具有小世界互連拓撲結構的計算在內存/近內存 3D 集成硬件架構，以實現可擴展帶寬。

4、建立客觀、以任務為導向的指標（質量/延遲/能量/記憶強度）和均衡的課程體系，涵蓋所有范式。

二、行業：

1、共同投資于以內存為中心的原型、可提煉的基礎教師以及從遙測到 LLM 生成的內核和驗證再到部署的統一優化工具鏈。

2、標準化代理互操作性和資源選擇協議，例如 A2A 或 MCP（模型上下文協議），以便代理可以跨領域發現模型/資源。

3、發布利用率/效率遙測數據；采用披露標準，突出超越當前“GPU”范式的架構差異。

三、政府及標準機構：

1、發起類似DARPA的SLM挑戰；資助具有明確提煉權的開放前沿模型。

2、代理訪問 IP 庫和 PDK（工具箱式）以進行法律培訓數據；建立 IP/數據框架（開放信托、溯源）。

3、為近內存/內存內、3D 集成、異構運行時、光互連等開放式測試平臺提供資金；設定節能采購目標；推廣架構公開標準。

4、社區（All）：

1、創建共享數據集和基準測試內核，以應對內存密集型和檢索密集型工作負載，并系統地跟蹤每個答案的能耗。

2、推廣可重復的多指標報告（質量、延遲、能源、成本、利用率）。

3、開發智能體評估方法，使系統能夠在實際約束條件下選擇模型/資源/環境。

人工智能與硬件的實際應用：

應用及社會影響

關鍵見解

AI+HW協同設計不僅能實現更快的系統，還能催生全新的應用領域，涵蓋從智能體AI和自主發現到與物理世界的實時交互等諸多方面，而這些在當今的能源和成本限制下是無法實現的。未來十年，AI軟硬件的進步將從根本上改變幾乎所有行業的生產力。更高效的AI模型，結合專用加速器和以內存為中心的架構，將以前所未有的規模和經濟性實現實時推理、感知和控制。在工業和經濟領域，這將轉化為更智能的設計和工程工具、更快的創新周期、更優化的供應鏈、更具彈性的制造系統，以及能夠在真實環境中安全高效運行的自主平臺。在教育和勞動力發展領域，運行在節能硬件上的AI驅動的個性化學習系統將提供自適應教學、持續技能提升和大規模普及教育，幫助勞動者在AI驅動的自動化和物理系統重塑勞動力市場的過程中轉型到新的崗位。

此外，跨層的AI+硬件協同設計對于將AI擴展到物理世界至關重要，因為物理系統必須在嚴格的實時性、安全性、能耗和可靠性約束下運行。與純粹的數字工作負載不同，物理AI應用將感知、決策和控制與硬件執行緊密耦合，因此，跨模型、運行時和平臺的端到端協同設計是先決條件，而非優化措施。

節能型人工智能將能夠實現大規模氣候建模、材料發現、可再生能源和智能電網的優化，以及對物理基礎設施的實時監測和控制，而不會產生不可持續的碳足跡。在科學和健康領域，人工智能加速器將推動藥物研發、精準醫療、先進醫學成像以及通過可穿戴和嵌入式設備進行的持續健康監測。安全、可靠且注重隱私的人工智能系統還將加強網絡安全、關鍵基礎設施保護和國家安全，尤其是在自主和物理人工智能系統日益普及的情況下。通過將人工智能軟件創新與硬件進步相結合，最大限度地提高每焦耳能量的智能水平，未來十年有望釋放變革性的社會效益，同時確保人工智能的發展在經濟上可行、環境可持續且惠及大眾。

盡管“人工智能與硬件實踐”看似主要關注工業界，但學術界、產業界和政府在為美國乃至全球構建更強大、更高效、更具全球競爭力的AI系統方面，都扮演著重要且互補的角色。尤其值得注意的是，產業界的諸多努力都集中在推進大型語言模型和超大規模數據中心基礎設施這一主流范式上。然而，這種以工程為主導的模式往往限制了探索全新方向或重新思考現有假設的空間——而這些恰恰是學術界可以做出獨特貢獻的領域。與此同時，AI生態系統涵蓋眾多公司和技術棧的多個層面，各方之間的協調卻十分有限。在此，政府可以通過鼓勵合作、協調優先事項以及推動有利于國家和社會共同利益的舉措，發揮建設性作用。

本部分關于人工智能和硬件實際應用的內容重點介紹了促進人工智能解決方案部署的核心問題、基礎設施危機以及對長期成功至關重要的開放式學術研究的激勵措施。具體而言，它著重探討以下幾個方面：

試點工具與實現持續、長期應用之間存在的差距所帶來的挑戰，以及全球數據主權和嚴格的監管合規性等問題，這些問題可能會減緩創新；
大型（前沿）人工智能模型巨大的成本和電力需求，加上美國由于基礎設施不足和政策行動遲緩而即將面臨的電力危機，可能會減緩變革性人工智能技術的應用；
能源效率和系統可擴展性是公平獲取的先決條件，可以防止人工智能的發展局限于少數超大規模參與者；
人機協作將使人類的角色轉向意圖規范、協調和倫理監督，從而重塑工程實踐和勞動力培訓；
5.彌合開放式學術研究與漸進式產業發展之間的差距，尤其要解決短期產業研究與學術研究之間的權衡問題，后者往往缺乏與產業相關的必要規模和重點。

關鍵問題及答案

Q1：人工智能在現實世界中部署的最大障礙是什么？

A:采用率差距依然很大：只有大約 5% 的試點人工智能技術最終轉化為持續的經濟回報,由于缺乏從現實世界環境中持續學習的能力、數據孤島和數據主權制度的碎片化、運營成本高昂以及監管復雜性，導致基礎設施發展放緩。

Q2.當前最緊迫的基礎設施挑戰是什么？

A：迫在眉睫的電力危機。數據中心的電力需求正以數十吉瓦的速度增長，而美國的發電量和電網容量卻遠遠落后，中國目前擁有巨大的電力優勢。如果不采取行動，五年內我們將面臨電力短缺，這將限制人工智能的部署。我們需要制定相關政策，確保那些運行功率低于30千瓦/機架的85%的數據中心不會被落下。

Q3：我們如何彌合學術界與產業界之間的差距？

A：建議采取三種頂級機制：（1）政府機構促進和/或協商大學與云平臺之間的集體合作；（2）由行業贊助的研究項目，提供持續的資金支持，而不僅僅是一次性撥款，重點關注雄心勃勃的長期計劃，例如新的節能計算范式、硬件-軟件-應用程序協同設計和先進制造；（3）學術激勵機制，以表彰和獎勵長期、實用和系統級的貢獻。

Q4：我們如何防止人工智能硬件獲取方面日益加劇的不平等現象？

A：防止人工智能硬件獲取方面日益加劇的不平等現象需要在模型和基礎設施兩方面都做出努力。在模型方面，開發更小、更高效、更專業的模型，例如具有 200 億（或更少）個活動參數且可在邊緣或配置適中的本地硬件上運行的系統，可以將可訪問性擴展到超大規模數據中心之外。在硬件方面，必須通過開源工具和共享基礎設施來擴大訪問權限。更廣泛地獲取先進的半導體設計能力，例如EDA工具、制造平臺和先進的PDK，以及跨行業的基準測試，可以進一步確保人工智能硬件創新能夠繼續為學術界、初創企業和新興研究團體所用。

Q5.未來十年內效率提高 1000 倍是否現實？

A：我們預測，通過模型、軟件和硬件的綜合進步，5 年內性能將提升 100 倍（高置信度），6-10 年內性能將提升 1000 倍（中等置信度）。實現最終 1000 倍效率提升的可行途徑是：結合算法和模型優化帶來的約 10 倍提升、硅利用率和技術進步帶來的約 20 倍提升（備注：這代表著芯片未來十年提升20倍），以及系統級效率提升帶來的約 5 倍提升。這些提升可以用每焦耳智能值來衡量。

重要的未來趨勢

電力危機時間線：超大規模數據中心運營商、成熟科技公司和初創企業正在建設數十吉瓦的數據中心容量，但發電量和電網輸送量卻沒有相應增長。我們預測，美國將在五年內出現電力短缺，這將限制人工智能的部署。目前，美國的可用電力遠落后于中國，僅靠市場力量無法解決這場危機（參見圖4）。

云到邊緣的轉變：目前，云端幾乎是現代人工智能算法運行的唯一途徑。我們預測，未來將出現一種根本性的分布轉變，即前沿模型將被規模更小、更專業的模型（參數量小于200億）所取代，這些模型針對特定任務進行了優化。由于資源需求較低且效率更高，這些模型將從云數據中心遷移到邊緣和終端用戶應用，例如自動駕駛汽車、機器人和消費電子設備。這種分布轉變還將增加各種定制芯片的數量。

人工智能驅動的商業模式：雖然具體的贏家仍難以預測（類似于1998年前后的互聯網），但我們預計未來十年內將出現多種成功的AI驅動商業模式。如今的推薦系統已經成熟；自動駕駛汽車、機器人、智能體AI和客戶服務自動化等領域也展現出巨大的發展潛力。

競爭格局：跨行業基準和共享基礎設施將日益決定人工智能部署領域的國家和全球競爭力。效率提升1000倍的成果將在全球技術生態系統中廣泛共享，而不僅僅局限于美國。然而，電力容量限制帶來了競爭風險。由于美國電力預算有限，即使采用效率相同的技術，競爭對手也可能擁有十倍以上的推理能力。

超越地面基礎設施：天基人工智能計算代表著長期人工智能基礎設施設計中一個新興且尚未充分探索的方向。業界正在積極考慮的概念設想在軌道或近地空間平臺上運行，這些平臺擁有豐富的太陽能，且散熱遵循不同的物理約束。雖然此類系統不太可能取代地面數據中心，但它們為能源充足但延遲受限的計算、容錯自主運行、抗輻射人工智能硬件以及容錯學習和推理流程等領域開辟了新的研究機遇。學術研究可以在定義適用于這些環境的架構、算法和控制策略方面發揮關鍵作用，包括間歇執行、高度自主性和物理感知系統優化。隨著人工智能基礎設施規劃延伸至2035年，應將天基和非地面計算視為互補平臺，以檢驗我們對能源、可靠性和系統設計的假設。

潛在障礙、陷阱和解決方案

基礎設施瓶頸：美國發電和電網容量不足以支持數十至數百吉瓦的新數據中心需求，再加上審批流程可能需要數年時間，而全球競爭對手的行動速度更快。

解決方案：政府立即投資替代能源，包括部署期為 5-10 年的小型模塊化反應堆 (SMR)；簡化數據中心和能源基礎設施的監管框架；積極開展公眾參與，以爭取對核能和可再生能源部署的支持。

生態系統碎片化：硬件、軟件和模型之間互操作性不足，造成了生態系統的碎片化；計算機工程、系統和人工智能領域各自獨立的學科框架阻礙了整體解決方案的實現。

解決方案：跨行業基準；標準化的跨堆棧性能測量；多方利益相關者論壇，以開發共享基礎設施；政府資助的研究，要求在整個堆棧中而不是各個層進行協作。

激勵機制錯位：學術界往往缺乏解決實際問題的動力，而產業界則傾向于在現有范式內進行漸進式改進。

解決方案：重塑學術激勵機制，進一步重視實用工程和系統級貢獻；建立行業贊助的持續合作關系，使研究與實際挑戰相契合；達成大學與云平臺的集體協議，實現訪問權限的民主化。

過度重視前沿模型：對 AGI 規模的前沿模型的過度關注，分散了人們對規模較小、專業化、以邊緣為中心的模型的注意力，而這些模型可能帶來近期價值和更廣泛的應用。

解決方案：專門針對高效小型模型（適合本地硬件的模型）的研究經費；強調部署可行性的基準測試，而不僅僅是標準任務的性能；對風險投資進行邊緣部署機會方面的教育。

驗證挑戰：如果沒有實際的庫、仿真工具和測量數據，就無法驗證新的硬件設計方法；學術界缺乏工業規模的基礎設施；仿真工具與現實世界的條件不符。

解決方案：行業共享匿名測試和測量數據；政府資助的“仿真高速公路”通過真實系統進行驗證；持續的行業合作伙伴關系，提供對生產環境的訪問權限。

人才和知識缺口：美國科學和工程人才不足以支撐當前的增長；限制性的移民政策有可能失去構成領先科技公司員工主體的國際人才。

解決方案：制定吸引和留住來自世界各地（包括中國、印度和歐洲）頂尖人才的移民政策；開展多所大學合作，匯集專業知識；推行產學研輪崗，實現知識的雙向轉移。

摩爾定律終結的風險：隨著丹納德縮放定律的終結，我們大多只能橫向擴展（增加芯片數量），而不能縱向擴展（提高芯片速度），這加劇了功耗問題，并限制了傳統方法帶來的效率提升。

解決方案：算法、軟件和專用硬件的協同設計；減少數據移動的分層存儲系統；3D 集成、內存計算或近內存計算，以及對超越 CMOS 縮放的新型計算范式的研究。

十年后，成功意味著什么？

成功意味著在電力危機變得無法克服之前解決它，實現預期的效率提升以推動變革性應用，并通過多方協調的行動維護美國的競爭力和公眾信任。成功還包括開源工具、共享基準和易于使用的基礎設施，使大學、初創企業和小型機構能夠為人工智能創新做出有意義的貢獻。更多詳情請見下文。

電力危機得以解決：通過多元化的能源基礎設施（包括小型模塊化反應堆和替代能源）實現可持續的數據中心擴展，并簡化審批流程，從而在保持環境責任的同時實現快速部署。

效率提升：人工智能效率提升1000倍，這將從根本上改變人工智能流量從云端到邊緣的分配格局。大量人工智能工作負載將由可部署在自動駕駛汽車、機器人和消費級設備（例如AR/VR頭顯）上的專用小型模型承擔。

蓬勃發展的跨領域生態系統：學術界、產業界、風險投資界和政府之間建立互利共贏、富有成效的關系。多方利益相關者論壇推動共享基礎設施（例如“仿真高速公路”）、先進的基準測試、開源工具和協調一致的研究，從而將短期產業需求與長期學術創新相結合。

美國競爭優勢：盡管全球在效率方面取得了共同進步，但美國擁有足夠的電力產能和人才儲備，可以在人工智能和硬件能力以及創新速度方面與競爭對手匹敵甚至超越他們。

公平獲取：開源工具、跨行業基準，以及在小型但功能強大的模型方面取得更多進展，以便更多參與者（而不僅僅是資金雄厚的實驗室和超大規模企業）能夠有意義且可持續地為人工智能和硬件開發的前沿做出貢獻。

蓬勃發展的AI驅動型經濟：一個繁榮的AI驅動型經濟將依靠產學研合作和政府持續合作，而非孤立的短期發展。自動駕駛汽車、機器人、智能體AI以及其他尚未被構想的領域將涌現出多種成功的商業模式和應用，創造可與互聯網在1998年后的變革相媲美，甚至最終超越其帶來的廣泛經濟價值。

最終，成功與否將取決于能否在現實世界的環境（科學、工業和社會）中大規模部署智能系統——在這些環境中，跨層協同設計能夠使人工智能系統高效、值得信賴、適應性強，并符合人類和環境的限制。

針對學術界、產業界、政府和社區的建議行動項目

政府：投資能源基礎設施，包括小型模塊化反應堆（SMR）等替代能源；簡化數據中心許可流程；現在就投資能源和基礎設施研究（5-10 年）；并制定政策，確保現有的大型數據中心（最初并非為人工智能而設計）不會被落下，并能有效地重新利用以支持人工智能工作負載。

已有充分證據表明，每投入 1 美元用于研發，就能為經濟帶來大約 5 美元的回報。15對芯片和系統堆棧的大規模、多所大學合作研究進行戰略性投資，例如開源EDA工具和通用模塊化架構模擬器，可以顯著放大這種影響。與此同時，應促進大學與云服務提供商之間的集體談判，以提高訪問效率；創造公眾參與和知情討論的機會；并解決能源基礎設施擴張帶來的環境影響，同時強調核電站和數據中心開發相關的勞動力和就業機會。此外，還應制定政策，以維持或加強美國在吸引全球科學和工程人才方面的領先地位。幾十年來，美國成功地從中國、印度和歐洲等地區吸引了頂尖人才，以支持其領先科技公司的勞動力隊伍，保持這一優勢至關重要。

大學：與美國國家科學基金會 (NSF) 或能源部 (DOE) 等政府機構合作，共同協商云合作伙伴關系，而不是建設單獨的、很快就會過時的設施；將研究重點放在開源 EDA 等生態系統賦能工具上；建立學術激勵機制以促進產業合作；專注于長期顛覆性算法研究，而不是漸進式研究；促成多所大學就重大挑戰開展合作，以匯集資源和跨學科專業知識。

行業：考慮贊助和指導學術研究，使其更好地與行業問題接軌，并專注于解決關鍵挑戰。參與學術委員會，重視實踐性工作；提供超越一次性資助的長期合作關系；通過實際實驗驗證仿真工具。公開測試和測量數據以及高級基準測試。62這有助于學術界驗證其研究成果。創建跨行業基準，以更好地推動人工智能硬件和軟件的研發。

社區：在學術界、產業界、風險投資公司和政府之間建立多方利益相關者論壇，以開發共享基礎設施，例如“仿真高速公路”，用于探索新的架構。

結論與行動呼吁

未來十年將決定人工智能能否從如今廣泛應用的數字工具演變為支撐全新應用領域的基石技術平臺。這些應用領域包括機器人、自主基礎設施、智能制造和具身智能體等物理人工智能系統，以及科學發現、醫療保健和生物醫學研究、氣候和能源系統、先進材料設計以及大規模數字基礎設施等領域的突破。實現這一轉型遠非簡單地擴展模型規模或部署更密集的計算資源所能及。人工智能必須朝著效率更高、更值得信賴、更易于部署于云端、邊緣和現實世界環境的方向發展。實現這一愿景需要算法、硬件架構和系統軟件之間的深度協同設計。因此，“人工智能+硬件2035”愿景呼吁各領域攜手合作，重新定義“擴展”的含義——在降低能耗、成本和系統復雜性的同時，提供更強大的智能、更強的適應性和更顯著的實際影響。

應對這一挑戰需要人工智能和硬件通過深度跨層協作以及對系統設計的根本性重新思考而共同演進。通過整合智能的物理、算法和社會維度，我們可以實現變革性的成果：訓練和推理效率提升1000倍，設計效率顯著提高，并建立一個能夠推動科學和社會進步的、具有韌性和可持續性的人工智能基礎設施。這項工作必須將以人為本的倫理原則——安全、透明、問責、公平和社會責任——作為首要的設計約束，而非事后考慮。實現這一目標不僅是一項技術目標，更是一項責任，即確保人工智能的發展造福人類，同時最大限度地減少對環境的影響。

要取得實質性進展，學術界、產業界和政府必須采取協調一致、目標明確的行動。學術界必須發展基礎理論、抽象概念、基準測試和開源平臺，以實現嚴謹的人工智能與硬件協同設計，同時培養精通算法和系統層面的下一代研究人員。產業界必須將這些進展轉化為可擴展的、可用于生產的平臺，涵蓋云端、邊緣和物理人工智能系統，并投資于大規模部署、可靠性工程和實際應用驗證。政府必須推動長期、高風險的研究；維護共享基礎設施，例如先進的計算測試平臺；協調跨部門優先事項；并培養包容性的人才儲備，以擴大人工智能創新領域的參與度。當這些部門協同行動時，他們就能構建出不僅更智能、更節能，而且更可靠、更安全、更具社會責任感的計算系統。

本質上，人工智能和硬件必須作為一個一體化的生態系統共同演進，在提升能力、效率和可信度的同時，始終立足于人類需求和社會背景。這不僅僅是一個技術議程，更是一次重新定義智能構建和部署方式的千載難逢的機遇。通過持續的合作、大膽的投資和以原則為導向的創新，人工智能與硬件的協同設計運動能夠定義下一個計算時代——在這個時代，智能不僅更加強大，而且更加高效、可靠，并與人類的長遠利益相契合。

為實現這一愿景，我們提出以下建議行動方案。

1、建立專門的 AI+HW 協同設計和協同開發計劃，將硬件提升為下一代 AI 革命的一流驅動力，而不是將其視為下游優化層。

2、啟動一項國家級人工智能+硬件計劃（例如，由美國國家科學基金會牽頭，美國國防高級研究計劃局、能源部和國立衛生研究院參與），重點開展跨層研究，涵蓋算法、架構、系統和應用，解決從模型到芯片的整個人工智能堆棧問題。

3、創建與 NAIRR 精神類似的共享 AI+HW 基礎設施和資源計劃，為學術界提供先進的計算、新興加速器、芯片原型平臺和系統級測試平臺，這些對于有意義的 AI+HW 研究至關重要。

4、加強產學研合作機制，包括聯合資助研究中心、聯合獎學金、訪問學者計劃和共享試驗平臺，讓產業界作為積極的利益相關者參與其中，而不僅僅是外部顧問。

5、向人工智能+硬件研究所或中心發出征集令，以 JUMP 等成功項目為藍本，制定長期資助計劃、明確的轉化目標和強大的勞動力發展計劃。

6、投資于人工智能+硬件人才隊伍的培訓和教育，支持跨學科課程、使用真實硬件平臺進行實踐培訓，以及對人工智能研究人員進行系統和硬件方面的交叉培訓，對硬件研究人員進行現代人工智能方法方面的交叉培訓。

7、在資助的研究中，應優先考慮系統級評估指標，包括每焦耳智能、智能效率、數據傳輸效率、實際應用、穩健性和可部署性，而不是僅僅依賴模型準確性或硬件峰值性能。

8、要解決學術界和產業界之間日益擴大的資源獲取差距，就要確保公共資助的研究人員能夠公平地獲得大規模計算、先進的硬件平臺和真實的數據集。

9、鼓勵跨機構協調（例如，美國國家科學基金會、國防高級研究計劃局、美國國立衛生研究院、美國能源部），使人工智能和硬件投資與國家在科學發現、醫療保健、能源、安全和物理人工智能系統方面的優先事項保持一致，包括探索與新興的能源部計劃（如“創世紀任務”）開展戰略合作。

10、將此報告及其 arXiv 版本作為動態參考，收集持續的社區意見，并指導人工智能與硬件協同設計領域的未來征集、政策方向和協調資助計劃。

11、與專業協會（ACM、IEEE、USENIX、AAAI、ASME 等）合作，通過社區建設、標準制定和宣傳倡導，幫助推進這些可操作的項目。

12、利用本報告，向政策制定者和立法者宣傳人工智能與硬件協同設計對國家競爭力和社會影響的戰略重要性。

13、與領先的行業伙伴攜手合作，分享這一愿景，建立戰略聯盟，并開展符合共同利益的聯合項目。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4354內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.