年度專刊發(fā)布丨邁向AI Agent普及的未來

2026-02-06 08:11:56　來源: 哈佛商業(yè)評論

北京舉報

分享至

AI引發(fā)的創(chuàng)新浪潮正在重塑每一種客戶體驗、每一家公司乃至每一個行業(yè)。而且，變革才剛剛開始，技術(shù)迭代的速度遠超我們以往所見的一切。不久前，人們還在測試各類聊天機器人，如今幾乎每天都有新的應(yīng)用場景與技術(shù)方案誕生。

然而，許多企業(yè)尚未看到AI承諾的價值真正兌現(xiàn)，其真正潛能也尚未完全釋放。不過，這一局面正在迅速改變：AI助手正逐步讓位于能代人執(zhí)行任務(wù)、將工作流自動化的AI Agent。

這是AI發(fā)展軌跡的拐點，標(biāo)志著AI正從技術(shù)奇觀變?yōu)閯?chuàng)造真實價值的工具。AI Agent的到來，也是AI投資開始產(chǎn)生實質(zhì)商業(yè)回報的起點。未來，數(shù)十億個Agents將遍布每家公司、每個可想象的領(lǐng)域。這場變革對各行業(yè)的影響，將不亞于互聯(lián)網(wǎng)與云計算的普及。

問題是，企業(yè)今天該如何出發(fā)？

普及AI Agent的美好前景與挑戰(zhàn)

目前，Agent已在加速醫(yī)療發(fā)現(xiàn)、優(yōu)化客戶服務(wù)、提升薪酬處理效率等領(lǐng)域發(fā)揮作用；在某些場景中，Agent將個人效能提升了10倍，讓人們有更多時間投入創(chuàng)新。若人人都能獲得這般賦能，無疑是極具價值的愿景。

“在某些場景中，AI Agent將個人效能提升了10倍，讓人們有更多時間投入創(chuàng)新。”

—— Matt Garman

亞馬遜云科技CEO

然而，要邁向 AI Agent普及的未來，讓每個組織都能從AI中收獲實際價值與成果，說起來容易，做起來難。

每個Agent的核心都由三大關(guān)鍵組件構(gòu)成：一、作為Agent大腦的模型，負責(zé)推理、規(guī)劃與執(zhí)行；二、定義 Agent身份的代碼，明確Agent的能力并指引其決策流程；三、工具，為Agent注入生命力，如后端 API、知識庫與數(shù)據(jù)庫接口，執(zhí)行現(xiàn)實操作的代碼解釋器或網(wǎng)絡(luò)瀏覽器等。

要讓Agent釋放真正的價值，就必須將這些組件高效協(xié)同起來。這一任務(wù)，面臨著 5 大挑戰(zhàn)：

第一，企業(yè)需具備大規(guī)模、快速部署Agents的能力。這要求企業(yè)擁有可支撐業(yè)務(wù)從零快速擴展至數(shù)千并發(fā)會話的基礎(chǔ)設(shè)施，通過完善的會話隔離機制支持Agents長時間穩(wěn)定運行，并防止敏感數(shù)據(jù)在不同Agents間泄露；

第二，Agent必須具備處理海量數(shù)據(jù)、應(yīng)對邊緣案例的能力。要讓Agent真正落地生產(chǎn)環(huán)境，需要為其配備精密的記憶管理系統(tǒng)，既能精準(zhǔn)管理會話及交互過程中的上下文信息，又能跨會話記憶用戶偏好；

第三，身份與訪問管理的安全挑戰(zhàn)。若缺乏完善的安全管控機制，Agent可能無意中訪問或暴露不應(yīng)接觸的敏感數(shù)據(jù)。在生產(chǎn)環(huán)境中，必須建立固若金湯的身份與訪問管理體系：既要精準(zhǔn)驗證用戶身份，也要嚴(yán)格授權(quán)Agent訪問對應(yīng)工具的權(quán)限；

第四，實現(xiàn)與生產(chǎn)環(huán)境的無縫連接。當(dāng)Agent進入生產(chǎn)環(huán)境時，絕不可能孤立運行，而是會融入更龐大的業(yè)務(wù)系統(tǒng)。Agent需與業(yè)務(wù)應(yīng)用所需的API、數(shù)據(jù)庫及各類服務(wù)安全集成；

第五，具備全鏈路可觀測與快速調(diào)試能力。畢竟，無法觀測的問題必然難以修復(fù)；一旦出現(xiàn)問題，必須快速定位并解決。

如何應(yīng)對這些挑戰(zhàn)？關(guān)鍵在于融合四大核心要素：

一是AI基礎(chǔ)設(shè)施，能提供強大且具成本效益的算力支撐；二是推理系統(tǒng)，可提供豐富的模型選擇及高性價比的模型服務(wù)；三是數(shù)據(jù)能力，能將企業(yè)獨有數(shù)據(jù)高效轉(zhuǎn)化為新的核心競爭優(yōu)勢；四是完整的系統(tǒng)化構(gòu)建工具，讓AI Agent的構(gòu)建過程簡單高效，且成果可信賴、高度可靠。

AI基礎(chǔ)設(shè)施的5大屬性

構(gòu)建真正能創(chuàng)造價值的Agent，首要前提是擁有可擴展、強大的AI基礎(chǔ)設(shè)施，為所有環(huán)節(jié)提供動力。即通過高度可擴展且安全的云服務(wù)，為AI工作負載提供極致性能，以低成本完成模型訓(xùn)練、定制與推理。

“AI會讓攻擊者也更高效，因此云提供商必須將安全作為最高優(yōu)先級。”

—— Peter DeSantis

亞馬遜云科技公用計算高級副總裁

這要求突破基礎(chǔ)設(shè)施的可能性邊界，為Agent系統(tǒng)與應(yīng)用打造全新的基礎(chǔ)構(gòu)建模塊，并以全新視角重構(gòu)所有工作流程，強化云計算的5大基礎(chǔ)屬性：

安全性：不僅是好人利用AI提升效率，壞人也在使用相同的工具。AI讓攻擊者也更高效，云提供商必須將安全作為最高優(yōu)先級；

可用性：AI應(yīng)用的部署規(guī)模空前，需要經(jīng)過最嚴(yán)苛工作負載考驗的云基礎(chǔ)設(shè)施；

彈性：AI工作負載需求激增，客戶期望獲得與Amazon S3相同的彈性體驗；

成本：AI訓(xùn)練和推理的成本極高，成本控制能力成為關(guān)鍵競爭力；

敏捷性：企業(yè)的AI轉(zhuǎn)型充滿不確定性，需要具備快速啟動、優(yōu)化和調(diào)整的能力。

因此，亞馬遜云科技圍繞這5大屬性所做的持續(xù)投入，不僅是為了解決過往的技術(shù)痛點，更成為支撐Agent落地的硬核基座。

2010 年，Amazon EC2 曾面臨嚴(yán)重的虛擬化性能抖動問題。當(dāng)時，業(yè)界普遍認(rèn)為虛擬化永遠無法達到裸金屬性能，但亞馬遜云科技通過深入優(yōu)化，最終開發(fā)出 Amazon Nitro 系統(tǒng)，將虛擬化從服務(wù)器轉(zhuǎn)移到專用硬件，完全消除了抖動問題，性能甚至超越裸金屬。Amazon Nitro 的成功，開啟了亞馬遜云科技的自研芯片之路，也證明了通過掌控芯片、硬件與系統(tǒng)架構(gòu)，能夠?qū)崿F(xiàn)商用硬件難以企及的性能與效率提升。這一理念也延續(xù)到了服務(wù)器處理器 Amazon Graviton與AI加速器Amazon Trainium的開發(fā)中。

最新一代服務(wù)器CPU Amazon Graviton5，實現(xiàn)了重大的架構(gòu)突破。早期客戶已在生產(chǎn)環(huán)境中驗證了其卓越性能，多家企業(yè)的實踐數(shù)據(jù)顯示：Airbnb（愛彼迎）實現(xiàn)了25%的性能提升，軟件公司Atlassian 延遲降低20%，無人機公司Honeycomb 每核心性能提升36%，思愛普的SAP HANA OLTP查詢性能提升 60%；蘋果公司將核心服務(wù)用Swift重寫并遷移至Amazon Graviton服務(wù)器后，實現(xiàn)了40% 的性能提升和30%的成本降低。

“最新一代服務(wù)器CPU Amazon Graviton5，已實現(xiàn)重大架構(gòu)突破。”

—— Dave Brown

亞馬遜云科技計算與機器學(xué)習(xí)服務(wù)副總裁

2013 年，亞馬遜云科技的一個小團隊提出了一個看似不可能的想法：讓開發(fā)者只需提交代碼，無需管理服務(wù)器（即 Serverless 架構(gòu)）。這一創(chuàng)新想法，最終演變?yōu)?Amazon Lambda這一革命性的服務(wù)。它改變了應(yīng)用開發(fā)模式，讓開發(fā)者從代碼而非服務(wù)器開始思考。十年后，Amazon Lambda仍是從概念到生產(chǎn)落地的最快路徑之一。而Amazon Lambda Managed Instances（托管實例）的突破，重新定義了Serverless 計算，為視頻處理、機器學(xué)習(xí)預(yù)處理、高吞吐量分析等傳統(tǒng)上不適合Amazon Lambda的工作負載打開了大門。

推理請求的處理包含四大階段：分詞、預(yù)填充、解碼、去分詞。每個階段對系統(tǒng)資源的需求完全不同：有的屬于CPU密集型，有的屬于GPU計算密集型，有的對內(nèi)存帶寬要求極高，有的則對延遲極為敏感。在全球規(guī)模的應(yīng)用場景下，數(shù)千家客戶、數(shù)百萬級請求、數(shù)十種模型同時運行，且每個請求的資源配置會在流程中動態(tài)變化。這帶來了前所未有的擴展挑戰(zhàn)。亞馬遜云科技從零開始研發(fā)，設(shè)計出Project Mantle推理引擎，為客戶帶來了更穩(wěn)定的延遲表現(xiàn)、更高的吞吐量、更優(yōu)的資源利用率以及更強的系統(tǒng)韌性。

在非結(jié)構(gòu)化數(shù)據(jù)的整合與連接方面，Amazon Nova多模態(tài)嵌入模型，支持文本、文檔、圖像、視頻及音頻等多種數(shù)據(jù)類型，能將這些不同類型的數(shù)據(jù)轉(zhuǎn)換為共享向量空間，從而實現(xiàn)對數(shù)據(jù)的統(tǒng)一理解。此外，亞馬遜云科技已將向量能力集成至旗下所有數(shù)據(jù)服務(wù)中，使客戶無需學(xué)習(xí)全新的技術(shù)棧即可快速應(yīng)用。

在自研芯片的協(xié)同創(chuàng)新方面，Amazon Trainium3 服務(wù)器首次在同一服務(wù)器板上集成了Amazon Trainium、Amazon Graviton與Amazon Nitro三款自研芯片。該服務(wù)器的所有組件均支持頂部維護，且可實現(xiàn)全機器人組裝，能夠大幅加快部署速度。人工智能公司Anthropic已在 Amazon Trainium上完成Claude最新一代模型的訓(xùn)練與運行；Descartes AI（笛卡爾AI）通過使用 Amazon Trainium3與Nki優(yōu)化實時視頻生成模型，實現(xiàn)了4倍的幀率提升，并達成80%的張量核心利用率，這一表現(xiàn)遠超傳統(tǒng) GPU 系統(tǒng)。

推理：按需定制模型的開放平臺

在著手構(gòu)建生成式AI應(yīng)用時，企業(yè)首先需要明確的核心問題是：選擇哪一個模型？哪一個模型能帶來最優(yōu)成本、最低時延以及最佳的回答質(zhì)量？很多時候，問題的答案是組合使用多種模型——因為沒有任何一款模型可以“包攬所有場景”。因此，一個安全、可擴展、功能完備的推理平臺必不可少。

Amazon Bedrock正是這樣的平臺，可加速生成式AI應(yīng)用的落地進程，助力企業(yè)從原型階段快速邁向生產(chǎn)環(huán)節(jié)。企業(yè)可按需定制模型，以匹配自身的業(yè)務(wù)場景和性能要求，獲得融合自有數(shù)據(jù)的工具，并按需添加各類安全防護機制。

如今，全球各行各業(yè)、不同規(guī)模的公司，包括BMW（寶馬）、GoDaddy（一家提供域名注冊和互聯(lián)網(wǎng)主機服務(wù)的公司）、Strava（美國健身運動和社交應(yīng)用平臺）等超過 50 家企業(yè)，均在使用Amazon Bedrock。部分企業(yè)通過Amazon Bedrock處理的Token數(shù)量已突破萬億。

作為平臺，Amazon Bedrock一直在持續(xù)、快速地豐富模型陣容。這其中，既有開源權(quán)重模型，也有專有模型；既有通用模型，也有專用模型；既有超大模型，也有輕量模型。過去一年，Amazon Bedrock 提供的模型數(shù)量幾乎翻了一番，還將引入 Google（谷歌）的Gemma、MiniMax（上海稀宇科技）的M2、NVIDIA（英偉達）的Nemotron，以及Mistral AI（法國米斯特拉爾）的Mistral Large和Mistral 3等開源權(quán)重模型。

除了第三方模型，亞馬遜云科技自研的基礎(chǔ)模型家族Amazon Nova也在不斷擴展，支持更多使用場景，不僅贏得Dentsu（日本電通）這樣的營銷巨頭的認(rèn)可，還受到Infosys（印孚瑟斯）、Blue Origin（藍色起源）、Robinhood （羅賓漢）等科技領(lǐng)軍企業(yè)，以及NinjaTech AI（忍者科技）這類創(chuàng)新型初創(chuàng)公司的青睞。最新版本的Amazon Nova 2，可提供兼具成本優(yōu)化、低時延與前沿智能的模型。其中，Amazon Nova 2 Omni是業(yè)內(nèi)首款同時支持文本、圖像、視頻和音頻輸入，并可生成文本和圖像的多模態(tài)推理模型。

Amazon Bedrock與Amazon Nova讓企業(yè)擁有充分的選擇自由：需要效率時調(diào)用高效模型，需要算力時啟用強大模型，需要復(fù)雜推理時則使用高推理能力模型。內(nèi)容營銷公司 Gradial正借此打造極具實用價值的能力，破解創(chuàng)意落地執(zhí)行的最大瓶頸。目前，營銷內(nèi)容運營仍高度依賴人工，流程繁瑣——從創(chuàng)意簡報到最終上線，需要 4～6 周時間，涉及多達20個環(huán)節(jié)，需設(shè)計師、工程師、文案和網(wǎng)站策略師等多個角色協(xié)同完成。Gradial編排的AI Agents，不僅能無縫銜接不同系統(tǒng)和角色，大幅加速從創(chuàng)意到落地的全過程，還能提供精準(zhǔn)的內(nèi)容優(yōu)化建議，助力企業(yè)高效觸達并轉(zhuǎn)化目標(biāo)受眾。

數(shù)據(jù)：強化競爭優(yōu)勢的關(guān)鍵

AI能否為企業(yè)和用戶創(chuàng)造巨大價值，關(guān)鍵在于能否讓AI深入理解企業(yè)的獨有數(shù)據(jù)。企業(yè)的獨有數(shù)據(jù)是構(gòu)建差異化競爭優(yōu)勢的核心資產(chǎn)。如果 Agent能更深入地理解業(yè)務(wù)、數(shù)據(jù)和工作流程，就能解鎖更多應(yīng)用可能。

釋放Agent真正價值的核心要義，是將大模型與企業(yè)的獨有數(shù)據(jù)及知識產(chǎn)權(quán)深度融合。這首先需要將企業(yè)數(shù)據(jù)遷移至云端，在此基礎(chǔ)上，確保模型能夠安全、高效地訪問與使用這些數(shù)據(jù)。

第三方模型最初通常無法理解企業(yè)的專屬業(yè)務(wù)，也無法訪問企業(yè)專有數(shù)據(jù)。企業(yè)也不愿讓第三方模型接觸這些數(shù)據(jù)——畢竟沒有企業(yè)愿意將自身專有數(shù)據(jù)嵌入公共模型，進而被競爭對手或其他方利用。這正是Amazon Bedrock內(nèi)部設(shè)立嚴(yán)格數(shù)據(jù)隔離機制的原因所在。

企業(yè)可以通過 RAG（檢索增強生成）或向量數(shù)據(jù)庫等技術(shù)，在推理階段為所選模型動態(tài)注入上下文信息，幫助模型在企業(yè)的海量數(shù)據(jù)中精準(zhǔn)導(dǎo)航，返回高度相關(guān)的結(jié)果。然而，這類方法的效果終究存在局限，企業(yè)更期望通過某種方式，讓模型真正理解自身的業(yè)務(wù)數(shù)據(jù)，并深度掌握企業(yè)積淀的深厚領(lǐng)域知識與專業(yè)經(jīng)驗。例如，某家硬件企業(yè)正致力于加速新產(chǎn)品研發(fā)進程，其理想的模型能力是：能夠理解企業(yè)過往的產(chǎn)品設(shè)計邏輯、制造工藝偏好、項目成功與失敗案例，以及現(xiàn)有流程的各類約束條件，并整合所有這些信息，為設(shè)計工程師提供智能、精準(zhǔn)的決策指導(dǎo)。

既然如此，企業(yè)為何不直接訓(xùn)練一個專屬的定制模型呢？可行的路徑主要有兩條。第一條路徑是從零開始構(gòu)建企業(yè)專屬模型，將企業(yè)的專有數(shù)據(jù)深度融入模型訓(xùn)練過程。然而，這種方式不僅成本極高，還很可能無法獲取構(gòu)建模型通用智能所需的全部數(shù)據(jù)；即便數(shù)據(jù)儲備充足，企業(yè)也可能缺乏預(yù)訓(xùn)練“前沿大模型”所需的技術(shù)能力與經(jīng)驗。因此，對大多數(shù)企業(yè)而言，這條路徑并不具備可行性。

第二條路徑是從開源權(quán)重模型入手，再通過技術(shù)手段對模型進行定制化修改。這種方式的核心優(yōu)勢是具備極高的靈活性，企業(yè)可通過微調(diào)、強化學(xué)習(xí)等技術(shù)手段調(diào)整模型權(quán)重，從而打造出高度聚焦于自身核心業(yè)務(wù)場景的專用模型。然而，實踐證明這種方法同樣存在顯著局限：想要讓模型掌握預(yù)訓(xùn)練階段未曾接觸過的全新領(lǐng)域知識，難度極高；更關(guān)鍵的是，模型的定制化程度越高、注入的專有數(shù)據(jù)越多，就越容易出現(xiàn)“遺忘”現(xiàn)象，丟失早期預(yù)訓(xùn)練獲得的核心能力，尤其是關(guān)鍵的核心推理能力。這一現(xiàn)象類似于人類學(xué)習(xí)新語言的過程：若在幼年時期學(xué)習(xí)，往往更容易掌握；若成年后才開始學(xué)習(xí)，難度則會顯著提升。模型的定制化訓(xùn)練同樣面臨類似的挑戰(zhàn)。

Amazon Nova Forge則探索出了第三條創(chuàng)新路徑——開放訓(xùn)練模型。通過這一平臺，企業(yè)可獨家訪問多個Amazon Nova模型的訓(xùn)練檢查點，并在模型訓(xùn)練的全流程中，將企業(yè)專有數(shù)據(jù)與亞馬遜云科技精心設(shè)計的訓(xùn)練數(shù)據(jù)集進行深度融合，最終生成一款既能深刻理解企業(yè)業(yè)務(wù)數(shù)據(jù)，又不會遺忘原有核心能力的企業(yè)專屬模型。

大型社交新聞與內(nèi)容分享平臺Reddit（紅迪網(wǎng)），在其聊天與搜索業(yè)務(wù)場景中，嘗試?yán)蒙墒?AI對平臺內(nèi)容進行多維度安全審核，但審核效果始終未達預(yù)期。Reddit曾進行過多輪嘗試，例如微調(diào)現(xiàn)有模型，甚至嘗試為不同安全審核維度分別部署多個模型，但仍難以滿足其社區(qū)特有的內(nèi)容審核需求。借助Amazon Nova Forge，Reddit在模型預(yù)訓(xùn)練階段就將其專有的社區(qū)數(shù)據(jù)進行深度整合，使模型能夠形成獨特的“融合表征”能力，從而自然地將模型的通用語言理解能力，與Reddit社區(qū)特有的知識體系深度結(jié)合。Reddit也因此首次成功構(gòu)建出一款同時滿足高準(zhǔn)確性、高成本效益，且更易于部署與運維的專屬安全審核模型。

工具：圍繞四大支柱構(gòu)建生產(chǎn)級Agent

AI Agent足以成為科技史上的關(guān)鍵轉(zhuǎn)折點。人們不再受限于代碼語法的熟悉度，也無需記住成百上千的API調(diào)用與參數(shù)，只需用自然語言描述想要實現(xiàn)的目標(biāo)，Agent就會生成方案、編寫代碼、調(diào)用工具、執(zhí)行完整解決方案。同時，有了Agent，以往需數(shù)年的工程開發(fā)，現(xiàn)在僅需數(shù)月；過去需數(shù)月的任務(wù)，如今可壓縮至數(shù)周甚至數(shù)日。因此，全球的構(gòu)建者正借助Agent解決極其復(fù)雜的難題，構(gòu)建前所未有的創(chuàng)新事物。

“大多數(shù)企業(yè)陷入了‘概念驗證監(jiān)獄’的困境，使得無數(shù)精彩的Agent原型無法走向生產(chǎn)環(huán)境。”

—— Swami Sivasubramanian

亞馬遜云科技Agentic AI副總裁

然而，現(xiàn)實的核心難題在于，構(gòu)建與擴展這些強大的Agent，往往比它們要解決的難題更為復(fù)雜。其結(jié)果是，大多數(shù)企業(yè)陷入了“概念驗證監(jiān)獄”（POC Jail）的困境，無數(shù)精彩的Agents原型無法走向生產(chǎn)環(huán)境。這就要求有一套完備、系統(tǒng)的工具鏈，讓Agent易于構(gòu)建、高效運行、可信可控、穩(wěn)定可靠。

易于建構(gòu)

第一步，構(gòu)建Agent應(yīng)該極為簡單，能讓開發(fā)者用最少代碼創(chuàng)建Agent。這正是 Amazon Strands Agents SDK的特點。對TypeScript的原生支持，使其能適配這一全球最流行的編程語言之一；而對邊緣設(shè)備的支持，則讓Strands解鎖了汽車、游戲、機器人等領(lǐng)域的全新應(yīng)用場景。現(xiàn)在，幾乎每位開發(fā)者都能在筆記本電腦上試驗與構(gòu)建Agent。

第二步，填補從概念驗證（POC）到生產(chǎn)落地的鴻溝，同樣應(yīng)該簡單易行。一個真正智能且行為可控的托管系統(tǒng)，如Amazon Bedrock AgentCore正是為此而生。它能解決一系列核心問題：身份與訪問管理；管控 Agent的交互過程與行為邊界，同時保障Agent能夠自由推理、采取最佳行動并響應(yīng)業(yè)務(wù)請求；能夠在數(shù)千個模擬場景中評估與測試Agent；不僅能通過“短期記憶”能力處理即時對話流，通過“長期記憶”能力捕捉跨會話的洞察，更具備情境記憶（Episodic Memory）能力，記住用戶行為背后的時間背景與觸發(fā)原因，從過往經(jīng)驗中學(xué)習(xí)——將每一次交互存儲為獨立的情境片段，在新的對話時自動識別相似情境片段中的行為模式，并主動提供切實可行的解決方案。這就像人類記住生命中的特定事件那樣，經(jīng)歷得越多，Agent就越聰明。例如，用戶獨自出差時，Agent會自動預(yù)訂航班起飛前 45 分鐘到達機場的專車；用戶拖家?guī)Э诼眯袝r，Agent會自動識別過往的相似經(jīng)驗，將提前45分鐘的專車調(diào)整為提前兩小時。

高效運行

效率不僅關(guān)乎成本控制，還包含延遲（響應(yīng)速度）、規(guī)模（流量峰值處理能力）、敏捷性（迭代速度）三大核心維度。大多數(shù)Agents將時間花在編寫代碼、分析搜索結(jié)果、創(chuàng)建內(nèi)容、執(zhí)行預(yù)定義工作流等常規(guī)性工作任務(wù)上。因此，如果能為這些高頻場景的任務(wù)定制專用模型，就能大幅提升Agent的運行效率。

具體而言，有幾項核心技術(shù)可顯著提升效率。第一，監(jiān)督微調(diào)技術(shù)，可將Agent從 “通才”培養(yǎng)為垂直領(lǐng)域的“專家”，就像把全科醫(yī)生訓(xùn)練成心臟病專家，使其精準(zhǔn)聚焦于特定業(yè)務(wù)需求。第二，模型蒸餾技術(shù)。當(dāng)面臨內(nèi)存不足等硬件限制，或需部署更輕量、更快速的模型時，企業(yè)可選擇模型蒸餾技術(shù)。這一過程類似于行業(yè)大師培養(yǎng)聰慧學(xué)徒：“弟子”不僅會模仿導(dǎo)師輸出答案，更能學(xué)習(xí)其底層的思考邏輯與推理路徑，掌握導(dǎo)師的置信度水平、決策邏輯模式乃至核心識別策略。蒸餾模型往往能帶來10倍的推理速度提升，同時保留導(dǎo)師模型 95%~98% 的核心性能，可謂事半功倍。第三，強化學(xué)習(xí)技術(shù)，包括基于人類反饋的強化學(xué)習(xí) (RLHF) 與基于 AI 反饋的強化學(xué)習(xí) (RLAIF) 兩種核心范式。一般而言，傳統(tǒng)強化學(xué)習(xí)的研發(fā)投入大、周期長，并非普通企業(yè)能夠承受。因此，Amazon Bedrock設(shè)計出“強化微調(diào)功能”，以掃清所有技術(shù)難關(guān)、降低研發(fā)成本，幫助客戶提升模型的任務(wù)執(zhí)行精度，使客戶無需深厚的機器學(xué)習(xí)專業(yè)知識，也不必準(zhǔn)備海量標(biāo)注數(shù)據(jù)，即使是普通開發(fā)者也能輕松上手。

可信可控

你的Agent會將資金轉(zhuǎn)到正確的賬戶嗎？當(dāng)它們代表你操作時，會嚴(yán)格遵守當(dāng)?shù)氐姆煞ㄒ?guī)嗎？你是否愿意授予Agent訪問信用卡的權(quán)限？它會不會拿著你的資金去進行非必要的消費？這些問題的核心，都關(guān)乎大語言模型的“幻覺”問題——即模型在面對復(fù)雜規(guī)則或邏輯推理時，容易產(chǎn)生錯誤輸出。更糟糕的是，大語言模型還可能被惡意行為者誘導(dǎo)，產(chǎn)生有害行為。

這樣的Agent顯然無法在生產(chǎn)環(huán)境中長期部署，在涉及資金安全、人身安全等敏感事務(wù)時，更不能讓它們投入使用。然而，如果對Agent完全缺乏信任，企業(yè)就會采取過度保守的策略，在每個執(zhí)行步驟都引入額外的人工審核監(jiān)督，或通過硬編碼（hard code）的方式固定所有執(zhí)行步驟。這兩種方式都會大幅削弱Agent的創(chuàng)造性與自主決策能力。

亞馬遜云科技用神經(jīng)符號AI（Neuro-Symbolic AI）技術(shù)——即形式推理與大語言模型的深度融合，來破解這一難題。這一技術(shù)能夠在Agent的構(gòu)建初期，就輕松為其設(shè)定清晰的約束條件，既給予Agent盡可能多的自主運作空間，同時又明確其安全運作的邊界范圍，并確保Agent會嚴(yán)格遵循這些約束條件，即便約束條件十分微妙或復(fù)雜。2025年夏天正式發(fā)布的全新Agentic IDE（集成開發(fā)環(huán)境）——Amazon Kiro，就可讓開發(fā)者通過自然語言描述來定義整個應(yīng)用程序或功能特性的需求，自動分析應(yīng)用需求、識別驗收標(biāo)準(zhǔn)并轉(zhuǎn)換為標(biāo)準(zhǔn)化規(guī)范，進而指導(dǎo)代碼生成、測試用例生成，甚至可形式化證明程序的正確性。

穩(wěn)定可靠

部分Agents能夠準(zhǔn)確完成單次任務(wù)，但當(dāng)要求它們重復(fù)執(zhí)行時，卻容易出現(xiàn)偏差，更無法保障持續(xù)、穩(wěn)定的重復(fù)執(zhí)行。

21世紀(jì)初期，企業(yè)流程自動化的核心挑戰(zhàn)，主要由機器人流程自動化（RPA）技術(shù)解決。大語言模型適應(yīng)復(fù)雜業(yè)務(wù)場景的能力，遠勝于傳統(tǒng) RPA 技術(shù)。它們能夠操控瀏覽器、通過邏輯推理解決復(fù)雜問題、實現(xiàn)端到端工作流自動化，甚至可跨不同系統(tǒng)界面協(xié)同運作。然而，編排這些大語言模型的運作流程極為復(fù)雜，因此，為其構(gòu)建完善的錯誤處理與流程回溯機制至關(guān)重要。在傳統(tǒng)自動化腳本中，工程師能夠確切定位錯誤發(fā)生的節(jié)點；而大語言模型可能需要在錯誤路徑上執(zhí)行多次操作后，才會意識到問題所在。因此，對許多企業(yè)而言，使用這些大語言模型開展大規(guī)模的企業(yè)流程自動化操作，不僅耗時耗力，還容易出錯，實用性較低。

那么，能否讓大語言模型的自動化能力，從一開始就兼具簡單易用性與高可靠性呢？答案并非僅僅是訓(xùn)練更優(yōu)秀的模型，更需要將優(yōu)質(zhì)模型整合為端到端自動化服務(wù)的核心組成部分。Amazon Nova Act便是專為構(gòu)建與管理自動化生產(chǎn)級UI工作流的AI Agent團隊打造的平臺，在企業(yè)級復(fù)雜工作流場景中，已實現(xiàn) 90%的高可靠性表現(xiàn)。其獨特之處在于，并非“在罐子里培養(yǎng)大腦”（僅訓(xùn)練模型能力），而是讓“大腦”（模型）與“手腳”（執(zhí)行工具）協(xié)同訓(xùn)練，實現(xiàn)“出廠即能穩(wěn)定運作”。

傳統(tǒng)的模仿學(xué)習(xí)方式，僅能讓Agent觀察并模仿專家的操作行為，但Agent永遠無法理解這些行為背后的因果邏輯關(guān)系。因此，亞馬遜云科技轉(zhuǎn)向了強化學(xué)習(xí)技術(shù)，打造了數(shù)百個強化學(xué)習(xí)“健身房”——即模擬真實企業(yè)環(huán)境的訓(xùn)練平臺，涵蓋 CRM、HR 系統(tǒng)、任務(wù)跟蹤器等各類業(yè)務(wù)系統(tǒng)的模擬環(huán)境。在這些“健身房”中，Agent可運行數(shù)千個典型工作流，通過數(shù)十萬次交互進行試錯學(xué)習(xí)。每次成功完成任務(wù)會獲得正向獎勵，每次失敗則會獲得負向懲罰。通過這種強化學(xué)習(xí)方式，Amazon Nova Act能夠可靠地解決真實世界中的各類企業(yè)級業(yè)務(wù)用例。在RealBench、ScreenSpot等關(guān)鍵行業(yè)基準(zhǔn)測試中，Amazon Nova Act的表現(xiàn)與業(yè)界最佳模型相當(dāng)，甚至更為出色。

我們正處于一個前所未有的變革時代，AI Agent技術(shù)將徹底重塑企業(yè)的核心運營方式。基于強大且具成本效益的AI基礎(chǔ)設(shè)施、豐富的模型選擇與高性價比的推理系統(tǒng)、能將企業(yè)數(shù)據(jù)轉(zhuǎn)化為核心競爭優(yōu)勢的工具鏈，以及完整的AI Agent構(gòu)建與管理系統(tǒng)這四大核心支柱，企業(yè)將真正收獲AI的全部價值。隨著數(shù)十億Agents在各行各業(yè)規(guī)模化落地運行，企業(yè)將實現(xiàn)全方位的 10 倍效率躍升，解鎖未來的無限創(chuàng)新可能。

掃碼獲取專刊內(nèi)容

內(nèi)容來源：《邁向AI Agent普及的未來》專刊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.