網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

聽完P(guān)romptPilot的發(fā)布會，發(fā)現(xiàn)他們想Pilot的竟然不止是Prompts

2025-09-15 17:46:31　來源: 硅星GenAI

上海舉報(bào)

分享至

作者｜郭海惟
郵箱｜ guohaiwei@pingwest.com

9月13日，火山云的PromptPilot終于“正式”發(fā)布了。

這款產(chǎn)品最早在6月12日的火山引擎 FORCE 原動力大會上亮相，當(dāng)時(shí)火山引擎智能算法負(fù)責(zé)人吳迪花了十分鐘介紹了PromptPilot的特點(diǎn)和工作流程。

吳迪當(dāng)時(shí)對PromptPilot推出的戰(zhàn)略背景有三點(diǎn)總結(jié)：

模型越強(qiáng)，提出好問題的正向價(jià)值越大；

有很多高價(jià)值問題，沒有標(biāo)準(zhǔn)答案；

提示詞工程本質(zhì)是一個(gè)搜索問題，一切搜索問題都長期都將由算法來解決。

這三個(gè)論斷，或許可以被理解為當(dāng)時(shí)火山引擎對PromptPilot業(yè)務(wù)戰(zhàn)略邏輯的核心論述：

提示詞是值錢的，而PromptPilot的價(jià)值，某種程度來自于個(gè)性化的場景需求與對prompt需求的個(gè)性化理解。正是因?yàn)閳鼍笆莻€(gè)性化的，所以prompt有被調(diào)整的需要；正是因?yàn)閜rompt本質(zhì)是搜索，所以需要構(gòu)建對用戶的理解。

其實(shí)很多巨頭都在做類似的事情。

比如，最近阿里巴巴財(cái)報(bào)會上，吳永銘將記憶能力稱為整個(gè)agent應(yīng)用突破的重要節(jié)點(diǎn)；Notion、飛書、IMA等應(yīng)用，都在致力于構(gòu)建一個(gè)服務(wù)于用戶的知識庫生態(tài)。

Prompt天然有以上的屬性。

借用最近挺火的“十字路口”的比喻，Prompt既是人與智能的十字路口，也是當(dāng)下以大模型為主的智能基礎(chǔ)與未來以agent為主的智能生態(tài)的十字路口。

而在9月14日PromptPilot正式發(fā)布的溝通會上，面對臺下的開發(fā)者和媒體，技術(shù)負(fù)責(zé)人許偉則對PrompPilot的戰(zhàn)略價(jià)值給出了更多的論述角度，他在會議上給了幾個(gè)很有意思的斷，也是我印象比較深幾點(diǎn)。

第一，他說，在垂直場景的打造過程中，場景定制化與基礎(chǔ)模型能力的GAP會“永遠(yuǎn)存在”。

如果要解決好垂直場景的落地問題，最好的方式就是“將一些關(guān)鍵能力交到廣大客戶和行業(yè)專家手中”，從而“共同推動智能的進(jìn)一步廣泛和深度提升，實(shí)現(xiàn)大規(guī)模的落地應(yīng)用”。

第二，其實(shí)也與第一中的解決方案相呼應(yīng)。許偉稱，如果AI上半場是互聯(lián)網(wǎng)數(shù)據(jù)引領(lǐng)智能增長，那么“下半場的數(shù)據(jù)則源自行業(yè)和專家的腦袋”，而這會是“重要的區(qū)別”。

第三，與大模型訓(xùn)練類似，大量開發(fā)者在開發(fā)agent的時(shí)候，依然像是在煉金，將數(shù)據(jù)扔進(jìn)黑箱里祈求獲得黃金。這已經(jīng)成為了agent開發(fā)中的痛點(diǎn)，同時(shí)也造成了一定的算力浪費(fèi)。許偉認(rèn)為，工程化的prompt能力，將不同的模塊聯(lián)動訓(xùn)練，可以一定程度上讓agent的訓(xùn)練“可執(zhí)行、可驗(yàn)證”。

從這個(gè)角度來說，PromptPilot對自己角色的定位算是很明確的。它應(yīng)該就是一個(gè)輔助行業(yè)從AI上半場走向下半場的工具。

而作為工具，它自己要迭代、要scaling、要積累數(shù)據(jù)，同時(shí)要考慮一些“代碼素人”的行業(yè)專家也可以使用。

而如果落腳到現(xiàn)實(shí)問題上，PromptPilot其實(shí)要解決許偉提出的三個(gè)“悖論”。

一個(gè)是用戶“如何清楚表達(dá)需求”：

許偉認(rèn)為，用戶的意圖從人腦，再到具象化的目標(biāo)、結(jié)構(gòu)化的表達(dá)，中間是存在鴻溝的。尤其是當(dāng)場景越垂直、越專業(yè)，那就越難以用自然語言一次性說清楚，也越需要更精細(xì)、更結(jié)構(gòu)化的prompt。

其次是如何摸清楚“模型的能力邊界”：

而對于agent開發(fā)者來說，大模型能力的邊界也是模糊的。（許偉沒有展開講，但我想這個(gè)觀點(diǎn)其實(shí)也無需多言，因?yàn)榇竽Ｐ推鋵?shí)是一個(gè)黑箱，所以才會有各種各樣對大模型的能力測評榜單，對榜單的評測結(jié)果才會有各種各樣的爭議）。

許偉說，“大模型應(yīng)用本質(zhì)是尋找定制場景的模型能力邊界”。他指出，作為大模型開發(fā)者的工作，其實(shí)是在表達(dá)不清的需求和能力莫測的模型之間，試圖搭建人與模型之間的橋梁。

第一和第二個(gè)“悖論”，其實(shí)呼應(yīng)了之前的觀點(diǎn)，即場景定制化與基礎(chǔ)模型能力的GAP會“永遠(yuǎn)存在”。

而第三個(gè)悖論則是長上下文的動態(tài)適應(yīng)過程。

許偉認(rèn)為這是目前最難的挑戰(zhàn)。一方面大模型本身是人類高級思考的替代品，本身是很開放式的（硅星人注：注意力不集中且容易有幻覺）；另一方面，上下文越來越長，越來越多樣。這導(dǎo)致在開發(fā)過程中，很多問題是開發(fā)者想象之外的。

你很難想象PromptPilot能解決以上所有的問題，但他們給出了一個(gè)自己的工作流程，我也拍了一張照可以給大家參考——PromptPilot建立了一個(gè)與用戶行為流程相匹配的SDK數(shù)據(jù)閉環(huán)回流，來試圖形成一個(gè)不斷改進(jìn)系統(tǒng)能力的飛輪。

而在整個(gè)發(fā)布會中，最高頻出現(xiàn)的詞語大概是圖中所示的評估標(biāo)準(zhǔn)和badcase。

在模型深入場景的過程中，可能最珍貴的就是如何評價(jià)的標(biāo)準(zhǔn)。與prompt一樣，標(biāo)準(zhǔn)其實(shí)藏在專家的腦子里，它甚至不是一條條理論性的可以清楚描述的語言，而是存在相當(dāng)程度“灰度”的。而后者則是很難用語言直接描述的。

許偉舉例說，比如圖片審核中，一些元素以不同的方式不同的程度出現(xiàn)，可能得出的合規(guī)與否的判斷會完全不同。而PromptPilot能做的就是讓模型在與用戶不斷交互的過程中個(gè)，把評估標(biāo)準(zhǔn)背后的意圖給抽取出來。

在這個(gè)過程中，大量的case就顯得非常重要。

火山引擎大模型算法工程師王鐵飛，介紹了PromptPilot的四個(gè)模塊，分別是：

數(shù)據(jù)智擎工坊（Data Engineering）、Prompt 臻化聯(lián)動艙（Prompt優(yōu)化和聯(lián)動精調(diào)）、Badecase洞察站（Badecase檢測）和 AI方案生成器（Solution）

這四個(gè)模塊可以理解為SDK數(shù)據(jù)閉環(huán)回流圖的細(xì)化。

從實(shí)操來看，整體的流程與8月份對外披露的升級版變化不大。整套系統(tǒng)給人的感覺是，在批量測試之前，人基本能改的地方，都開放給了人手動修改和評分；當(dāng)然，相應(yīng)的自動化能力也沒落下。

測試下來的感覺有點(diǎn)像一輛汽車，既有手動擋又有自動擋。

比如一些媒體老師，拿官方的案例，閉著眼睛一直讓自動化流程走到底，總體也能跑通，拿一個(gè)還不錯(cuò)的測試分?jǐn)?shù)；開發(fā)者則喜歡一邊讓自動流程跑，每跑一步，就上手優(yōu)化一下，再接著跑，編prompt甚至能玩出一點(diǎn)vibe coding的感覺。

如許偉所說，PrompPilot希望把能力“交給專家”，所以產(chǎn)品方面能明顯看到給用戶留了很多能力植入和交互的地方。

首先，用戶在一鍵生成Prompt的時(shí)候可以提前加入知識庫的文檔。

用戶可以導(dǎo)入簡單的任務(wù)描述，也可以直接把領(lǐng)導(dǎo)給你的任務(wù)說明一股腦扔進(jìn)去。

因?yàn)榧幢闵尚Ч患眩彩强梢灾С謩澗€局部提修改意見，當(dāng)然直接上手改也是可以的。

跳測試。

這里給數(shù)據(jù)集輸入一個(gè)case（填寫變量）

變量可以從數(shù)據(jù)集里隨機(jī)抓，也可以AI生成以后自己改。

模型會跑回答。

跑完回答后，可以直接在模型回答里改，改到滿意為止。

如果太復(fù)雜的問題，可以在下方添加到評測集里，多輸出幾個(gè)標(biāo)準(zhǔn)答案，可以幫助模型表現(xiàn)更好。

當(dāng)然也可以批量上傳評測集，評測完成后給所有的結(jié)果手動打分和輸入評測標(biāo)準(zhǔn)。同理，評測標(biāo)準(zhǔn)可以自動生成，也可以手動改寫輸入。

然后AI會自動生成打分的分?jǐn)?shù)，打完分以后可以讓PromptPilot進(jìn)行自動優(yōu)化.

然后這個(gè)時(shí)候你才進(jìn)入到PromptPilot核心能力的大門，也就是剛才提到的Prompt臻化聯(lián)動倉（Prompt優(yōu)化和聯(lián)動精調(diào)）

如果不滿意的話，可以重新再來一遍，然后模型會不斷微調(diào)，把分?jǐn)?shù)拉上去，表現(xiàn)不好的BadCase會被收錄到“錯(cuò)題本”里，并導(dǎo)出一個(gè)智能優(yōu)化的報(bào)告。

不要小看這個(gè)流程，它其實(shí)解決了獨(dú)立開發(fā)者的幾個(gè)頭疼的問題：

上下文能力和模型評估能力。

案圖示例里只有幾十個(gè)case，但如果像agent創(chuàng)業(yè)者，動輒數(shù)千個(gè)case涌入進(jìn)來，這套流程的威力就會顯現(xiàn)出來了。這不是一個(gè)簡單的prompt編寫能力，而是幫助開發(fā)者直抵agent的核心。

我想甚至可以這么說：大模型+PromptPilot，其實(shí)就已經(jīng)可以成為一個(gè)簡單版的DIY生產(chǎn)力agent了。

所以在交流環(huán)節(jié)，有開發(fā)者站起來的第一個(gè)問題就是，這玩意兒能不能接到非火山云的場景里，比如他自己玩的端側(cè)模型（其實(shí)我猜他可能想說阿里云、騰訊云之類的友商，但不太好意思）。

王鐵飛立刻說是可以的，他們已經(jīng)開了API接口，能力是完全開放的，開發(fā)者直接自己接就可以了。

PromptPilot 團(tuán)隊(duì)至少在發(fā)布會上展現(xiàn)了很包容性的姿態(tài)，他們甚至可以支持所謂的“Repurpose”的功能——就是如果你使用了一個(gè)較大較強(qiáng)的模型，但因?yàn)楦鞣N原因需要降級模型能力，PromptPilot可以幫你在執(zhí)行這個(gè)特定的任務(wù)能力方面，盡量拉齊到原先的水平上。

我個(gè)人粗淺的理解是：相當(dāng)于你原本開奔馳大G跑高速，但120邁勻速有很多車，換飛度的性價(jià)比其實(shí)更高。但在上高速，駕駛員對路況不熟悉，寧愿先用大奔把成功率跑上去，然后慢慢再去探尋成本的邊界，而PromptPilot在這個(gè)時(shí)候可以成為你換車的工具箱之一。

所以從這個(gè)角度來說，PromptPilot不是一個(gè)簡單的prompt工具，而是大模型落地的橋梁。它既能通過對話和評分，把人的需求溝通明白，也能以此為抓手，再對模型能力進(jìn)行規(guī)劃和精調(diào)。

在所有的AI云廠都在布局agent服務(wù)能力的今天，PromptPilot未來會長成什么樣，是一件值得期待的事情。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.