![]()
AI技能出問題的時候,你通常只能干瞪眼。輸出看著不對?改改描述。還是不對?加點示例。越改越糟?再改回去。整個過程像在黑暗房間里扔飛鏢。
SkillCompass的作者干過這種事太多次。他做過一個SQL查詢技能,復雜查詢時輸出總"怪怪的"。重寫描述——觸發率掉了,錯誤還在。重寫核心指令——JOIN能用了,子查詢崩了。塞了8個示例——提示詞膨脹,質量全線滑坡。
三輪折騰,回到原點。真正的病灶他根本沒碰:D4功能層根本不支持JOIN、子查詢和CTE。但他一直在改描述,因為描述是最顯眼的部分。沒有診斷,優化就是隨機漫步。
6個維度:給AI技能做全身檢查
SkillCompass把技能質量拆成6個維度打分。D3安全是硬門檻——出現關鍵安全漏洞直接判FAIL,總分再高也沒用。D4功能權重最高,觸發了卻干不成活,其他維度再干凈也是白搭。
運行一條命令就能出完整報告:
/skill-compass evaluate {skill}
![]()
報告會標出最弱的維度,修復,驗證,再攻下一個。一輪一輪,每步都有證明。
為什么"改描述"成了陷阱
描述層(D1)是最容易下手的,也是最容易騙自己的。你改了三版描述,以為在優化,實際只是在調整觸發概率。功能層的窟窿原封不動。
這像給漏水的鍋換了個漂亮的把手。作者的原話是:「沒有診斷的改進嘗試,變壞的概率和變好一樣高。」
SkillCompass的評估驅動邏輯強行打斷這種循環。它要求你先測再改,改完再測。不能同時動多個維度,必須一個一個來。
開源之后的走向
項目MIT協議開源,GitHub倉庫剛上線。作者提到下一步想做自動修復——現在是指明病灶,未來可能直接開刀。
但有個問題他沒回答:當AI技能能給自己做體檢,甚至自己給自己動手術時,人類產品經理的角色會變成什么?是更高階的架構師,還是最后被優化的那一層?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.