337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude悄悄更新了Skills生成器,這絕對是一次史詩級升級。

0
分享至

  上周直播的時候,發(fā)現(xiàn)Anthropic的skills倉庫居然有更新了。

  點(diǎn)進(jìn)去一看,然后居然發(fā)現(xiàn)了一個超級剛需的Skills迎來了更新。

  就是這個,甚至可以說是整個Skills生態(tài)的基石。

  Skill-creator。

  可以說,現(xiàn)在小龍蝦的能力能這么強(qiáng),有一半的原因都要?dú)w功于Skills,而這些Skills能被創(chuàng)造出來,幾乎都要?dú)w功于這個母Skills,Skill-creator。

  我相信,任何一個看過我們過去關(guān)于Skills的文章,或者玩過Skills的朋友,都絕對不可能對這個Skill-creator陌生。

  簡單總結(jié)就是,這是Anthropic官方出的Skills生成器。

  你可以用嘴描述出你的需求,然后直接用Skill-creator,幫你做成一個Skill。

  如果有不了解的,可以去看一下我們過去的這一篇文章:自認(rèn)為寫的還是比較詳細(xì)的。

  這周終于有時間,詳細(xì)翻了一下這次更新的Skill-creator的文檔,然后發(fā)現(xiàn),這次真的可以說,是史詩級更新也不為過,強(qiáng)了太多太多了。

  

  所以我覺得,值得寫一篇文章,來給大家聊聊,這次Skill-creator更新的新特性和新功能。

  真的,所有的skills,都值得重新優(yōu)化一遍。

  非常簡單的說,這次他們一口加了4個全新的能力,分別是:

  1. 評估系統(tǒng),跑完直接告訴你這個skill到底行不行。

  2. 基準(zhǔn)測試,把通過率、耗時、token用量,全都量化。

  3. 多代理并行測試,每個測試在干凈的環(huán)境里獨(dú)立跑,支持A/B盲評,結(jié)果不互相污染。

  4. 描述調(diào)優(yōu),可以自動幫你改skill描述,該觸發(fā)的觸發(fā),不該觸發(fā)的就別亂觸發(fā)。

  之前的Skill-creator其實(shí)一直有個痛點(diǎn),就是你生成完的Skills,其實(shí)是個黑盒,你完全不知道,這個Skills到底好不好用,它的質(zhì)量怎么樣,它的觸發(fā)機(jī)制合不合理。

  用我們現(xiàn)代經(jīng)常提的工業(yè)化體系來說,就是缺少了一個很重要的東西,評估機(jī)制。

  評估太重要了,一個好的評估,是真的可以引領(lǐng)方向的。

  而現(xiàn)在,新版的Skill-creator,直接把整個評估體系,全都補(bǔ)上了。

  我極力推薦大家,一定要更新到最新版。

  更新方式也究極無敵簡單,你直接把這段話,發(fā)給你的Agent就行,無論是Claude code、OpenClaw、OpenCode等等等等:

  https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本

  對,就這么一句話。

  然后你的Agent,就會自己去更新了。

  

  很快,就更新完了。

  

  我用一個案例,來給大家演示一下新版Skill-creator的能力。

  在之前有一篇文章中,我把Github上的yt-dlp做成了一個Skill,能從YouTube、B站等各種視頻網(wǎng)站下載視頻。

  

  但其實(shí)我們后來發(fā)現(xiàn),光能下載視頻還不夠。

  我還希望拿到視頻鏈接之后,能直接生成文字版的講稿。

  而且如果是英文或其他語言的視頻,最好能直接給我中英雙語的講稿文檔。

  所以正好,借著這個機(jī)會,我就用skill-creator又搓了一個新skill。

  提示詞很簡單。

  我想創(chuàng)建一個skill,我希望能夠?qū)崿F(xiàn)我給了一個視頻鏈接,它能夠把文字版的講稿發(fā)給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。

  它會先問你幾個問題,確認(rèn)需求細(xì)節(jié),然后開始幫你設(shè)計整個skill。

  

  大概3到5分鐘,這個Skill就設(shè)計完了。

  我拿一個OpenClaw創(chuàng)始人的YouTube訪談視頻來試一下。

  

  就給了一個YouTube的鏈接。

  五分鐘后,中文版的講稿就出來了。

  

  但是,其實(shí)有個問題。。。

  這一大坨文字堆在一起,字又小又?jǐn)D。

  根本沒法看。

  這時候你就可以繼續(xù)對話,讓它給你優(yōu)化,幫你改進(jìn)這個skill。

  

  新版的Skill-creator,在改進(jìn)的能力上,也有一些提升。

  改進(jìn)之后的效果:

  

  幾乎完美。

  排版清晰,段落分明,這才像個文檔該有的樣子。

  但這還沒完。

  但這個時候,一個頭疼的問題就來了,我害怕我的skills觸發(fā)會打架。

  因?yàn)槲椰F(xiàn)在有兩個skill都跟視頻鏈接相關(guān)。

  一個是yt-dlp,負(fù)責(zé)下載視頻到本地。

  一個是剛做的講稿生成,負(fù)責(zé)把視頻轉(zhuǎn)成文字。

  兩個skill的觸發(fā)條件都是給一個視頻鏈接,我害怕他們會打架,就是出現(xiàn)該觸發(fā)的不觸發(fā),不該觸發(fā)的亂觸發(fā)。

  那就可以使用Skill-creator的評估體系了,讓它來幫你,進(jìn)行優(yōu)化skill描述。

  它受會先讀取你當(dāng)前skill的描述,然后告訴你接下來要做四件事:

  

  自動生成兩組查詢,應(yīng)觸發(fā)的10條和不應(yīng)觸發(fā)的10條。

  設(shè)計得很有意思。

  故意把邊界情況都擺進(jìn)去,逼模型在模糊地帶做判斷。

  

  然后,直接生成了一個網(wǎng)頁,讓你確認(rèn),特別牛逼。

  真的,我用到的時候都驚呆了。

  

  所有查詢排在界面里,每一條右邊有個開關(guān),標(biāo)著是否應(yīng)該觸發(fā)。

  你可以逐條看一遍,覺得哪條判斷不對,直接關(guān)就行。

  打個比方,第三條這種情況,我不想讓它再觸發(fā)了,我就直接讓它關(guān)掉就行。

  

  然后還有不應(yīng)該觸發(fā)的10條,我看了一遍,沒啥問題。

  

  所有的都確認(rèn)之后,這時候,你點(diǎn)導(dǎo)出評估集,就完事啦。

  確認(rèn)完樣本之后,優(yōu)化循環(huán)會在后臺啟動,最多跑5輪迭代。

  每一輪做三件事來幫你進(jìn)行測試和評估,整個過程大約需要10-20分鐘。

  

  它害會定期匯報進(jìn)度。

  跑完之后就是你就能看到一個巨型表格。

  

  每一列是一個查詢樣本,每一行是一個迭代版本的描述。

  綠色勾對勾表示觸發(fā)成功,紅色叉×表示沒觸發(fā)。

  

  藍(lán)色列是測試集,其余是訓(xùn)練集。

  

  它把樣本分成60%訓(xùn)練集和40%測試集,在訓(xùn)練集上迭代優(yōu)化,最終用測試集上的表現(xiàn)來選,防止過擬合。

  跑完之后,最優(yōu)的描述會自動寫回你的SKILL.md,全程不用你動手。

  Anthropic官方在自己6個文檔類skill上測了一下,5個觸發(fā)率都有提升。

  僅僅就用新版的skill-creator優(yōu)化了一下,真的很牛逼。

  

  通過這一步,能大大提升你的Skills的觸發(fā)準(zhǔn)確率。

  但觸發(fā)對了,并不等于OK。

  所以,你的Skill裝上并且能穩(wěn)定觸發(fā)之后,到底在實(shí)際任務(wù)上表現(xiàn)如何,這個能力,也還要評估一下。

  我就繼續(xù)拿這個剛做好的skill來跑一遍,帶你大家看看整個過程。

  直接對剛剛那個skill進(jìn)行一下評估。

  

  它會先把你的skill文件完整讀一遍,搞清楚這個skill的核心流程是什么。

  

  然后它會問你:你更想測哪個方面?

  我選了全面評估。

  它根據(jù)skill的功能,自動設(shè)計了三類測試場景,同時設(shè)計了量化驗(yàn)收標(biāo)準(zhǔn)。

  

  確認(rèn)方案之后,它一次性啟動了4個獨(dú)立子代理,同時跑。

  

  這次4個并行的Agent來進(jìn)行測試,就很香了。

  以前其實(shí)你也可以做一些簡單的評估,但是,最大的問題,就是會按順序跑,一個跑完再跑下一個。

  但是大家都知道,上下文管理有多重要,前一個任務(wù)積累的上下文,會污染后一個的結(jié)果。

  你以為是skill的功勞,但,其實(shí)完全是對話歷史幫了忙。

  這次的評估,就對味了很多。

  每個代理都在完全干凈的環(huán)境里獨(dú)立運(yùn)行,有自己的token 計數(shù)和時間指標(biāo)。

  互相之間零交叉。

  結(jié)果更快,數(shù)據(jù)更干凈。

  等待的時候,它也順手就把量化評分腳本也準(zhǔn)備好了。

  等測試結(jié)果回來之后,就直接自動檢查格式是否符合要求,很多小細(xì)節(jié)全都在里面。

  

  測試跑完,瀏覽器會里彈出評估查看頁面,有兩個標(biāo)簽頁。

  輸出標(biāo)簽頁,可以直接看每個測試用例的輸出。

  下面還有一個反饋框,你可以直接標(biāo)注哪里不對、哪里需要改進(jìn)。

  這些反饋會被存起來,下次改進(jìn)skill的時候直接用。

  

  另一個是基準(zhǔn)測試標(biāo)簽頁,可以看有skill vs 無skill。

  通過量化對比,一目了然。

  

  數(shù)據(jù)這塊,也是極度量化。

  

  有skill的通過率100%,無skill基線9%,差值91.5%。

  費(fèi)用上,有skill每次大約4000token,無skill1750token,差了2250。

  但這是skill帶來的額外消耗,對比產(chǎn)出的結(jié)果,值得。

  但評估的價值遠(yuǎn)不止于此。

  Anthropic官方也舉了個例子。

  他們有個PDF skill,之前在處理表格時會出錯。

  Claude需要把文字精確的放在特定坐標(biāo)上,但因?yàn)闆]有明確的字段做引導(dǎo),經(jīng)常放歪。

  這個問題在評估過程中被發(fā)現(xiàn),再進(jìn)行修復(fù)改進(jìn)定位邏輯后,問題就解決了。

  

  也就是說,找到問題之后不用從頭來過。

  評估結(jié)果會存在本地,下次你用skill-creator改進(jìn)這個skill的時候,它會把上次標(biāo)注的問題直接帶進(jìn)去,針對那里改。

  改完再跑一遍評估,看有沒有提升。

  測試、發(fā)現(xiàn)、修、再測,這個循環(huán)是完整的。

  Anthropic把軟件開發(fā)的一些嚴(yán)謹(jǐn)做法,比如測試、基準(zhǔn)、迭代改進(jìn)等等,這次引入Skills的創(chuàng)作流程。

  真的,牛逼太多了。

  這絕對對于所有人來說,都是一個史詩級增強(qiáng)。

  你要知道,小龍蝦為什么那么強(qiáng),能做那么多的事,其實(shí)真不是因?yàn)樗旧碛卸嗯1疲兇馐且驗(yàn)椋砩蠏斓腟Kills,太多了,那都是一個一個的技能包。

  可以說,Skills,就是整個Agent未來大繁榮生態(tài)的基石,而我自己,也一直極力的看好和強(qiáng)力推廣各種各樣的Skills。

  所以,我極度建議,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都進(jìn)行優(yōu)化和評估一遍。

  當(dāng)然,你得先分清楚,你寫的Skills是哪種。

  因?yàn)楸举|(zhì)上,Skills其實(shí)分兩種。

  第一種是能力提升型。

  就是教Claude做它本來不擅長的事。

  比如官方的前端設(shè)計skill、文檔創(chuàng)建skill,里面寫了大量技巧,是你光靠Prompt根本拿不到的效果。

  我們大多數(shù)人自己搓的skill,基本也都是這類。

  第二種官方叫編碼偏好型。

  就是告訴Claude按你的規(guī)矩來。

  Claude本身每一步都能做,但你的skill把這些步驟按你團(tuán)隊(duì)的流程串起來了。

  比如一個會議紀(jì)要整理skill,按你們公司固定的格式,自動把錄音轉(zhuǎn)成帶行動項(xiàng)的文檔。

  或者一個周報生成skill,從各個平臺里拉數(shù)據(jù),按你要的格式排好。

  你可以把這種,理解成一個Workflow,就是一個工作流。

  對這兩種類型,評估的方向會稍微不太一樣。

  對于能力提升型,測的是模型更新之后這個skill還有沒有存在的必要。

  用A/B測試對比,有skill和沒skill各跑一次。

  結(jié)果如果差不多,這個skill就可以退休了。

  

  編碼偏好型測的是另一件事,它有沒有老老實(shí)實(shí)按你的流程走?

  有沒有漏步驟?有沒有自作主張改了順序?有沒有忘了你特別說過的某個要求?

  所以會稍稍有一些區(qū)別,這個大家在自己評估的時候,可以注意一下。

  回頭想想,以前造完一個skill,其實(shí)也就是自我感覺良好。

  但說實(shí)話,全是黑盒,根本不知道該怎么評估。

  現(xiàn)在就舒服多了。

  評估跑一遍,數(shù)據(jù)擺出來,好不好用,一眼就見真章。

  所有的Skills,真的都值得重新優(yōu)化和評估一遍。

  Skills生態(tài)。

  感覺又要迎來一波大繁榮了。

  以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

  >/ 作者:卡茲克、可達(dá)

  >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女人愛聽這些兩性關(guān)系中的“下流話”,尤其是過了中年的女人

女人愛聽這些兩性關(guān)系中的“下流話”,尤其是過了中年的女人

i書與房
2026-03-25 16:30:22
科威特一電力和海水淡化設(shè)施遭襲受損

科威特一電力和海水淡化設(shè)施遭襲受損

財聯(lián)社
2026-03-30 15:25:11
杉杉集團(tuán)家族內(nèi)斗失控

杉杉集團(tuán)家族內(nèi)斗失控

地產(chǎn)微資訊
2026-03-27 10:10:55
山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報警

山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報警

五元講堂
2024-10-24 10:54:37
今日最慘股,上一分鐘還是一字漲停狀態(tài),下一分鐘就在跌停板上了

今日最慘股,上一分鐘還是一字漲停狀態(tài),下一分鐘就在跌停板上了

丁丁鯉史紀(jì)
2026-03-30 16:49:15
西安轎車出租車相撞后續(xù)!知情人曝現(xiàn)場細(xì)節(jié),1死2傷真相藏在路口

西安轎車出租車相撞后續(xù)!知情人曝現(xiàn)場細(xì)節(jié),1死2傷真相藏在路口

千言娛樂記
2026-03-30 23:46:37
伊朗的頭號強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

伊朗的頭號強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

夢的微塵
2026-03-31 00:11:18
海航最美空姐撿的是水,打的是所有航司官媒的臉

海航最美空姐撿的是水,打的是所有航司官媒的臉

民航大腦殼
2026-03-30 08:05:54
探店尚界Z7:人氣不輸新小米SU7

探店尚界Z7:人氣不輸新小米SU7

駕仕派
2026-03-30 12:57:33
魯山舅舅娶亡姐大結(jié)局!新華社通報調(diào)查結(jié)果,這次終于真相大白了

魯山舅舅娶亡姐大結(jié)局!新華社通報調(diào)查結(jié)果,這次終于真相大白了

離離言幾許
2026-03-30 22:39:30
這六類人將直接成為公務(wù)員,無需考試晉升還快!

這六類人將直接成為公務(wù)員,無需考試晉升還快!

深度報
2026-02-15 23:18:45
兩年獵殺1400伊高層,以色列何為“斬首”如探囊取物?

兩年獵殺1400伊高層,以色列何為“斬首”如探囊取物?

高博新視野
2026-03-28 08:00:22
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點(diǎn)半吃瓜
2026-03-10 07:00:13
突變!特朗普最新發(fā)聲,黃金、白銀V形拉升!原油回落!

突變!特朗普最新發(fā)聲,黃金、白銀V形拉升!原油回落!

證券時報e公司
2026-03-30 12:21:25
北京世紀(jì)金源購物中心新變化!“這幾天很多店排大隊(duì)”

北京世紀(jì)金源購物中心新變化!“這幾天很多店排大隊(duì)”

北京商報
2026-03-30 14:13:59
馬筱梅首度回應(yīng)與張?zhí)m關(guān)系:婆婆說的才算數(shù),小玥兒姐弟待遇曝光

馬筱梅首度回應(yīng)與張?zhí)m關(guān)系:婆婆說的才算數(shù),小玥兒姐弟待遇曝光

青杉依舊啊啊
2026-03-29 22:14:18
以色列海法煉油廠在導(dǎo)彈襲擊中起火

以色列海法煉油廠在導(dǎo)彈襲擊中起火

環(huán)球網(wǎng)資訊
2026-03-30 18:16:36
朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

世界圈
2026-03-29 02:20:03
2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
日本警察廳就自衛(wèi)隊(duì)員強(qiáng)闖中國使館事件召開會議

日本警察廳就自衛(wèi)隊(duì)員強(qiáng)闖中國使館事件召開會議

極目新聞
2026-03-30 14:08:22
2026-03-31 02:36:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
485文章數(shù) 600關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

數(shù)碼
本地
健康
旅游
游戲

數(shù)碼要聞

自在從容的「4K工作臺」:vivo Pad6 Pro 深度體驗(yàn)報告

本地新聞

用Color Walk的方式解鎖城市春日

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

走!去蘇州河畔新開的書香文化“大船”看看

《紅色沙漠》Steam熱更新上線 修復(fù)光線重建問題

無障礙瀏覽 進(jìn)入關(guān)懷版