337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

告別Flaky Tests:AI測試中的評分卡實戰技巧

0
分享至

在AI測試中使用評分卡沒你想的那么糟

誰不喜歡斷言(asserts)呢?



我們有個壞習慣,把"簡單"和"容易"混為一談。在傳統自動化中,定義質量很簡單。它是二元的。要么匹配,要么不匹配。綠色或紅色。

`Assert.AreEqual(expected, actual)`

但在AI領域,"好"不是二元的。它很復雜。有五十種正確說"你好"的方式,也有五十種粗魯說它的方式。作為人類,我們憑直覺處理這種復雜性。我們讀到一個不完美但抓住了主要思想的輸出,會想:"嗯,夠好了。"

但當我們試圖自動化這種感覺時,問題就開始了。自動化討厭"差不多對"。自動化想要精確。而當我們試圖將一個非確定性的、創造性的AI塞進一個僵化的、二元的盒子里時,我們得到的不是質量。相反,我們得到的是不穩定的測試(flaky tests)。



僵化數學的問題

讓我們看一個真實世界的例子:我的API 分析智能體(An API Analysis Agent)。

這是一個設計用來分析API端點的AI智能體。你給它一個提示詞:"分析這個端點,給我3個有效輸入的建議、3個無效輸入的建議,以及3個邊界情況的建議。"

在傳統測試中,你的斷言邏輯大概長這樣:

assert len(suggestions.valid)== 3assert len(suggestions.invalid) == 3assert len(suggestions.edge_cases)== 3

現在,假設 AI 返回了:

● 3個有效建議。

● 3個無效建議。

● 2個邊界情況。

總計:完成了9個請求中的8個

在傳統自動化的二元世界里,這個測試失敗了。報告變紅。流水線停止。你在Slack上收到告警。你看著失敗說:"蠢 AI。"(當然,別在麥克風附近說,它可能會聽見)。

但等等,看看數據。它給了你 8 個扎實的建議。它找到了有效輸入和無效輸入。它甚至找到了兩個棘手的邊界情況。它只是漏了一個邊界情況。這是一個"失敗"的結果嗎?還是這是一個非常有用的結果,只是沒達到一個arbitrary(隨意設定)的計數?

通過把這個標記為失敗,你在扔掉價值。你在用一個二元的"壞"標簽,掩蓋一個"夠好"的結果。



解決方案:評分卡

為了解決這個問題,我們必須停止測試相等性(Equality),開始測試實用性(Utility)。我們需要從二元斷言轉向評分卡(Scorecard)。

評分卡將"夠好"量化。它將結果分解成加權的概念并把它們加起來。

讓我們把我們之前的API結果翻譯成使用評分卡的方法:

評分標準

● 有效輸入:每個 1 分(最多 3 分)

● 無效輸入:每個 1 分(最多 3 分)

● 邊界情況:每個 1 分(最多 3 分)

通過閾值

● 及格分數:> 6

執行過程:AI 返回了 3 個有效、3 個無效和 2 個邊界情況。

● 分數:3 + 3 + 2 = 8

● 閾值:6

● 結果:通過

突然之間,你的測試套件不是紅的了。它是綠的。為什么?因為產品完成了它的工作。它提供了價值。評分卡反映的是質量的現實,而不僅僅是提示詞的嚴格性。

進化:評分卡是活的代碼

關鍵來了:這個評分卡不是靜態的。今天6分的閾值可能是可接受的。但隨著你的模型改進,或者你優化提示詞工程,你可能會把閾值提高到8。或者你可能給"有效案例"加個乘數,因為它們更重要。

這不是"維護負擔",這是質量工程(Quality Engineering)。你在主動決定"夠好"長什么樣,并把它編碼進你的套件。



結論

測試基于AI的產品或智能體,需要我們在如何看待自動化上進行根本性轉變。我們正在從檢查字符串轉向評分行為。我們正在從"通過/失敗"轉向"夠好"。

如果你還在試圖對LLM 輸出使用`Assert.Equals`,那你將會在 2026 年和你自己的測試套件打架。而且你會輸。

`Assert.Equals`

這種從二元到評分的轉變,正是我們想鼓勵人們開始使用的戰略性思考。這就是我的Captain's Bridge(艦長橋)的用武之地。讓我們停止與我們的工具對抗,開始領導我們的質量——來自戰壕的戰略原則或實踐。

??轉崗軟件測試/野路子技能提升

??想了解更多漲薪技能提升方法

??可以到我的個人號:atstudy-js

即可加入領取 ??????

轉行、入門、提升、需要的各種干貨資料

內含AI測試、 車載測試、AI大模型開發、BI數據分析、銀行測試、游戲測試、AIGC

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江一車主崩潰求救:車上有只“超兇大老鼠”!消防員苦戰20分鐘發現竟是……

浙江一車主崩潰求救:車上有只“超兇大老鼠”!消防員苦戰20分鐘發現竟是……

臺州交通廣播
2026-03-22 00:25:57
西部最新排名:湖人9連勝穩第三 火箭絕殺仍第四  太陽5連敗

西部最新排名:湖人9連勝穩第三 火箭絕殺仍第四 太陽5連敗

顏小白的籃球夢
2026-03-22 13:49:59
加息是死,降息也是死!美債瞬間破39萬億,要警惕特朗普下一步!

加息是死,降息也是死!美債瞬間破39萬億,要警惕特朗普下一步!

青青子衿
2026-03-22 03:53:50
蹭飯260次后續:龐先生已后悔,發視頻道歉,4S店態度堅決不和解

蹭飯260次后續:龐先生已后悔,發視頻道歉,4S店態度堅決不和解

奇思妙想草葉君
2026-03-21 19:57:27
這是我見過整個東亞最美的女人,沒有之一

這是我見過整個東亞最美的女人,沒有之一

手工制作阿殲
2026-03-22 11:39:46
產婦痛到求打無痛針被丈夫婆婆拒絕,出產房后把丈夫打進急診

產婦痛到求打無痛針被丈夫婆婆拒絕,出產房后把丈夫打進急診

看曉天下事
2026-03-20 17:26:59
反偵查能力太強!梅姨躲了20年,警方曾拋出“她或不存在”煙霧彈

反偵查能力太強!梅姨躲了20年,警方曾拋出“她或不存在”煙霧彈

火山詩話
2026-03-22 06:54:34
女兒相中599元的鞋,娘仨在店門口糾結半小時咬牙買下,母親回應:女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

女兒相中599元的鞋,娘仨在店門口糾結半小時咬牙買下,母親回應:女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

揚子晚報
2026-03-21 17:07:50
“‘梅姨’在廣州三元里落網”為不實信息!相關部門辟謠

“‘梅姨’在廣州三元里落網”為不實信息!相關部門辟謠

南方都市報
2026-03-22 10:42:23
路虎別停奔馳后續:曝更多內幕,路虎哥“底褲”被扒,果然不一般

路虎別停奔馳后續:曝更多內幕,路虎哥“底褲”被扒,果然不一般

社會日日鮮
2026-03-21 21:43:51
網上舉報“民政局女干部母親名下登記有賓利車和10套房產”,女子被判道歉10天;再次發聲講述舉報原因

網上舉報“民政局女干部母親名下登記有賓利車和10套房產”,女子被判道歉10天;再次發聲講述舉報原因

大風新聞
2026-03-22 12:54:09
杜蘭特總分超喬丹!阿門壓哨補籃火箭絕殺熱火 阿德巴約32+21

杜蘭特總分超喬丹!阿門壓哨補籃火箭絕殺熱火 阿德巴約32+21

醉臥浮生
2026-03-22 10:29:25
中央批準:靳磊任廣東省委常委和深圳市委書記

中央批準:靳磊任廣東省委常委和深圳市委書記

瀟湘晨報
2026-03-22 13:17:08
新加坡:以色列很快將被夷為平地!

新加坡:以色列很快將被夷為平地!

安安說
2026-03-22 12:45:41
澤連斯基急得要命!

澤連斯基急得要命!

新民周刊
2026-03-22 09:11:06
蹭飯哥公開道歉:否認260次蹭飯,稱帶盒飯因患病,無辜人被牽連

蹭飯哥公開道歉:否認260次蹭飯,稱帶盒飯因患病,無辜人被牽連

潮鹿逐夢
2026-03-21 18:38:08
加蘭41+11加盟新高!快船加時滅獨行俠 小卡34分大洛破18000分

加蘭41+11加盟新高!快船加時滅獨行俠 小卡34分大洛破18000分

醉臥浮生
2026-03-22 11:10:28
反轉太突然!重慶舉報案:上午道歉,下午紀委火速介入

反轉太突然!重慶舉報案:上午道歉,下午紀委火速介入

陳博世財經
2026-03-22 10:49:17
網傳“梅姨”本人照片系虛假內容,非警方發布!相關部門辟謠

網傳“梅姨”本人照片系虛假內容,非警方發布!相關部門辟謠

南方都市報
2026-03-22 12:58:06
核設施遭襲!伊朗發出全球追殺令,24小時內,普京一句話穩住局面

核設施遭襲!伊朗發出全球追殺令,24小時內,普京一句話穩住局面

軍機Talk
2026-03-22 11:06:25
2026-03-22 15:11:00
51Testing軟件測試網 incentive-icons
51Testing軟件測試網
中國軟件測試人的精神家園
1541文章數 13254關注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰術” 沖刺8000人規模

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

體育要聞

鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

本地
手機
時尚
旅游
親子

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

手機要聞

一加15T新機現身中國電信終端產品庫,3月24日發布

伊姐周六熱推:電視劇《隱身的名字》;電視劇《正義女神》......

旅游要聞

藏在鄭東新區的詩與遠方,本地人私藏不撞款

親子要聞

7歲男孩查出尿毒癥,家長崩潰大哭,醫生怒斥:這幾物怎可常吃!

無障礙瀏覽 進入關懷版