337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

MIT團隊用AI檢驗AI:AI給出的“最優解”真的公平嗎?

0
分享至


(來源:麻省理工科技評論)

AI 正越來越多地被用于輔助高風險場景下的決策。比如一個自主系統可以找出一種電力分配策略,在保持電壓穩定的前提下把成本降到最低。

這些由 AI 給出的方案雖然在技術上可能是最優的,它們真的公平嗎?如果一個低成本的電力分配策略讓條件不佳的社區比高收入地區更容易遭遇停電,這算不算問題?

為了幫助相關方在 AI 系統部署之前就能快速發現潛在的倫理困境,MIT 的研究人員開發了一套自動化評估方法。這套方法的目標是在可量化指標(比如成本或穩定性)與那些定性或主觀的價值(比如公平性)之間找到平衡。

該系統把客觀評估與用戶定義的人類價值觀分開處理,使用一個大語言模型作為“人類代理”來捕捉和整合相關方的偏好。

這套自適應框架會挑選出最值得進一步評估的場景,從而簡化原本需要耗費大量人力和時間的手工流程。這些測試用例既能展示自動系統與人類價值觀高度吻合的情況,也能揭示那些意外偏離倫理標準的情境。

“我們可以給 AI 系統加上很多規則和護欄,但這些防護只能攔住我們事先能想到的那些風險。不能因為 AI 是在這些數據上訓練過的,就覺得讓它直接上崗就行。我們想做的是找到一種更系統的方法,把那些‘未知的未知’提前挖出來,在壞事發生之前就預判到它。”論文的通訊作者、MIT 航空航天系(AeroAstro)副教授、MIT 信息與決策系統實驗室(LIDS)首席研究員范楚楚(Chuchu Fan)說。

論文的第一作者是機械工程系研究生安嘉麗·帕拉沙爾(Anjali Parashar),合著者包括 AeroAstro 博士后 Yingke Li,以及 MIT 和薩博公司(Saab)的其他研究人員。該研究將在國際學習表征大會(ICLR)上發表。



為倫理打分

在電網這樣的大型系統里,要全面評估 AI 推薦方案是否符合倫理,兼顧所有目標,是一件特別困難的事。

大多數測試框架依賴預先收集的數據,但涉及主觀倫理標準的標注數據往往很難拿到。另外,倫理價值觀和 AI 系統本身都在不斷變化,基于成文規則或監管文件的靜態評估方法需要頻繁更新。

范楚楚和她的團隊從另一個角度切入這個問題。他們借鑒了自己之前在機器人系統評估方面的工作,開發出一套實驗設計框架,專門用來識別那些最有信息量的場景,供人類相關方進一步仔細評估。

這套由兩部分組成的系統叫做 SEED-SET(Scalable Experimental Design for System-level Ethical Testing,系統級倫理測試的可擴展實驗設計),結合了量化指標與倫理標準。它既能識別出那些既滿足可量化要求、又符合人類價值觀的場景,也能找出反過來的情況。

“我們不想把所有資源都花在隨機評估上。所以關鍵是讓框架聚焦在我們最關心的那些測試用例上,”Yingke Li 說。

SEED-SET 的一個重要優勢是:它不需要預先存在的評估數據,而且可以適配多個目標。以一個電網為例,它可能有多個用戶群體,比如一個較大的農村社區和一個數據中心。兩類用戶都希望電力便宜又可靠,但從倫理角度看,他們各自的優先級可能差異很大。

這些倫理標準往往沒有明確定義,因此無法用分析方法直接度量。電網運營方想要找到一種最具成本效益的策略,同時盡可能滿足所有相關方的主觀倫理偏好。

SEED-SET 應對這個挑戰的方法是把問題拆成兩層,按層級結構處理。第一層是客觀模型,評估系統在成本等具體指標上的表現;第二層是主觀模型,在客觀評估的基礎上,考慮相關方的判斷,比如他們感受到的公平程度。

“我們方法中客觀的那一部分對應的是 AI 系統,主觀的那一部分對應的是評估它的用戶。通過以層級方式拆解偏好,我們可以用更少的評估次數生成理想的場景,”帕拉沙爾說。



把主觀評價編碼進來

為了完成主觀評估,系統用一個大語言模型來替代人類評估者。研究人員把每個用戶群體的偏好編碼成自然語言提示詞交給模型,大語言模型按照這些指令對兩個場景進行比較,根據倫理標準選出更合意的那個。

“一個人類評估者在看過幾百甚至幾千個場景之后會疲勞,評估也會變得不一致,所以我們用基于大語言模型的策略來代替,”帕拉沙爾解釋說。SEED-SET 會用選出的場景來模擬整個系統(在這個例子里就是電力分配策略)。模擬結果又會反過來引導系統去尋找下一個最值得測試的候選場景。

最終,SEED-SET 能智能地篩選出最具代表性的場景,無論是那些同時達標客觀指標和倫理標準的場景,還是那些明顯偏離的場景。用戶可以據此分析 AI 系統的表現,并調整它的策略。

舉個例子,SEED-SET 能精準找出那些在用電高峰期優先保障高收入區域、讓條件較差的社區更容易停電的電力分配方案。

為了測試 SEED-SET,研究人員對若干真實的自主系統做了評估,包括一個 AI 驅動的電網和一個城市交通調度系統。他們測量了所生成的場景與倫理標準的吻合程度。在相同時間里,該系統生成的最優測試用例數量超過了基準方法的兩倍,還發現了許多其他方法忽略的場景。

“當我們改變用戶偏好時,SEED-SET 生成的場景集合也會發生明顯變化。這說明評估策略對用戶的偏好反應靈敏,”帕拉沙爾說。

要驗證 SEED-SET 在實際應用中的價值,研究人員還需要開展一項用戶研究,看看它生成的場景能不能幫助真實的決策過程。

除了這項用戶研究,研究人員還計劃探索使用更高效的模型,把這套方法擴展到規模更大、評估標準更多的問題上,比如用來評估大語言模型自己的決策過程。

https://news.mit.edu/2026/evaluating-autonomous-systems-ethics-0402

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場3:1讓申花喜獲大發現,昔日廢柴已成中場猛人,伊萬沒看錯人

一場3:1讓申花喜獲大發現,昔日廢柴已成中場猛人,伊萬沒看錯人

零度眼看球
2026-04-19 07:03:44
建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

馬蹄燙嘴說美食
2026-04-20 03:33:58
虧了也要賣!武漢一老板娘最終決定:專供中東!首款5天全部賣光

虧了也要賣!武漢一老板娘最終決定:專供中東!首款5天全部賣光

新浪財經
2026-04-17 15:19:51
重大轉折!巴薩叫停2600萬買斷,拉什福德今夏有望登陸阿森納?

重大轉折!巴薩叫停2600萬買斷,拉什福德今夏有望登陸阿森納?

夜白侃球
2026-04-19 19:48:23
中國股市:為何股票封板了,但資金卻顯示凈流出?不懂你就輸了

中國股市:為何股票封板了,但資金卻顯示凈流出?不懂你就輸了

股經縱橫談
2026-03-16 20:17:12
蔡振華現狀:65歲圓滿無遺憾,享受退休生活,唯獨37歲兒子讓他愁

蔡振華現狀:65歲圓滿無遺憾,享受退休生活,唯獨37歲兒子讓他愁

洲洲影視娛評
2026-04-14 13:58:26
狂勝52分!2比0領先,三連冠還差1場!

狂勝52分!2比0領先,三連冠還差1場!

左右為籃
2026-04-19 21:46:48
平安,可能是王石最后的體面了

平安,可能是王石最后的體面了

波哥看樓市
2026-04-18 21:58:19
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點讀書
2026-04-18 18:36:15
凈利潤超45億元!又一光伏龍頭業績出爐

凈利潤超45億元!又一光伏龍頭業績出爐

新浪財經
2026-04-19 21:14:10
英國小妹歧視中國人后續:身份曝光社死,學校回應下場大快人心

英國小妹歧視中國人后續:身份曝光社死,學校回應下場大快人心

王誙自駕
2026-04-19 15:07:40
崩了!澳洲物價要瘋漲 通脹要破5%!澳洲油價開始暴跌!

崩了!澳洲物價要瘋漲 通脹要破5%!澳洲油價開始暴跌!

澳洲財經見聞
2026-04-20 04:32:06
英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

余憁搞笑段子
2026-04-20 00:20:16
女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

情感藝術家
2026-02-26 10:48:00
1955 年饒漱石遭開除黨籍,歷多年關押服刑,晚年于農場度余生

1955 年饒漱石遭開除黨籍,歷多年關押服刑,晚年于農場度余生

嘮叨說歷史
2026-03-24 11:17:11
逃亡沙特不久,馬步芳取親侄女為妻,蔣介石:他讓我顏面盡失

逃亡沙特不久,馬步芳取親侄女為妻,蔣介石:他讓我顏面盡失

史筆似塵鉤
2026-04-19 19:48:56
男女從曖昧到越界,大多是從這4個互動,漸漸發展起來的

男女從曖昧到越界,大多是從這4個互動,漸漸發展起來的

葉飛飛情感屋
2026-04-19 22:13:44
巴基斯坦空軍進駐沙特,真實目的曝光,不是防伊朗,是怕有人搞鬼

巴基斯坦空軍進駐沙特,真實目的曝光,不是防伊朗,是怕有人搞鬼

愛吃醋的貓咪
2026-04-15 21:20:06
要同居了?太陽報:漢密爾頓和卡戴珊被拍到一起購買家居用品

要同居了?太陽報:漢密爾頓和卡戴珊被拍到一起購買家居用品

懂球帝
2026-04-17 14:04:19
強闖臺海后,高市再惹大禍,中朝聯合亮劍,解放軍現身日本家門口

強闖臺海后,高市再惹大禍,中朝聯合亮劍,解放軍現身日本家門口

離開地球a
2026-04-20 00:15:57
2026-04-20 06:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16598文章數 514891關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

教育
時尚
旅游
游戲
本地

教育要聞

南昌縣全民閱讀活動在斗柏路小學開展

裝修“精神角落”,就是這么上癮

旅游要聞

北京投入2.2億元建成和田“三館一院”

如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

無障礙瀏覽 進入關懷版