網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

慕尼黑工業(yè)大學(xué)團(tuán)隊(duì)揭秘：多模態(tài)AI面對(duì)細(xì)致提問(wèn)時(shí)的"幻覺(jué)"困擾

2026-03-27 17:09:53　來(lái)源: 科技行者

北京舉報(bào)

分享至

在人工智能快速發(fā)展的今天，能夠同時(shí)理解圖片和文字的多模態(tài)大語(yǔ)言模型正在改變著我們與AI交互的方式。就像一個(gè)能看圖說(shuō)話的聰明助手，這些模型可以回答關(guān)于圖片的各種問(wèn)題。然而，這項(xiàng)由慕尼黑工業(yè)大學(xué)機(jī)器學(xué)習(xí)中心、亥姆霍茨慕尼黑研究中心、谷歌公司以及法國(guó)巴黎電信學(xué)院聯(lián)合開(kāi)展的最新研究，發(fā)表于2026年3月的arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2603.17662v1），卻揭示了一個(gè)令人意外的發(fā)現(xiàn)：當(dāng)我們向這些AI提出非常細(xì)致、精確的問(wèn)題時(shí)，它們竟然會(huì)產(chǎn)生各種各樣的"幻覺(jué)"。

這就好比一個(gè)平時(shí)表現(xiàn)不錯(cuò)的學(xué)生，在面對(duì)簡(jiǎn)單的選擇題時(shí)能夠輕松應(yīng)答，但當(dāng)遇到需要仔細(xì)分辨細(xì)節(jié)的題目時(shí)，卻開(kāi)始胡言亂語(yǔ)。研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的測(cè)試標(biāo)準(zhǔn)就像只考簡(jiǎn)單題目的考卷，無(wú)法真正檢測(cè)出這些AI在面對(duì)復(fù)雜細(xì)致問(wèn)題時(shí)的表現(xiàn)缺陷。因此，他們專門(mén)設(shè)計(jì)了一套名為FINER的全新測(cè)試體系，專門(mén)用來(lái)檢驗(yàn)AI在面對(duì)精細(xì)化問(wèn)題時(shí)是否還能保持準(zhǔn)確性。

更令人欣慰的是，研究團(tuán)隊(duì)不僅發(fā)現(xiàn)了問(wèn)題，還提出了解決方案。他們開(kāi)發(fā)了一套名為FINER-Tuning的訓(xùn)練方法，就像為學(xué)生量身定制的強(qiáng)化訓(xùn)練課程，專門(mén)提升AI處理細(xì)致問(wèn)題的能力。實(shí)驗(yàn)結(jié)果顯示，經(jīng)過(guò)這種特殊訓(xùn)練的AI模型，在處理精細(xì)化問(wèn)題時(shí)的準(zhǔn)確率最高提升了24.2%，這個(gè)改進(jìn)幅度相當(dāng)顯著。

一、AI"看圖說(shuō)話"的奇妙與困擾

當(dāng)我們拿著一張家庭聚會(huì)的照片問(wèn)AI"這里有貓嗎？"時(shí)，大多數(shù)現(xiàn)代AI都能給出正確答案。但如果我們問(wèn)得更加具體："這里有一只主要為白色、帶有黑色和灰色斑紋、頭朝下、耳朵豎起、坐在椅子上的貓嗎？"這時(shí)候，AI就開(kāi)始"犯迷糊"了。

這種現(xiàn)象就像我們?cè)谌粘Ｉ钪杏龅降那闆r。假設(shè)你問(wèn)朋友"今天天氣好嗎？"他能輕松回答，但如果你問(wèn)"今天是否是多云轉(zhuǎn)晴、風(fēng)力3-4級(jí)、濕度在60%-70%之間、氣壓穩(wěn)定的好天氣？"朋友可能就會(huì)覺(jué)得這個(gè)問(wèn)題太復(fù)雜而難以準(zhǔn)確回答。

研究團(tuán)隊(duì)通過(guò)系統(tǒng)性的測(cè)試發(fā)現(xiàn)了一個(gè)有趣的規(guī)律：當(dāng)問(wèn)題變得越來(lái)越詳細(xì)時(shí)，AI給出錯(cuò)誤答案的概率會(huì)急劇上升。他們?cè)O(shè)計(jì)了七個(gè)不同精細(xì)度的問(wèn)題層級(jí)，從最簡(jiǎn)單的"能看到貓嗎？"到極其詳細(xì)的描述，結(jié)果發(fā)現(xiàn)AI的準(zhǔn)確率會(huì)從大約80%一路下滑到只有15%左右。

這個(gè)發(fā)現(xiàn)之所以重要，是因?yàn)樵诂F(xiàn)實(shí)應(yīng)用中，特別是醫(yī)療診斷、法律分析等對(duì)準(zhǔn)確性要求極高的領(lǐng)域，人們往往需要向AI提出非常具體和詳細(xì)的問(wèn)題。如果AI在面對(duì)這些精細(xì)化問(wèn)題時(shí)經(jīng)常出錯(cuò)，那就可能造成嚴(yán)重后果。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)AI出錯(cuò)的方式很有規(guī)律性。當(dāng)圖片中確實(shí)存在一些描述中提到的元素時(shí)，AI往往會(huì)被這些"對(duì)"的部分誤導(dǎo)，從而對(duì)整個(gè)描述給出肯定的回答，哪怕描述中還包含明顯錯(cuò)誤的細(xì)節(jié)。這就像一個(gè)人看到蛋糕上確實(shí)有草莓，就認(rèn)同了"這是一個(gè)有草莓、巧克力、香草三種口味的蛋糕"這個(gè)說(shuō)法，完全忽略了蛋糕實(shí)際上只有草莓味這個(gè)事實(shí)。

二、FINER測(cè)試體系：給AI出"刁鉆"題目

為了更好地研究和解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了兩套全新的測(cè)試標(biāo)準(zhǔn)，分別基于CompreCap和DOCCI這兩個(gè)圖像數(shù)據(jù)集，命名為FINER-CompreCap和FINER-DOCCI。這兩套測(cè)試就像是專門(mén)為AI設(shè)計(jì)的"高難度考卷"。

FINER-CompreCap包含了超過(guò)17000個(gè)測(cè)試題目，而FINER-DOCCI更是包含了超過(guò)71000個(gè)題目。這些題目的設(shè)計(jì)非常巧妙，分為四大類型，每一類都針對(duì)AI的不同能力進(jìn)行考察。

第一類是多物體題目，就像問(wèn)"這張圖片里有狗、球和樹(shù)嗎？"但會(huì)故意把其中一個(gè)物體換成錯(cuò)誤的，比如問(wèn)"有狗、球和汽車嗎？"當(dāng)圖片中實(shí)際上是狗、球和樹(shù)的組合。這類題目考驗(yàn)AI是否能準(zhǔn)確識(shí)別圖片中的多個(gè)物體。

第二類是多屬性題目，會(huì)詳細(xì)描述某個(gè)物體的各種特征，比如"有一只白色的、有黑色斑點(diǎn)的、趴著的、耳朵下垂的狗嗎？"然后故意在某個(gè)屬性上出錯(cuò)，比如把"耳朵下垂"換成"耳朵豎立"。這考驗(yàn)AI對(duì)細(xì)節(jié)特征的把握能力。

第三類是多關(guān)系題目，關(guān)注的是物體之間的空間關(guān)系，比如"狗在樹(shù)的左邊，球在狗的右邊"，然后故意改變其中一個(gè)關(guān)系，看AI是否能發(fā)現(xiàn)這種空間關(guān)系的錯(cuò)誤。

第四類是"什么"問(wèn)題，這類題目會(huì)問(wèn)"什么東西有著棕色毛發(fā)并且在草地上跑？"然后故意在描述中加入一個(gè)錯(cuò)誤的特征，比如"什么東西有著棕色毛發(fā)、綠色眼睛并且在草地上跑？"當(dāng)實(shí)際上那只狗的眼睛是褐色的。

為了確保這些"錯(cuò)誤選項(xiàng)"真的是錯(cuò)誤的，研究團(tuán)隊(duì)采用了一套復(fù)雜的驗(yàn)證流程。他們首先讓AI生成可能的錯(cuò)誤選項(xiàng)，然后用另一個(gè)更強(qiáng)大的AI來(lái)判斷這些選項(xiàng)是否確實(shí)不存在于圖片中，最后還有人工專家進(jìn)行核查。這個(gè)過(guò)程就像制作一道復(fù)雜菜肴，需要多個(gè)廚師的配合和最終主廚的把關(guān)。

測(cè)試結(jié)果令人震驚。即便是目前最先進(jìn)的AI模型，在面對(duì)這些精細(xì)化問(wèn)題時(shí)也表現(xiàn)得不盡如人意。比如，某個(gè)在簡(jiǎn)單問(wèn)題上能達(dá)到80%準(zhǔn)確率的AI模型，在最復(fù)雜的精細(xì)化問(wèn)題上準(zhǔn)確率可能只有20%左右。這個(gè)差距就像一個(gè)平時(shí)考90分的學(xué)生，在面對(duì)高難度題目時(shí)只能考20分一樣令人擔(dān)憂。

三、FINER-Tuning訓(xùn)練法：讓AI變得更"仔細(xì)"

發(fā)現(xiàn)問(wèn)題之后，研究團(tuán)隊(duì)沒(méi)有止步于此，而是開(kāi)發(fā)了一套專門(mén)的訓(xùn)練方法來(lái)解決這個(gè)問(wèn)題，他們稱之為FINER-Tuning。這套方法就像是為AI量身定制的"細(xì)節(jié)觀察訓(xùn)練課程"。

FINER-Tuning的核心思想是讓AI在訓(xùn)練過(guò)程中大量接觸各種精細(xì)化的問(wèn)題，包括正確的和錯(cuò)誤的描述。就像訓(xùn)練一個(gè)品酒師需要讓他品嘗各種不同的酒類，包括好酒和劣質(zhì)酒，只有通過(guò)對(duì)比才能培養(yǎng)出敏銳的判斷力。

這套訓(xùn)練方法使用了一種叫做"直接偏好優(yōu)化"的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，就是給AI展示兩種不同的回答方式，一種是準(zhǔn)確的，一種是不準(zhǔn)確的，然后告訴AI應(yīng)該更傾向于選擇準(zhǔn)確的回答。這個(gè)過(guò)程不斷重復(fù)，直到AI學(xué)會(huì)了在面對(duì)精細(xì)化問(wèn)題時(shí)保持謹(jǐn)慎和準(zhǔn)確。

訓(xùn)練數(shù)據(jù)的制作過(guò)程相當(dāng)精巧。研究團(tuán)隊(duì)從一個(gè)名為Pixmo的大型圖像描述數(shù)據(jù)集中選取了豐富的圖像和詳細(xì)描述，然后用AI助手生成各種不同類型的精細(xì)化問(wèn)題和相應(yīng)的正確與錯(cuò)誤答案。這個(gè)過(guò)程就像是制作一本超級(jí)詳細(xì)的練習(xí)冊(cè)，每一道題都經(jīng)過(guò)精心設(shè)計(jì)。

為了確保訓(xùn)練效果，研究團(tuán)隊(duì)還設(shè)計(jì)了巧妙的質(zhì)量控制機(jī)制。他們會(huì)讓AI判斷生成的"錯(cuò)誤選項(xiàng)"是否真的錯(cuò)誤，如果發(fā)現(xiàn)某個(gè)"錯(cuò)誤選項(xiàng)"實(shí)際上可能是正確的，就會(huì)重新生成。這個(gè)過(guò)程有點(diǎn)像食品質(zhì)檢，確保每一個(gè)"不良品"樣本確實(shí)是不合格的。

經(jīng)過(guò)FINER-Tuning訓(xùn)練的AI模型表現(xiàn)令人刮目相看。研究團(tuán)隊(duì)測(cè)試了四種不同的主流AI模型，包括LLaVA-NeXT、Qwen2.5-VL和InternVL等。結(jié)果顯示，所有經(jīng)過(guò)訓(xùn)練的模型在處理精細(xì)化問(wèn)題時(shí)都有顯著改進(jìn)，其中InternVL3.5-14B模型的改進(jìn)幅度最大，達(dá)到了24.2%。

更令人驚喜的是，這種訓(xùn)練不僅提升了AI處理FINER測(cè)試題目的能力，還在其他八個(gè)不同的幻覺(jué)檢測(cè)測(cè)試中都表現(xiàn)出了改進(jìn)。同時(shí)，AI在處理一般性任務(wù)時(shí)的表現(xiàn)也得到了提升，涵蓋了六個(gè)不同的基準(zhǔn)測(cè)試。這說(shuō)明FINER-Tuning不是一種"應(yīng)試訓(xùn)練"，而是真正提升了AI的整體能力。

四、實(shí)驗(yàn)結(jié)果：數(shù)據(jù)背后的故事

研究團(tuán)隊(duì)進(jìn)行了大量詳細(xì)的實(shí)驗(yàn)來(lái)驗(yàn)證FINER-Tuning的效果。這些實(shí)驗(yàn)就像是一場(chǎng)全面的體檢，從各個(gè)角度檢測(cè)AI的"健康狀況"。

在FINER-CompreCap測(cè)試中，沒(méi)有經(jīng)過(guò)特殊訓(xùn)練的AI模型表現(xiàn)參差不齊。比如，LLaVA-1.6模型在多物體問(wèn)題上的準(zhǔn)確率只有25.3%，這意味著四道題中只能答對(duì)一道。而經(jīng)過(guò)FINER-Tuning訓(xùn)練后，這個(gè)數(shù)字躍升到了48.4%，幾乎翻了一倍。這種改進(jìn)就像一個(gè)原本經(jīng)常看錯(cuò)東西的人戴上了合適的眼鏡，突然能看清楚許多以前模糊的細(xì)節(jié)。

在更大規(guī)模的FINER-DOCCI測(cè)試中，改進(jìn)效果同樣顯著。InternVL-3.5-14B模型經(jīng)過(guò)訓(xùn)練后，在處理多關(guān)系問(wèn)題時(shí)的準(zhǔn)確率從41.4%提升到了57.0%，提升幅度達(dá)到15.6%。這個(gè)改進(jìn)幅度在AI領(lǐng)域已經(jīng)算是非常可觀的進(jìn)步了。

研究團(tuán)隊(duì)還專門(mén)研究了問(wèn)題復(fù)雜程度對(duì)AI表現(xiàn)的影響。他們發(fā)現(xiàn)，隨著問(wèn)題中涉及的物體、屬性或關(guān)系數(shù)量增加，AI的表現(xiàn)會(huì)逐漸下降，但FINER-Tuning能夠顯著緩解這種下降趨勢(shì)。比如，當(dāng)問(wèn)題涉及六個(gè)不同物體時(shí)，未經(jīng)訓(xùn)練的模型準(zhǔn)確率可能只有20%左右，而經(jīng)過(guò)訓(xùn)練的模型可以達(dá)到40%以上。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一種"位置偏見(jiàn)"現(xiàn)象。當(dāng)錯(cuò)誤信息出現(xiàn)在問(wèn)題的不同位置時(shí)，AI的表現(xiàn)會(huì)有所不同。就像人類在閱讀時(shí)往往對(duì)開(kāi)頭和結(jié)尾的信息印象更深刻一樣，AI也表現(xiàn)出類似的特點(diǎn)。不過(guò)，F(xiàn)INER-Tuning在一定程度上緩解了這種偏見(jiàn)。

在與其他幻覺(jué)檢測(cè)方法的比較中，F(xiàn)INER-Tuning展現(xiàn)出了全面的優(yōu)勢(shì)。在DASH、POPE、AMBER等多個(gè)標(biāo)準(zhǔn)測(cè)試中，經(jīng)過(guò)FINER-Tuning訓(xùn)練的模型都表現(xiàn)出了一致的改進(jìn)。特別值得一提的是，在一些生成式任務(wù)中，訓(xùn)練后的模型不僅減少了錯(cuò)誤回答的比例，還提高了回答的質(zhì)量。

研究團(tuán)隊(duì)還進(jìn)行了人類表現(xiàn)的對(duì)比研究。他們邀請(qǐng)人類志愿者完成同樣的測(cè)試題目，發(fā)現(xiàn)人類在這些精細(xì)化問(wèn)題上的表現(xiàn)普遍在90%以上，遠(yuǎn)高于AI模型的表現(xiàn)。這說(shuō)明這些問(wèn)題對(duì)于人類來(lái)說(shuō)并不算特別困難，AI的表現(xiàn)確實(shí)還有很大提升空間。

五、深入分析：為什么AI會(huì)"看走眼"

研究團(tuán)隊(duì)深入分析了AI產(chǎn)生幻覺(jué)的原因，發(fā)現(xiàn)了一些有趣的規(guī)律。就像醫(yī)生需要了解病因才能開(kāi)出正確的藥方，理解AI出錯(cuò)的原因?qū)τ诟倪M(jìn)AI同樣重要。

首先，AI往往容易被圖片中確實(shí)存在的元素所"迷惑"。當(dāng)一個(gè)復(fù)雜的描述中包含一些正確的信息時(shí)，AI可能會(huì)因?yàn)樽R(shí)別到了這些正確信息而對(duì)整個(gè)描述給出肯定的回答，即使描述中還包含明顯錯(cuò)誤的部分。這就像一個(gè)人看到菜單上寫(xiě)著"番茄雞蛋面配青菜"，因?yàn)榇_實(shí)看到了番茄和雞蛋，就認(rèn)為這道菜完全符合描述，忽略了實(shí)際上配菜是豆芽而不是青菜。

其次，問(wèn)題的復(fù)雜程度直接影響AI的判斷準(zhǔn)確性。研究顯示，當(dāng)問(wèn)題從簡(jiǎn)單的單一物體詢問(wèn)變成包含多個(gè)物體、多種屬性和多種關(guān)系的復(fù)合問(wèn)題時(shí)，AI的準(zhǔn)確率會(huì)呈現(xiàn)明顯的下降趨勢(shì)。這種現(xiàn)象類似于人類的認(rèn)知負(fù)荷理論，當(dāng)需要同時(shí)處理的信息量超出處理能力時(shí)，錯(cuò)誤率會(huì)顯著增加。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，不同類型的錯(cuò)誤對(duì)AI的影響程度不同。一般來(lái)說(shuō)，物體識(shí)別錯(cuò)誤比屬性錯(cuò)誤更容易被AI發(fā)現(xiàn)，而空間關(guān)系錯(cuò)誤則是最難被識(shí)別的。這可能與AI的訓(xùn)練方式有關(guān)，因?yàn)樵诖蠖鄶?shù)訓(xùn)練數(shù)據(jù)中，物體標(biāo)簽相對(duì)明確，而空間關(guān)系的描述往往更加微妙和復(fù)雜。

另一個(gè)有趣的發(fā)現(xiàn)是"干擾效應(yīng)"的存在。當(dāng)問(wèn)題中包含多個(gè)相似或相關(guān)的元素時(shí)，AI更容易產(chǎn)生混淆。比如，當(dāng)圖片中同時(shí)出現(xiàn)貓和狗時(shí)，AI在回答關(guān)于"帶斑點(diǎn)的貓"的問(wèn)題時(shí)可能會(huì)受到狗的斑點(diǎn)特征干擾，從而給出錯(cuò)誤的肯定回答。

研究團(tuán)隊(duì)通過(guò)詳細(xì)的錯(cuò)誤分析發(fā)現(xiàn)，大約60%的錯(cuò)誤都可以歸因于這種"部分匹配導(dǎo)致的誤判"現(xiàn)象。剩下的40%錯(cuò)誤則主要由于AI對(duì)細(xì)節(jié)特征的識(shí)別能力不足，比如無(wú)法準(zhǔn)確區(qū)分"耳朵豎立"和"耳朵下垂"這樣的細(xì)微差別。

六、訓(xùn)練策略的精巧設(shè)計(jì)

FINER-Tuning的成功不僅在于其核心理念，更在于實(shí)施細(xì)節(jié)的精心設(shè)計(jì)。整個(gè)訓(xùn)練過(guò)程就像一場(chǎng)精心編排的交響樂(lè)，每個(gè)環(huán)節(jié)都需要完美配合。

訓(xùn)練數(shù)據(jù)的構(gòu)建過(guò)程充滿了巧思。研究團(tuán)隊(duì)首先從大量的圖像描述中提取出各種類型的正面信息，包括物體名稱、屬性特征和空間關(guān)系等。然后，他們使用AI助手生成對(duì)應(yīng)的負(fù)面信息，但這個(gè)過(guò)程并不是簡(jiǎn)單的隨機(jī)替換，而是要確保生成的負(fù)面信息在語(yǔ)義上合理但在事實(shí)上錯(cuò)誤。

這就像制作一道考驗(yàn)味覺(jué)的菜肴，需要在保持菜品看起來(lái)美味的同時(shí)，故意在某個(gè)關(guān)鍵調(diào)料上做出改變。比如，在描述"紅色的圓形蘋(píng)果"時(shí)，負(fù)面樣本可能是"綠色的圓形蘋(píng)果"或"紅色的方形蘋(píng)果"，而不是完全不相關(guān)的"藍(lán)色的三角形香蕉"。

為了確保訓(xùn)練效果，研究團(tuán)隊(duì)采用了多輪驗(yàn)證機(jī)制。他們首先讓一個(gè)強(qiáng)大的AI模型判斷生成的負(fù)面樣本是否確實(shí)不存在于圖片中，如果判斷不夠確定，就會(huì)重新生成。這個(gè)過(guò)程可能需要反復(fù)進(jìn)行多次，直到獲得高質(zhì)量的訓(xùn)練樣本。

訓(xùn)練過(guò)程中還引入了平衡機(jī)制，確保AI既要學(xué)會(huì)拒絕錯(cuò)誤的描述，也要能夠接受正確的描述。這種平衡就像教一個(gè)孩子既要學(xué)會(huì)說(shuō)"不"，也要學(xué)會(huì)說(shuō)"是"，過(guò)于謹(jǐn)慎或過(guò)于輕信都不是好事。

研究團(tuán)隊(duì)還特別注意避免"過(guò)擬合"現(xiàn)象。他們使用了多種不同的問(wèn)題模板，避免AI只是機(jī)械地記住某些特定的問(wèn)題格式。同時(shí)，他們還在訓(xùn)練中加入了來(lái)自不同領(lǐng)域的圖像，確保AI的改進(jìn)能夠泛化到各種不同的應(yīng)用場(chǎng)景。

值得一提的是，F(xiàn)INER-Tuning采用的直接偏好優(yōu)化技術(shù)相比傳統(tǒng)的監(jiān)督學(xué)習(xí)更加高效。傳統(tǒng)方法需要大量明確標(biāo)注的正確答案，而直接偏好優(yōu)化只需要告訴AI哪種回答更好，這種相對(duì)比較的方式更接近人類學(xué)習(xí)的過(guò)程。

七、實(shí)際應(yīng)用的廣闊前景

這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)價(jià)值，它為AI在實(shí)際應(yīng)用中的可靠性提升指明了方向。在許多對(duì)準(zhǔn)確性要求極高的領(lǐng)域，F(xiàn)INER-Tuning的改進(jìn)都可能產(chǎn)生重要影響。

在醫(yī)療診斷領(lǐng)域，醫(yī)生經(jīng)常需要向AI系統(tǒng)詢問(wèn)非常具體的問(wèn)題，比如"患者的左上肺葉是否出現(xiàn)直徑約5毫米的結(jié)節(jié)狀陰影，邊緣清晰，密度均勻？"這類問(wèn)題的準(zhǔn)確回答對(duì)診斷結(jié)果至關(guān)重要。經(jīng)過(guò)FINER-Tuning訓(xùn)練的AI系統(tǒng)在處理這類精細(xì)化醫(yī)療問(wèn)題時(shí)的可靠性顯著提升。

在法律文件分析中，律師和法官可能需要AI準(zhǔn)確識(shí)別合同中的特定條款和細(xì)節(jié)。比如詢問(wèn)"合同第三條是否規(guī)定甲方需要在2024年12月31日前支付不少于100萬(wàn)元的違約金，且該金額不受通脹調(diào)整影響？"這種問(wèn)題要求AI對(duì)文本的理解極其精確，任何細(xì)節(jié)的遺漏都可能導(dǎo)致嚴(yán)重后果。

在自動(dòng)駕駛領(lǐng)域，車載AI系統(tǒng)需要準(zhǔn)確識(shí)別復(fù)雜的交通場(chǎng)景。比如判斷"前方30米處是否有一輛紅色小轎車正在向左轉(zhuǎn)彎，同時(shí)右側(cè)車道有一輛藍(lán)色卡車保持直行？"這種多物體、多狀態(tài)的復(fù)雜場(chǎng)景識(shí)別正是FINER訓(xùn)練方法重點(diǎn)改進(jìn)的能力。

教育領(lǐng)域也是一個(gè)重要的應(yīng)用方向。AI教學(xué)助手經(jīng)常需要回答學(xué)生提出的詳細(xì)具體的問(wèn)題，比如"這個(gè)化學(xué)反應(yīng)中，在溫度為80度、壓力為2個(gè)大氣壓的條件下，催化劑A是否會(huì)與反應(yīng)物B結(jié)合生成中間產(chǎn)物C，同時(shí)釋放出氫氣？"這類問(wèn)題的準(zhǔn)確回答直接影響學(xué)習(xí)效果。

研究團(tuán)隊(duì)的方法還顯示出良好的可擴(kuò)展性。FINER-Tuning不僅可以應(yīng)用于視覺(jué)問(wèn)答系統(tǒng)，還可以擴(kuò)展到其他多模態(tài)AI任務(wù)，比如音視頻理解、文檔分析等領(lǐng)域。這種通用性使得這項(xiàng)研究的影響力可能會(huì)遠(yuǎn)超最初的設(shè)想。

更重要的是，這項(xiàng)研究為AI的評(píng)估標(biāo)準(zhǔn)設(shè)立了新的基準(zhǔn)。傳統(tǒng)的AI評(píng)估往往關(guān)注整體性能，而忽略了在復(fù)雜細(xì)致問(wèn)題上的表現(xiàn)。FINER基準(zhǔn)測(cè)試的推出，為整個(gè)AI行業(yè)提供了更全面、更嚴(yán)格的評(píng)估工具。

八、面臨的挑戰(zhàn)與未來(lái)展望

盡管FINER-Tuning取得了令人鼓舞的成果，但研究團(tuán)隊(duì)也坦承還面臨一些挑戰(zhàn)和限制。這種誠(chéng)實(shí)的態(tài)度正是優(yōu)秀科學(xué)研究的特征之一。

首先是規(guī)模化的挑戰(zhàn)。目前的研究主要基于相對(duì)較小的測(cè)試集和訓(xùn)練集，雖然已經(jīng)包含數(shù)萬(wàn)個(gè)測(cè)試樣本，但相對(duì)于實(shí)際應(yīng)用中可能遇到的各種情況，這個(gè)規(guī)模還遠(yuǎn)遠(yuǎn)不夠。就像一個(gè)廚師雖然掌握了制作某道菜的基本技巧，但要應(yīng)對(duì)各種不同口味的客人需求，還需要更多的練習(xí)和經(jīng)驗(yàn)積累。

其次是計(jì)算成本的考慮。FINER-Tuning需要大量的計(jì)算資源來(lái)生成高質(zhì)量的訓(xùn)練數(shù)據(jù)和進(jìn)行模型訓(xùn)練。對(duì)于大多數(shù)研究機(jī)構(gòu)和公司來(lái)說(shuō)，這可能是一個(gè)不小的負(fù)擔(dān)。研究團(tuán)隊(duì)正在探索更高效的訓(xùn)練方法，以降低實(shí)施成本。

數(shù)據(jù)質(zhì)量控制也是一個(gè)持續(xù)的挑戰(zhàn)。雖然研究團(tuán)隊(duì)設(shè)計(jì)了多重驗(yàn)證機(jī)制，但完全消除訓(xùn)練數(shù)據(jù)中的噪聲和錯(cuò)誤仍然困難。特別是在處理大規(guī)模數(shù)據(jù)時(shí)，人工驗(yàn)證的成本會(huì)變得非常高昂。這就像質(zhì)檢員需要檢查流水線上的每一個(gè)產(chǎn)品，工作量隨著生產(chǎn)規(guī)模的擴(kuò)大而急劇增加。

跨領(lǐng)域的泛化能力也需要進(jìn)一步驗(yàn)證。目前的研究主要集中在日常生活場(chǎng)景的圖像上，但AI在專業(yè)領(lǐng)域，比如醫(yī)學(xué)影像、衛(wèi)星圖片、工業(yè)檢測(cè)等方面的表現(xiàn)還需要專門(mén)的研究和優(yōu)化。

研究團(tuán)隊(duì)對(duì)未來(lái)的發(fā)展方向充滿信心。他們計(jì)劃進(jìn)一步擴(kuò)大FINER基準(zhǔn)測(cè)試的規(guī)模和覆蓋范圍，包括更多類型的圖像和更復(fù)雜的問(wèn)題。同時(shí)，他們也在探索將FINER的理念應(yīng)用到其他AI任務(wù)中，比如文本理解、語(yǔ)音識(shí)別等領(lǐng)域。

另一個(gè)令人興奮的發(fā)展方向是將FINER-Tuning與其他AI改進(jìn)技術(shù)相結(jié)合。比如，可以將其與強(qiáng)化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等技術(shù)結(jié)合，開(kāi)發(fā)出更加強(qiáng)大和可靠的AI系統(tǒng)。

研究團(tuán)隊(duì)還計(jì)劃開(kāi)展更多的跨學(xué)科合作，特別是與心理學(xué)、認(rèn)知科學(xué)等領(lǐng)域的專家合作，從人類認(rèn)知的角度更好地理解AI的決策過(guò)程，從而開(kāi)發(fā)出更接近人類思維方式的AI系統(tǒng)。

說(shuō)到底，這項(xiàng)由慕尼黑工業(yè)大學(xué)領(lǐng)導(dǎo)的研究為我們揭示了AI技術(shù)中一個(gè)重要但長(zhǎng)期被忽視的問(wèn)題。就像發(fā)現(xiàn)了一個(gè)隱藏的軟肋，這項(xiàng)研究不僅指出了問(wèn)題所在，還提供了切實(shí)可行的解決方案。FINER-Tuning方法的成功證明，通過(guò)精心設(shè)計(jì)的訓(xùn)練策略，我們可以顯著提升AI在處理復(fù)雜精細(xì)問(wèn)題時(shí)的可靠性。

這項(xiàng)研究的影響將是深遠(yuǎn)的。它不僅為AI技術(shù)的改進(jìn)提供了新的方向，也為各個(gè)應(yīng)用領(lǐng)域的AI系統(tǒng)可靠性提升奠定了基礎(chǔ)。從醫(yī)療診斷到自動(dòng)駕駛，從教育輔助到法律分析，AI系統(tǒng)的精準(zhǔn)性改進(jìn)將讓我們的生活變得更加安全和便利。

更重要的是，這項(xiàng)研究體現(xiàn)了科學(xué)研究的嚴(yán)謹(jǐn)態(tài)度和實(shí)用價(jià)值。研究團(tuán)隊(duì)不滿足于表面的成功，而是深入挖掘問(wèn)題的本質(zhì)，并提出了系統(tǒng)性的解決方案。他們所開(kāi)發(fā)的FINER基準(zhǔn)測(cè)試和FINER-Tuning訓(xùn)練方法已經(jīng)開(kāi)源共享，為全球的AI研究者和從業(yè)者提供了寶貴的工具和資源。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)論文編號(hào)arXiv:2603.17662v1在arXiv平臺(tái)查閱完整的研究報(bào)告。

Q&A

Q1：什么是FINER測(cè)試體系？

A：FINER是一套專門(mén)檢測(cè)AI處理精細(xì)化問(wèn)題能力的測(cè)試標(biāo)準(zhǔn)，包括多物體識(shí)別、多屬性判斷、多關(guān)系理解和"什么"問(wèn)題四大類型，能夠發(fā)現(xiàn)AI在面對(duì)復(fù)雜細(xì)致問(wèn)題時(shí)的準(zhǔn)確性缺陷，就像專門(mén)的高難度考卷一樣。

Q2：FINER-Tuning訓(xùn)練方法有什么效果？

A：FINER-Tuning能顯著提升AI處理精細(xì)化問(wèn)題的準(zhǔn)確率，最高改進(jìn)幅度達(dá)到24.2%。更重要的是，這種訓(xùn)練不僅改善了AI在FINER測(cè)試上的表現(xiàn)，還在其他八個(gè)幻覺(jué)檢測(cè)測(cè)試和六個(gè)通用能力測(cè)試中都顯示出改進(jìn)效果。

Q3：為什么AI會(huì)在細(xì)致問(wèn)題上出現(xiàn)幻覺(jué)？

A：AI容易被圖片中確實(shí)存在的部分信息所迷惑，當(dāng)復(fù)雜描述中包含一些正確元素時(shí)，AI可能因?yàn)樽R(shí)別到這些正確信息而忽略描述中的錯(cuò)誤部分，從而給出錯(cuò)誤的肯定回答。這類似于人看到蛋糕上有草莓就認(rèn)同整個(gè)復(fù)雜描述的情況。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.