![]()
在信息爆炸的時代,知識每時每刻都在更新變化。股價在波動,新聞在刷新,人們的狀態(tài)在改變,世界在不斷演進。然而,當(dāng)我們讓那些被譽為"智能"的大語言模型來處理這些實時變化的信息時,它們表現(xiàn)如何?最近,由韓國科學(xué)技術(shù)院(KAIST)、北卡羅來納大學(xué)教堂山分校、谷歌、KRAFTON、Adobe Research和紐約大學(xué)聯(lián)合開展的一項研究揭示了一個令人深思的現(xiàn)象:即使是最先進的AI模型,在面對不斷更新的知識流時,也常常顯得力不從心。
這項研究發(fā)表于2026年3月,題為《Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams》。研究團隊為了探究這一問題,開發(fā)了一個名為"OAKS"(Online Adaptation to Continual Knowledge Streams,在線適應(yīng)持續(xù)知識流)的全新評估體系,專門用來檢驗AI模型在面對連續(xù)變化知識時的應(yīng)對能力。
設(shè)想一個報紙編輯的工作場景:每天都有新消息涌入,同一個事件可能隨著時間推移發(fā)生多次變化。比如某場體育比賽的比分在不斷變動,或者某位政治人物的立場在一天內(nèi)發(fā)生了轉(zhuǎn)變。一個優(yōu)秀的編輯需要能夠?qū)崟r跟蹤這些變化,準(zhǔn)確記住最新的狀態(tài),并在被問及時給出正確的答案。然而,研究團隊發(fā)現(xiàn),當(dāng)前的AI大語言模型在扮演這樣的"編輯"角色時,往往表現(xiàn)得像一個容易分心、記性不好的助手。
研究團隊構(gòu)建了兩個獨特的數(shù)據(jù)集來測試AI的這種能力。第一個數(shù)據(jù)集名為OAKS-BABI,基于經(jīng)典的推理測試題目,但做了創(chuàng)新性改造。他們將原本靜態(tài)的問答變成了動態(tài)的知識追蹤游戲。比如,在故事進行過程中,餐桌上士兵玩具的數(shù)量會不斷變化:開始有十個,后來減少到八個,再變成七個,最后只剩下五個。AI模型需要在故事的每個節(jié)點都能準(zhǔn)確回答"餐桌上現(xiàn)在有多少個士兵玩具?"這樣看似簡單的問題。
第二個數(shù)據(jù)集OAKS-Novel則更加貼近現(xiàn)實。研究團隊選擇了39部文學(xué)名著,包括《傲慢與偏見》、《八十天環(huán)游世界》、《弗蘭肯斯坦》等,將這些小說分割成小段,每段約2000個詞匯。隨著故事情節(jié)的推進,人物的狀態(tài)、關(guān)系、想法都在發(fā)生變化。比如在《傲慢與偏見》中,伊麗莎白對達西先生的看法就經(jīng)歷了從厭惡到尊敬再到愛慕的轉(zhuǎn)變過程。AI需要在閱讀每個片段后,都能準(zhǔn)確回答關(guān)于人物當(dāng)前狀態(tài)的問題。
這樣的測試設(shè)計就像給AI做了一次"記憶力體檢"。傳統(tǒng)的AI評估往往是一次性給出所有信息,然后提問,就像讓學(xué)生看完整本教科書后參加考試。而OAKS的測試方式更像是在學(xué)習(xí)過程中不斷進行小測驗,檢查學(xué)生是否真的在跟上課程進度,而不是只會死記硬背。
在這項全面的評估中,研究團隊測試了14個不同的語言模型,包括開源的Qwen系列、GPT-OSS、Gemma等,以及商業(yè)化的Gemini系列。測試結(jié)果令人震驚:即使是表現(xiàn)最好的模型,在OAKS-BABI上的準(zhǔn)確率也只有66.3%,在OAKS-Novel上為75.5%。這意味著,在處理動態(tài)變化的知識時,即使是最先進的AI也有三分之一到四分之一的時間會給出錯誤答案。
更讓研究團隊擔(dān)憂的是,當(dāng)知識變化頻繁時,AI的表現(xiàn)會進一步下降。在變化最頻繁的測試場景中,模型的準(zhǔn)確率下降到了33.3%和53.0%。這就好比讓一個人同時跟蹤多個快速變化的股票價格,人越多越容易出錯。
有趣的是,研究團隊發(fā)現(xiàn)了不同AI模型的"性格差異"。一些模型表現(xiàn)得像"敏感型"角色,總是急于更新自己的答案,即使在不必要的時候也會改變判斷,導(dǎo)致頻繁的錯誤修正。而另一些模型則表現(xiàn)得像"固執(zhí)型"角色,即使面對明確的新信息也不愿意改變已有的觀點,錯過了重要的更新時機。
通過對模型行為的細致分析,研究團隊還發(fā)現(xiàn)了幾種典型的"失誤模式"。有些AI表現(xiàn)出"獲取延遲"的問題,就像反應(yīng)遲鈍的學(xué)生,總是慢半拍才意識到信息已經(jīng)更新。有些則容易"分心",明明已經(jīng)掌握了正確信息,卻因為后續(xù)無關(guān)內(nèi)容的干擾而改變了答案。還有一些表現(xiàn)出"完全錯過"的問題,對某些變化視而不見,從始至終都沒能抓住要點。
研究團隊嘗試了多種改進策略來提升AI的表現(xiàn)。他們測試了檢索增強生成技術(shù),這就像給AI配備一個智能助手,專門負責(zé)從過往信息中找出相關(guān)內(nèi)容。然而,這種方法的效果并不理想,有時甚至?xí)屒闆r變得更糟,因為檢索到的信息可能過時或不相關(guān),反而成為干擾因素。
他們還嘗試了所謂的"智能記憶系統(tǒng)",模仿人腦的記憶機制,讓AI能夠更好地組織和更新知識。這些系統(tǒng)雖然在某些特定場景下有所改善,但整體表現(xiàn)仍然差強人意。就像給一個本來就記性不好的人配備再好的記事本,如果基本的記憶和理解能力有問題,工具也只能起到有限的幫助。
最有意思的發(fā)現(xiàn)之一是關(guān)于AI"思考模式"的影響。當(dāng)研究團隊啟用模型的"內(nèi)部思考"功能時,AI的表現(xiàn)有了明顯提升。這就像讓學(xué)生在考試時可以寫草稿紙,把思考過程展現(xiàn)出來,往往能得到更準(zhǔn)確的答案。然而,即使在這種最優(yōu)條件下,AI的表現(xiàn)仍然遠未達到人類的水平。
通過對不同類型問題的深入分析,研究團隊發(fā)現(xiàn)AI在處理需要綜合多個信息片段的"橋接型"問題時表現(xiàn)最差。這類問題需要同時跟蹤多個狀態(tài)變化,就像同時關(guān)注多個運動員在接力賽中的位置變化。相比之下,只需要關(guān)注單一信息變化的"追蹤型"問題雖然也有挑戰(zhàn),但AI的表現(xiàn)要稍好一些。
隨著時間推移,AI的表現(xiàn)還會呈現(xiàn)出明顯的衰退趨勢。在測試的后期階段,模型的準(zhǔn)確率會顯著下降,仿佛隨著信息量的積累,AI逐漸變得"疲憊"和"混亂"。這種現(xiàn)象在現(xiàn)實應(yīng)用中可能帶來嚴(yán)重后果,想象一下如果新聞播報AI在播報一天新聞的后半段開始頻頻出錯,會造成怎樣的影響。
研究團隊特別關(guān)注了AI在處理文學(xué)作品時的表現(xiàn)差異。與合成數(shù)據(jù)相比,真實文學(xué)作品中的信息變化更加微妙和復(fù)雜。人物的心理狀態(tài)變化、故事情節(jié)的轉(zhuǎn)折、背景信息的披露,這些都需要更細致的理解和追蹤能力。結(jié)果顯示,AI在處理這類更貼近真實世界的信息時,表現(xiàn)確實不如在合成數(shù)據(jù)上那樣相對穩(wěn)定。
令人深思的是,研究還揭示了AI模型規(guī)模與性能之間的復(fù)雜關(guān)系。雖然更大規(guī)模的模型通常表現(xiàn)更好,但這種提升并不總是線性的,而且即使是最大的模型也遠未解決根本問題。這提示我們,單純增加模型規(guī)模可能不是解決動態(tài)知識處理問題的最佳路徑。
這項研究對我們理解AI能力的邊界具有重要意義。在當(dāng)今這個信息瞬息萬變的時代,能夠?qū)崟r適應(yīng)新知識的能力變得越來越重要。無論是金融市場分析、新聞報道、醫(yī)療診斷,還是日常的智能助手應(yīng)用,都需要AI能夠準(zhǔn)確跟蹤和處理動態(tài)變化的信息。
然而,這項研究的結(jié)果表明,我們距離這個目標(biāo)還有相當(dāng)長的路要走。當(dāng)前的AI雖然在許多靜態(tài)任務(wù)上表現(xiàn)出色,但在面對動態(tài)、連續(xù)變化的知識時,仍然存在顯著的局限性。這種局限性不僅體現(xiàn)在準(zhǔn)確率上,更體現(xiàn)在AI對變化時機的感知、對信息重要性的判斷,以及在復(fù)雜信息環(huán)境中保持一致性的能力上。
說到底,這項研究為我們敲響了一記警鐘。在享受AI帶來的便利的同時,我們也需要清醒地認識到它的局限性。特別是在那些信息快速變化、準(zhǔn)確性要求極高的場景中,我們不能盲目依賴AI的判斷。這項研究不僅為AI研究指明了新的方向,也提醒我們在使用AI技術(shù)時需要保持理性和謹(jǐn)慎的態(tài)度。
歸根結(jié)底,雖然AI已經(jīng)在許多方面展現(xiàn)出了超越人類的能力,但在動態(tài)知識處理這個看似簡單實則復(fù)雜的任務(wù)上,它們還有很長的路要走。這項研究的價值不僅在于揭示了問題,更在于為后續(xù)的改進提供了明確的方向和評估標(biāo)準(zhǔn)。相信隨著研究的深入,我們終將找到讓AI真正"跟上時代節(jié)拍"的方法。
Q&A
Q1:OAKS評估體系是什么?
A:OAKS是由KAIST等機構(gòu)開發(fā)的專門測試AI處理動態(tài)知識能力的評估體系。它通過持續(xù)更新的信息流來測試AI是否能實時跟蹤知識變化,就像測試編輯能否準(zhǔn)確跟蹤不斷變化的新聞一樣。
Q2:為什么大語言模型在處理動態(tài)知識時表現(xiàn)不佳?
A:研究發(fā)現(xiàn)AI模型存在多種問題:有些過度敏感頻繁更新答案,有些過于固執(zhí)拒絕更新,還有些容易被無關(guān)信息分心。即使最先進的模型準(zhǔn)確率也只有66-75%,在快速變化場景中更是降至33-53%。
Q3:這項研究對現(xiàn)實應(yīng)用有什么影響?
A:這項研究揭示了AI在金融分析、新聞報道、智能助手等需要實時信息更新的場景中的局限性。提醒我們在使用AI處理動態(tài)信息時需要格外謹(jǐn)慎,不能盲目依賴其判斷。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.