KAIST等機構(gòu)聯(lián)合揭示AI在實時知識更新中的困境

2026-03-20 19:00:57　來源: 至頂AI實驗室

天津舉報

分享至

在信息爆炸的時代，知識每時每刻都在更新變化。股價在波動，新聞在刷新，人們的狀態(tài)在改變，世界在不斷演進。然而，當(dāng)我們讓那些被譽為"智能"的大語言模型來處理這些實時變化的信息時，它們表現(xiàn)如何？最近，由韓國科學(xué)技術(shù)院（KAIST）、北卡羅來納大學(xué)教堂山分校、谷歌、KRAFTON、Adobe Research和紐約大學(xué)聯(lián)合開展的一項研究揭示了一個令人深思的現(xiàn)象：即使是最先進的AI模型，在面對不斷更新的知識流時，也常常顯得力不從心。

這項研究發(fā)表于2026年3月，題為《Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams》。研究團隊為了探究這一問題，開發(fā)了一個名為"OAKS"（Online Adaptation to Continual Knowledge Streams，在線適應(yīng)持續(xù)知識流）的全新評估體系，專門用來檢驗AI模型在面對連續(xù)變化知識時的應(yīng)對能力。

設(shè)想一個報紙編輯的工作場景：每天都有新消息涌入，同一個事件可能隨著時間推移發(fā)生多次變化。比如某場體育比賽的比分在不斷變動，或者某位政治人物的立場在一天內(nèi)發(fā)生了轉(zhuǎn)變。一個優(yōu)秀的編輯需要能夠?qū)崟r跟蹤這些變化，準(zhǔn)確記住最新的狀態(tài)，并在被問及時給出正確的答案。然而，研究團隊發(fā)現(xiàn)，當(dāng)前的AI大語言模型在扮演這樣的"編輯"角色時，往往表現(xiàn)得像一個容易分心、記性不好的助手。

研究團隊構(gòu)建了兩個獨特的數(shù)據(jù)集來測試AI的這種能力。第一個數(shù)據(jù)集名為OAKS-BABI，基于經(jīng)典的推理測試題目，但做了創(chuàng)新性改造。他們將原本靜態(tài)的問答變成了動態(tài)的知識追蹤游戲。比如，在故事進行過程中，餐桌上士兵玩具的數(shù)量會不斷變化：開始有十個，后來減少到八個，再變成七個，最后只剩下五個。AI模型需要在故事的每個節(jié)點都能準(zhǔn)確回答"餐桌上現(xiàn)在有多少個士兵玩具？"這樣看似簡單的問題。

第二個數(shù)據(jù)集OAKS-Novel則更加貼近現(xiàn)實。研究團隊選擇了39部文學(xué)名著，包括《傲慢與偏見》、《八十天環(huán)游世界》、《弗蘭肯斯坦》等，將這些小說分割成小段，每段約2000個詞匯。隨著故事情節(jié)的推進，人物的狀態(tài)、關(guān)系、想法都在發(fā)生變化。比如在《傲慢與偏見》中，伊麗莎白對達西先生的看法就經(jīng)歷了從厭惡到尊敬再到愛慕的轉(zhuǎn)變過程。AI需要在閱讀每個片段后，都能準(zhǔn)確回答關(guān)于人物當(dāng)前狀態(tài)的問題。

這樣的測試設(shè)計就像給AI做了一次"記憶力體檢"。傳統(tǒng)的AI評估往往是一次性給出所有信息，然后提問，就像讓學(xué)生看完整本教科書后參加考試。而OAKS的測試方式更像是在學(xué)習(xí)過程中不斷進行小測驗，檢查學(xué)生是否真的在跟上課程進度，而不是只會死記硬背。

在這項全面的評估中，研究團隊測試了14個不同的語言模型，包括開源的Qwen系列、GPT-OSS、Gemma等，以及商業(yè)化的Gemini系列。測試結(jié)果令人震驚：即使是表現(xiàn)最好的模型，在OAKS-BABI上的準(zhǔn)確率也只有66.3%，在OAKS-Novel上為75.5%。這意味著，在處理動態(tài)變化的知識時，即使是最先進的AI也有三分之一到四分之一的時間會給出錯誤答案。

更讓研究團隊擔(dān)憂的是，當(dāng)知識變化頻繁時，AI的表現(xiàn)會進一步下降。在變化最頻繁的測試場景中，模型的準(zhǔn)確率下降到了33.3%和53.0%。這就好比讓一個人同時跟蹤多個快速變化的股票價格，人越多越容易出錯。

有趣的是，研究團隊發(fā)現(xiàn)了不同AI模型的"性格差異"。一些模型表現(xiàn)得像"敏感型"角色，總是急于更新自己的答案，即使在不必要的時候也會改變判斷，導(dǎo)致頻繁的錯誤修正。而另一些模型則表現(xiàn)得像"固執(zhí)型"角色，即使面對明確的新信息也不愿意改變已有的觀點，錯過了重要的更新時機。

通過對模型行為的細致分析，研究團隊還發(fā)現(xiàn)了幾種典型的"失誤模式"。有些AI表現(xiàn)出"獲取延遲"的問題，就像反應(yīng)遲鈍的學(xué)生，總是慢半拍才意識到信息已經(jīng)更新。有些則容易"分心"，明明已經(jīng)掌握了正確信息，卻因為后續(xù)無關(guān)內(nèi)容的干擾而改變了答案。還有一些表現(xiàn)出"完全錯過"的問題，對某些變化視而不見，從始至終都沒能抓住要點。

研究團隊嘗試了多種改進策略來提升AI的表現(xiàn)。他們測試了檢索增強生成技術(shù)，這就像給AI配備一個智能助手，專門負責(zé)從過往信息中找出相關(guān)內(nèi)容。然而，這種方法的效果并不理想，有時甚至?xí)屒闆r變得更糟，因為檢索到的信息可能過時或不相關(guān)，反而成為干擾因素。

他們還嘗試了所謂的"智能記憶系統(tǒng)"，模仿人腦的記憶機制，讓AI能夠更好地組織和更新知識。這些系統(tǒng)雖然在某些特定場景下有所改善，但整體表現(xiàn)仍然差強人意。就像給一個本來就記性不好的人配備再好的記事本，如果基本的記憶和理解能力有問題，工具也只能起到有限的幫助。

最有意思的發(fā)現(xiàn)之一是關(guān)于AI"思考模式"的影響。當(dāng)研究團隊啟用模型的"內(nèi)部思考"功能時，AI的表現(xiàn)有了明顯提升。這就像讓學(xué)生在考試時可以寫草稿紙，把思考過程展現(xiàn)出來，往往能得到更準(zhǔn)確的答案。然而，即使在這種最優(yōu)條件下，AI的表現(xiàn)仍然遠未達到人類的水平。

通過對不同類型問題的深入分析，研究團隊發(fā)現(xiàn)AI在處理需要綜合多個信息片段的"橋接型"問題時表現(xiàn)最差。這類問題需要同時跟蹤多個狀態(tài)變化，就像同時關(guān)注多個運動員在接力賽中的位置變化。相比之下，只需要關(guān)注單一信息變化的"追蹤型"問題雖然也有挑戰(zhàn)，但AI的表現(xiàn)要稍好一些。

隨著時間推移，AI的表現(xiàn)還會呈現(xiàn)出明顯的衰退趨勢。在測試的后期階段，模型的準(zhǔn)確率會顯著下降，仿佛隨著信息量的積累，AI逐漸變得"疲憊"和"混亂"。這種現(xiàn)象在現(xiàn)實應(yīng)用中可能帶來嚴(yán)重后果，想象一下如果新聞播報AI在播報一天新聞的后半段開始頻頻出錯，會造成怎樣的影響。

研究團隊特別關(guān)注了AI在處理文學(xué)作品時的表現(xiàn)差異。與合成數(shù)據(jù)相比，真實文學(xué)作品中的信息變化更加微妙和復(fù)雜。人物的心理狀態(tài)變化、故事情節(jié)的轉(zhuǎn)折、背景信息的披露，這些都需要更細致的理解和追蹤能力。結(jié)果顯示，AI在處理這類更貼近真實世界的信息時，表現(xiàn)確實不如在合成數(shù)據(jù)上那樣相對穩(wěn)定。

令人深思的是，研究還揭示了AI模型規(guī)模與性能之間的復(fù)雜關(guān)系。雖然更大規(guī)模的模型通常表現(xiàn)更好，但這種提升并不總是線性的，而且即使是最大的模型也遠未解決根本問題。這提示我們，單純增加模型規(guī)模可能不是解決動態(tài)知識處理問題的最佳路徑。

這項研究對我們理解AI能力的邊界具有重要意義。在當(dāng)今這個信息瞬息萬變的時代，能夠?qū)崟r適應(yīng)新知識的能力變得越來越重要。無論是金融市場分析、新聞報道、醫(yī)療診斷，還是日常的智能助手應(yīng)用，都需要AI能夠準(zhǔn)確跟蹤和處理動態(tài)變化的信息。

然而，這項研究的結(jié)果表明，我們距離這個目標(biāo)還有相當(dāng)長的路要走。當(dāng)前的AI雖然在許多靜態(tài)任務(wù)上表現(xiàn)出色，但在面對動態(tài)、連續(xù)變化的知識時，仍然存在顯著的局限性。這種局限性不僅體現(xiàn)在準(zhǔn)確率上，更體現(xiàn)在AI對變化時機的感知、對信息重要性的判斷，以及在復(fù)雜信息環(huán)境中保持一致性的能力上。

說到底，這項研究為我們敲響了一記警鐘。在享受AI帶來的便利的同時，我們也需要清醒地認識到它的局限性。特別是在那些信息快速變化、準(zhǔn)確性要求極高的場景中，我們不能盲目依賴AI的判斷。這項研究不僅為AI研究指明了新的方向，也提醒我們在使用AI技術(shù)時需要保持理性和謹(jǐn)慎的態(tài)度。

歸根結(jié)底，雖然AI已經(jīng)在許多方面展現(xiàn)出了超越人類的能力，但在動態(tài)知識處理這個看似簡單實則復(fù)雜的任務(wù)上，它們還有很長的路要走。這項研究的價值不僅在于揭示了問題，更在于為后續(xù)的改進提供了明確的方向和評估標(biāo)準(zhǔn)。相信隨著研究的深入，我們終將找到讓AI真正"跟上時代節(jié)拍"的方法。

Q&A

Q1：OAKS評估體系是什么？

A：OAKS是由KAIST等機構(gòu)開發(fā)的專門測試AI處理動態(tài)知識能力的評估體系。它通過持續(xù)更新的信息流來測試AI是否能實時跟蹤知識變化，就像測試編輯能否準(zhǔn)確跟蹤不斷變化的新聞一樣。

Q2：為什么大語言模型在處理動態(tài)知識時表現(xiàn)不佳？

A：研究發(fā)現(xiàn)AI模型存在多種問題：有些過度敏感頻繁更新答案，有些過于固執(zhí)拒絕更新，還有些容易被無關(guān)信息分心。即使最先進的模型準(zhǔn)確率也只有66-75%，在快速變化場景中更是降至33-53%。

Q3：這項研究對現(xiàn)實應(yīng)用有什么影響？

A：這項研究揭示了AI在金融分析、新聞報道、智能助手等需要實時信息更新的場景中的局限性。提醒我們在使用AI處理動態(tài)信息時需要格外謹(jǐn)慎，不能盲目依賴其判斷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.