網易首頁 > 網易號 > 正文申請入駐

香港科技大學團隊破解AI手機助手的"記憶難題"

2026-03-30 17:36:00　來源: 科技行者

天津舉報

分享至

當你拿起手機，想讓AI助手幫你完成一項復雜的任務時，比如先在淘寶和京東上比較AirPods Pro 2的價格，然后把便宜的那款加入購物車，最后把鏈接分享給微信好友，你會發現現在的AI助手往往力不從心。它們可能在前幾步表現不錯，但隨著任務步驟的增加，就開始"健忘"了——明明剛才查到了兩個平臺的價格，轉眼就忘記了哪個更便宜。

這種現象引起了一個由香港科技大學（廣州）、香港科技大學、西安交通大學、香港城市大學、悉尼科技大學等多所知名院校組成的國際研究團隊的關注。他們在2026年3月發表的最新研究中，深入分析了這個問題的根本原因，并提出了一種名為"錨定狀態記憶"（Anchored State Memory，簡稱ASM）的解決方案。這項研究成果發表在計算機視覺領域的頂級會議上，論文編號為arXiv:2603.18429v1。

想象一下人類是如何完成復雜任務的。當我們要完成上述比價購物任務時，大腦會自動記住幾個關鍵節點：淘寶上的價格是多少，京東上的價格是多少，哪個更便宜。這些"關鍵信息點"就像錨一樣，穩定地固定在我們的記憶中，幫助我們在后續步驟中做出正確決策。然而，現有的AI系統在處理長任務時，要么試圖記住所有細節（就像把整個圖書館都搬進大腦），要么只保留粗略的總結（就像只記住"我去過圖書館"），都無法準確保存和使用這些關鍵信息。

為了徹底研究這個問題，研究團隊首先構建了一個名為"AndroTMem-Bench"的測試平臺。這個平臺就像一個專門設計的"考場"，包含了1069個需要多步驟完成的手機操作任務，平均每個任務需要32.1步操作，最多的甚至達到65步。這些任務都有一個共同特點：后面的步驟必須依賴前面步驟獲得的信息才能正確完成。比如，只有先在兩個購物平臺都查到價格，才能決定把哪個商品加入購物車。

通過在這個測試平臺上評估12個不同的AI系統，研究團隊發現了一個令人驚訝的規律：無論是開源還是閉源的AI模型，無論是谷歌的Gemini還是OpenAI的GPT系列，它們的表現都隨著任務長度的增加而急劇下降。更重要的是，這種下降主要不是因為AI看不懂屏幕內容或不知道該點擊哪個按鈕，而是因為它們無法有效地記住和使用之前獲得的重要信息。

這就好比一個人患了特殊的健忘癥：他能清楚地看到眼前的景象，也知道下一步該做什么，但就是記不住幾分鐘前發生的關鍵事情。研究團隊通過詳細分析發現，現有AI系統在長任務中主要面臨四種"記憶障礙"：一是重要信息丟失，比如忘記了之前查到的價格；二是信息混亂，比如把淘寶的價格錯誤地關聯到了京東的商品上；三是上下文漂移，比如忘記了當前正在進行什么任務；四是進度驗證失敗，比如不確定某個步驟是否已經成功完成。

基于這些發現，研究團隊提出了"錨定狀態記憶"這一創新解決方案。這種方法的核心思想是讓AI系統像人類一樣，只記住任務中的關鍵節點信息，而不是試圖記住每一個細節。這些"錨點"包括六種類型：子目標完成（比如"已在淘寶查到價格"），狀態轉換（比如"進入了支付頁面"），依賴關系（比如"這個價格將用于后續比較"），異常處理（比如"關閉了彈出廣告"），上下文信息（比如"用戶選擇的聯系人是Alice"），以及任務完成（比如"商品鏈接已發送"）。

更巧妙的是，這套系統還會建立這些錨點之間的因果關系。就像在大腦中用看不見的線把相關記憶連接起來一樣，當AI需要做決策時，它可以快速找到相關的歷史信息，而不必翻遍整個"記憶庫"。

實驗結果令人鼓舞。在各種測試場景中，使用錨定狀態記憶的AI系統比傳統方法的成功率提高了5%到30%不等。特別是在那些需要跨應用協作的復雜任務中，改進效果更加明顯。這就像給一個健忘的助手配備了一個智能筆記本，不僅記錄關鍵信息，還能在需要時快速翻到正確的頁面。

這項研究的意義遠不止于技術改進。隨著我們越來越依賴AI助手來處理日常事務，從簡單的查詢到復雜的多步驟操作，這種"記憶力"的提升將直接影響用戶體驗。試想，未來你可以對手機說："幫我訂一張下周末去上海的高鐵票，選擇下午2點后的班次，如果沒有座位就改訂飛機票，然后把行程分享給我的家人。"而AI助手真的能一步步完成，而不是在中途"斷片"。

當然，這項技術目前還處于研究階段，距離大規模應用還有一段距離。研究團隊也坦誠地指出了當前方法的局限性：比如它主要針對單次任務設計，還無法處理跨越數天的長期任務，也沒有充分考慮應用界面變化或內容更新對任務執行的影響。但是，這項工作為AI系統的"記憶機制"研究開辟了新的方向，為我們提供了一個理解和改進AI長期任務執行能力的新視角。

從更廣闊的角度來看，這項研究觸及了人工智能發展的一個核心問題：如何讓機器具備類似人類的認知能力。記憶不僅僅是信息存儲，更是智能行為的基礎。當AI系統能夠像人類一樣選擇性地記住關鍵信息，并在需要時靈活調用，它們就向真正的智能助手又邁進了一大步。正如研究團隊所說，他們希望這項工作能夠為構建可靠、可擴展的長期AI助手奠定基礎，讓人工智能真正成為我們日常生活中不可或缺的智能伙伴。

Q&A

Q1：什么是錨定狀態記憶技術？

A：錨定狀態記憶是香港科技大學團隊提出的一種AI記憶機制，它讓AI系統像人類一樣只記住任務中的關鍵節點信息，比如查到的價格、完成的步驟等重要狀態，而不是試圖記住所有細節。這些關鍵信息像錨一樣固定在記憶中，并建立相互關聯，幫助AI在長任務中做出正確決策。

Q2：現在的AI手機助手為什么完成不了復雜任務？

A：主要問題是記憶障礙。當任務步驟超過20-30步時，AI會出現四種典型問題：重要信息丟失、信息關聯錯誤、忘記當前任務目標、無法確認步驟是否完成。這就像患了健忘癥，能看懂當前屏幕但記不住之前的關鍵信息，導致后續決策出錯。

Q3：錨定狀態記憶技術什么時候能用到我們的手機上？

A：目前這項技術還處于研究階段，距離商用還需要時間。研究團隊目前主要驗證了技術可行性，提升了AI長任務成功率5%-30%，但要真正應用到日常手機助手中，還需要解決跨天任務、應用界面變化等實際問題。預計未來幾年內會有相關應用出現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.