網易首頁 > 網易號 > 正文申請入駐

Nature Commun | 慢0.1秒就失敗！同濟大學陳廣開發新模型揪出視覺模型的真實反應力

2026-03-17 07:02:22　來源: BioPeers

浙江舉報

分享至

傳統計算機視覺依賴固定幀率的圖像進行處理，這種離散采樣方式天生存在時間延遲，難以滿足自動駕駛、機器人交互等對實時性要求極高的場景需求。事件相機作為神經形態傳感器，能以微秒級分辨率異步捕捉像素級亮度變化，輸出連續的事件流，理論上具備突破這一瓶頸的潛力。然而，當前對事件驅動感知模型的評估仍沿用傳統RGB相機的幀基方法，將異步事件流重新轉換為同步幀進行處理，不僅丟棄了事件相機實時計算的天然優勢，更忽略了感知延遲（perception latency）對模型在線性能的影響，導致實驗室指標與實際部署表現之間存在巨大鴻溝。

2026年3月16日，同濟大學陳廣教授團隊聯合慕尼黑工業大學、悉尼大學等機構在《Nature Communications》發表了題為《Bridging the latency gap with a continuous stream evaluation framework in event-driven perception》的研究。團隊提出了一套名為STARE的流式延遲感知評估框架，旨在通過連續采樣與延遲感知評估兩大核心機制，還原事件驅動模型在真實世界中的實時表現。

研究首先構建了ESOT500高動態事件數據集，包含500 Hz的密集標注，能夠捕捉快速變化的物體運動。結果顯示，在傳統幀基評估下模型性能虛高，而在STARE框架下，感知延遲導致多數模型的在線跟蹤精度下降超過50%。進一步分析發現，模型性能與采樣窗口大小呈單峰分布，約20 ms窗口達到最優，過短則信息不足，過長則引入冗余。通過對比不同采樣策略，連續采樣相比固定幀率預處理能提升51%至129%的在線精度。

在機器人乒乓球對打實驗中，研究進一步驗證了延遲對實際任務的致命影響。使用相同模型，處理速度從23.0 Hz提升至55.3 Hz，任務成功率從0提升至7/20；而離線精度更高的模型因處理速度慢，成功率僅為1/20。若將連續事件流轉換為40 Hz幀輸入，即使處理速度接近，成功率也大幅下降。這些結果共同表明，傳統評估方法無法揭示模型在實時閉環中的真實能力。

針對延遲帶來的精度下降，團隊提出兩項增強策略。異步跟蹤采用“重模型提取特征+輕模型快速更新”的雙模塊架構，在ESOT500上實現了78%的吞吐量提升（從118 Hz到210 Hz）和60%的精度增益（AUC從31.83升至51.06）。上下文感知采樣則根據目標周圍事件密度動態激活模型推理，在稀疏事件場景下將AUC從18.73提升至28.29，增益超過51%。兩者結合后整體精度提升達61%，顯著增強了模型在低事件密度條件下的魯棒性。

READING

BioPeers

歡迎關注本公眾號，所有內容歡迎點贊，推薦??，評論，轉發~

如有錯誤、遺漏、侵權或商務合作請私信小編~~

歡迎大家投稿課題組研究進展、招聘及招生宣傳~

所有文章只為科普、科研服務，無商業目的~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.