網易首頁 > 網易號 > 正文申請入駐

擺脫相機依賴！M4Human推動毫米波人體感知邁向新階段

2026-04-13 13:03:18　來源: 機器之心Pro

河北舉報

分享至

本文由來自南洋理工大學、愛丁堡大學、賓夕法尼亞大學、倫敦大學學院和麻省理工學院的研究者合作完成。作者團隊在 RF / 毫米波感知、人體建模、機器人感知與控制等方向均有長期積累。

Junqiao Fan：NTU 在讀博士，指導老師為 NTU 教授 Lihua Xie。
Chris Xiaoxuan Lu：UCL 副教授。
Jianfei Yang：NTU 助理教授。
Fangqiang Ding：MIT 博后研究員。
Yunjiao Zhou, Yizhuo Yang, Jiarui Zhang：NTU 在讀博士。
Xinyuan Cui：Upenn 在讀碩士（部分工作為 Xinyuan Cui 和 Fangqiang Ding 在愛丁堡大學時完成）。

想象幾個并不遙遠的場景：

醫院的病房里，剛做完手術的患者正在練習下床、走動，智能系統通過攝像頭捕捉他的動作，判斷步態是否穩定、有沒有跌倒風險；回到家，在臥室或浴室這樣私密的空間里，老人起身、轉身、洗漱，甚至意外滑倒的瞬間，也可能被視覺傳感器記錄，只為了讓 AI 能更早發現異常；另外，在養老院和托兒所場景里，老人或孩子的日常活動，同樣可能長期處于 “被看見” 的狀態。

這些系統的出發點無疑是好的：為了更安全的照護、更及時的提醒、更可靠的響應。但只要感知還依賴相機，一個問題就始終繞不開：當 AI 越來越懂人，人是不是也在被越來越徹底地暴露？

人們擔心的，不只是模型準不準，更怕那些包含外貌、身份、行為習慣甚至生活細節的視覺數據，被存儲、泄露或濫用。哪怕什么都沒發生，光是 “始終有一個鏡頭在看著你” 這件事本身，就足以讓人不安。正是在這樣的背景下，來自海外高校的研究者提出了M4Human。這項工作試圖減少人體感知對相機單一模式的依賴，推動毫米波人體感知從粗粒度的識別，走向更高保真的人體建模與系統化評測。

論文標題：M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction
作者: Junqiao Fan, Yunjiao Zhou, Yizhuo Yang, Xinyuan Cui, Jiarui Zhang, Lihua Xie, Jianfei Yang, Chris Xiaoxuan Lu, Fangqiang Ding
作者單位：南洋理工大學，愛丁堡大學，賓夕法尼亞大學，倫敦大學學院，麻省理工學院
論文鏈接： https://arxiv.org/pdf/2512.12378
代碼與數據鏈接：https://github.com/FanJunqiao/M4Human
主頁鏈接：https://fanjunqiao.github.io/M4Human-site/

研究背景

為什么人體感知不能只依賴相機

在未來的 Physical AI 系統中，機器不僅要 “看見” 人，還要理解人的運動和行為，并據此做出合適的響應。相比只預測少量人體關鍵點，人體網格重建（Human Mesh Reconstruction, HMR）能夠恢復姿態、形狀和全局運動，在人機交互、康復評估、健康監測、VR/AR 以及具身智能等場景中更有應用價值。

但當前高質量的 HMR 系統大多仍依賴相機。這條路雖然有效，卻有兩個現實限制：一是視覺數據會直接暴露人的外觀，在兒童照護、養老陪護、居家康復等場景中容易引發隱私擔憂；二是相機容易受光照和遮擋影響，弱光、逆光或復雜環境下的魯棒性并不總能保證。正因如此，毫米波雷達正成為人體感知中越來越重要的一種模態 —— 它通過回波恢復空間信息，對光照不敏感，在部分遮擋條件下更穩健，而且不會記錄人的外貌。

M4Human - 面向多任務的人體感知 benchmark：涵蓋 50 類動作、20 位參與者、661K 幀數據，并支持 tracking、mesh reconstruction、activity recognition、generation 等任務。

現有問題

RF 人體感知真正缺的是 benchmark

過去幾年，基于 RF / 毫米波的人體感知方法層出不窮，但這一方向的發展一直受限于數據基礎。更準確地說，當前真正缺的不是模型，而是足夠系統、足夠高質量的 benchmark。現有許多 RF 數據集仍以粗粒度的人體姿態估計為主，標注通常停留在 skeleton 層面；少數涉及 mesh reconstruction 的數據集，也存在規模小、動作種類有限的問題，而且很多只開放經過處理后的稀疏點云。

這帶來了幾個直接限制：

標注粒度和精度不足，難以支撐更高保真的人體建模；
動作分布單一，大多集中在簡單的原地動作，難以反映真實場景中的復雜動態；
原始雷達張量（raw radar tensor）缺失，后續研究只能在經過閾值處理后的點云上建模，無法充分利用雷達原始信號中更完整、更細粒度的空間信息。

M4Human 與已有 RF/mmWave 人體感知數據集對比。M4Human 規模更大、動作更多、標注更細、同時開放 RT 與 RPC，并支持 mesh reconstruction 與全局軌跡。

數據集本身

M4Human 補上的是什么空白

M4Human 是一個面向高保真 RF / 毫米波人體建模的大規模多模態 benchmark，包含 999 段序列、661K 同步幀、20 位參與者、50 類動作，總時長超過 15 小時。與此前許多數據集不同，M4Human 不僅提供 RGB 和 depth，還同時開放 raw radar tensor（RT）與 radar point cloud（RPC），并配有基于高精度 marker-based MoCap 的 3D mesh 和全局軌跡標注。

這項工作的關鍵不是 “數據更多”，而是“數據更適合高保真人體建模”。一方面，M4Human 的動作設計更豐富 —— 不僅包含原地動作，還涵蓋坐姿以及非原地的動態動作，整體分布更接近真實場景；另一方面，它提供了更完整的雷達數據表征，既開放后處理得到的點云，也保留原始 RT，讓研究者可以探索從 radar tensor 到人體 mesh 的端到端建模。

與 mmBody 等已有數據集相比，M4Human 不僅規模更大，還具有更高的人體有效點云占比，并額外開放原始雷達張量 RT。

數據怎么來的

采集系統與標注鏈路為什么可信

一個 benchmark 是否有說服力，很大程度上取決于數據采集與標注流程是否扎實可靠。M4Human 在這方面搭建了一套完整的多模態采集平臺：作者將 Intel RealSense RGB-D 相機、Vayyar 成像毫米波雷達和 Vicon MoCap 系統集成到一起，相機與雷達固定安裝，Vicon 系統則提供高精度三維運動捕捉。

基于這套系統，M4Human 一方面可以同步采集 RGB、depth、RT、RPC 等多模態數據，另一方面借助 MoCap 為人體 mesh 和全局軌跡提供高質量標注。論文中提到，作者使用了 37 個 markers 進行采集，并結合后續重建與人工檢查，盡可能保證 mesh 標注的準確性和時空一致性。相比許多只提供 skeleton 標注的 RF 數據集，這樣的流程顯然更適合支撐 mesh 級的人體建模研究。

M4Human 的數據采集與標注流程：包括傳感系統搭建、空間標定、時間同步、mesh 標注生成與人工校驗。

視頻地址：https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg

M4Human 數據集中多模態傳感器數據與 MoCap mesh 標注的同步演示，展示了不同動作情境下雷達數據與人體標注之間的對齊效果。

Benchmark 設計

它到底在評什么

M4Human 的價值不僅在于發布了一個新數據集，還在于建立了一套相對系統的評測框架。除了動作協議劃分，論文進一步定義了Random split、cross-subject和cross-action三種劃分方式，分別用于評估常規設置下的表現，以及更具挑戰性的泛化能力。

這一設計很重要。很多方法在隨機劃分下能取得不錯的結果，但一旦測試對象變成未見過的 subject，或者動作分布發生變化，性能往往明顯下降。M4Human 將這些更難、也更接近真實應用的問題納入統一的 benchmark，讓評測不再停留在 “模型能不能跑通”，而是進一步關注模型在真實變化條件下是否還能保持泛化能力。

RT-Mesh：直接從原始雷達張量恢復人體 mesh

圍繞這個 benchmark，作者提出了RT-Mesh，作為首個直接基于 raw radar tensor 進行 HMR 的 baseline。它的意義不在于一次性給出最終答案，而在于驗證了一件更基礎的事情：RT 并不只是輔助信息，它本身就可以成為高保真人體建模的核心輸入表征。

RT-Mesh 的整體思路是：先在 BEV 空間中進行高效定位，再從局部三維 radar tensor 中回歸人體 mesh。這一設計為后續基于原始雷達信號的人體建模方法提供了一個清晰的起點，也讓 M4Human 不止于 “提供數據”，同時給出了一個可復現、可比較的 baseline。

RT-Mesh 框架示意：先在 BEV 中進行高效定位，再從局部 3D radar tensor 中回歸人體 mesh。

結果一：RT 不只是可用，而且在泛化場景下更穩

從實驗結果看，在 radar-only 設置下，RT 和 RPC 在隨機劃分上的表現較為接近；但在 cross-subject 和 cross-action 這類更具挑戰性的設置中，RT 往往更穩定。以 ALL 協議為例，RT-Mesh 的 MVE 在 S1/S2/S3 上分別達到 90.9 / 135.1 / 143.1 mm，推理延遲僅為 2.74 ms，計算量約 2.6 GFLOPs。

這說明原始 radar tensor 中保留了更連續、更完整的空間信息；而稀疏的 RPC 在經過閾值篩選和點云化后，會損失一部分對細粒度人體建模有用的信息。因此，在更復雜、也更強調泛化能力的測試條件下，RT 展現出更大的潛力。

Radar-only benchmark 結果。RT-Mesh 在整體性能、泛化穩定性和推理效率之間取得了較好的平衡。

數據規模對性能的影響分析：隨著訓練數據增加，cross-subject 與 cross-action 表現持續改善。證明了大規模數據集的優勢。

結果二：mmWave 不是簡單替代視覺，而是強互補模態

如果把雷達放到與視覺模態的對比中看，更準確的結論不是 “雷達取代相機”，而是 “雷達與視覺具有明確的互補性”。在單模態設置下，高分辨率 radar-only 在不少場景中已超過 RGB，并接近 depth 的表現；而在多模態融合設置下，Depth + RT 和 RPC + RT 都能帶來進一步收益。

雷達的價值至少體現在兩方面：

它本身具有更好的隱私友好性和環境魯棒性；
它不是視覺系統的簡單替代，而是 camera-based 系統的有效補充。

論文還指出，radar 在 root trajectory tracking 上尤其有優勢，這與它對移動前景更敏感、對靜態背景相對不敏感的特性一致。

單模態與融合 benchmark：radar-only 已具備較強競爭力，而與視覺模態融合后還能進一步提升重建與跟蹤表現。

復雜非原地動作中的可視化對比：RT 能更穩定地支持 tracking 與 mesh reconstruction，而 RPC 在身體局部缺失時更容易失敗。

視頻地址：https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg

復雜動作下的視頻可視化結果，基于 radar 的方法得到了穩定精確的人體重建效果。

結語

從骨架到人體網格，RF 人體感知正在進入下一階段

從更大的視角看，M4Human 推進的不只是一個新數據集，更體現了RF 人體感知研究范式的進一步演進。過去，這一領域的許多工作主要停留在 skeleton 級別的人體姿態估計；而 M4Human 把問題推進到 mesh 級建模，讓隱私友好的人體感知開始具備更高保真的數據基礎與評測支撐。

對于智能家居、醫療康復、人機交互以及具身智能等場景而言，未來真正需要理解的，往往不只是幾個離散的關鍵點，而是人體在真實運動過程中的完整形態與動態變化。M4Human 為這一目標提供了更系統的 benchmark，也讓 RF / 毫米波人體感知從一種可探索的感知模態，發展為一個更值得持續投入和長期建設的研究方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.