網易首頁 > 網易號 > 正文申請入駐

Meta開源全新AI模型TRIBE v2，精準預測人類大腦多模態反應

2026-03-28 09:38:10　來源: IT之家

山東舉報

分享至

IT之家 3 月 28 日消息，科技媒體 The Decoder 昨日（3 月 27 日）發布博文，報道稱 Meta 基礎人工智能研究團隊（FAIR）開源全新 AI 模型 TRIBE v2，可精準預測人類大腦對圖像、聲音和文本的反應。

該模型最大的亮點，在于無需實際測量，即可精準預測人類大腦對視覺、聽覺和語言刺激的反應，有望打破傳統神經科學研究周期長、成本高的瓶頸。

TRIBE v2 的核心邏輯在于“多模態融合”。模型接收視頻、音頻和文本后，分別通過 Video-JEPA-2、Wav2Vec-Bert-2.0 和 Llama 3.2 這三個預訓練大模型提取特征。隨后，Transformer 架構將這些信息整合，最終輸出一張包含 7 萬個“體素”（3D 像素）的高精度大腦活動圖。

TRIBE v2 可推廣到新科目，無需重新培訓。綠色條表示模型的預測準確性; 灰點顯示了單個腦部掃描與群體平均值的相關性。簡短的微調（底部）進一步提升了精度。| 圖源：Meta

在性能表現上，TRIBE v2 的預測結果比單人真實的腦掃描圖更清晰。真實的功能性磁共振成像（fMRI）常受心跳、頭部微動等噪音干擾，TRIBE v2 通過直接預測“調整后的平均反應”來消除雜音。實驗表明，其預測準確度遠超傳統線性模型，并成功在計算機上復現了大量經典神經科學實驗。

TRIBE v2 預測大腦在皮層和皮層下區域的活動。預測質量因刺激類型而異，明顯優于線性基線。隨著訓練數據的增加，準確性穩步提升（右下角）。| 圖源：Meta

該模型還揭示了不同感官如何激活特定的大腦區域。單獨輸入音頻會激活聽覺皮層，而同時輸入多模態數據時，大腦顳葉、頂葉和枕葉交界處的預測準確率可飆升 50%。

.在視覺實驗中，TRIBE v2 識別了已知的面部、地點、身體和角色的專門大腦區域。頂部：展示圖片。中間：模型預測。底部：實際測量的大腦活動。| 圖源：Meta

盡管表現驚艷，TRIBE v2 仍存在局限性。它依賴存在數秒延遲的血流數據，無法捕捉毫秒級的神經動態，也缺乏觸覺和嗅覺維度。

在語言實驗中，TRIBE v2 復制了經典的神經語言學發現，如言語與沉默、情感與身體疼痛，或句子與詞匯列表的區分。預測的激活模式與測量數據相符。| 圖源：Meta

Meta 目前已全面開源該模型的代碼與權重，未來將重點探索其在規劃腦科學實驗、構建類腦 AI 架構及診斷腦部疾病等領域的應用潛力。

IT之家附上參考地址

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.