IT之家 3 月 28 日消息,科技媒體 The Decoder 昨日(3 月 27 日)發布博文,報道稱 Meta 基礎人工智能研究團隊(FAIR)開源全新 AI 模型 TRIBE v2,可精準預測人類大腦對圖像、聲音和文本的反應。
該模型最大的亮點,在于無需實際測量,即可精準預測人類大腦對視覺、聽覺和語言刺激的反應,有望打破傳統神經科學研究周期長、成本高的瓶頸。
![]()
TRIBE v2 的核心邏輯在于“多模態融合”。模型接收視頻、音頻和文本后,分別通過 Video-JEPA-2、Wav2Vec-Bert-2.0 和 Llama 3.2 這三個預訓練大模型提取特征。隨后,Transformer 架構將這些信息整合,最終輸出一張包含 7 萬個“體素”(3D 像素)的高精度大腦活動圖。
![]()
TRIBE v2 可推廣到新科目,無需重新培訓。綠色條表示模型的預測準確性; 灰點顯示了單個腦部掃描與群體平均值的相關性。簡短的微調(底部)進一步提升了精度。| 圖源:Meta
在性能表現上,TRIBE v2 的預測結果比單人真實的腦掃描圖更清晰。真實的功能性磁共振成像(fMRI)常受心跳、頭部微動等噪音干擾,TRIBE v2 通過直接預測“調整后的平均反應”來消除雜音。實驗表明,其預測準確度遠超傳統線性模型,并成功在計算機上復現了大量經典神經科學實驗。
![]()
TRIBE v2 預測大腦在皮層和皮層下區域的活動。預測質量因刺激類型而異,明顯優于線性基線。隨著訓練數據的增加,準確性穩步提升(右下角)。| 圖源:Meta
該模型還揭示了不同感官如何激活特定的大腦區域。單獨輸入音頻會激活聽覺皮層,而同時輸入多模態數據時,大腦顳葉、頂葉和枕葉交界處的預測準確率可飆升 50%。
![]()
.在視覺實驗中,TRIBE v2 識別了已知的面部、地點、身體和角色的專門大腦區域。頂部:展示圖片。中間:模型預測。底部:實際測量的大腦活動。| 圖源:Meta
盡管表現驚艷,TRIBE v2 仍存在局限性。它依賴存在數秒延遲的血流數據,無法捕捉毫秒級的神經動態,也缺乏觸覺和嗅覺維度。
![]()
在語言實驗中,TRIBE v2 復制了經典的神經語言學發現,如言語與沉默、情感與身體疼痛,或句子與詞匯列表的區分。預測的激活模式與測量數據相符。| 圖源:Meta
Meta 目前已全面開源該模型的代碼與權重,未來將重點探索其在規劃腦科學實驗、構建類腦 AI 架構及診斷腦部疾病等領域的應用潛力。
IT之家附上參考地址
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.