337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

強化學習:我們如何被獎勵塑造行為

0
分享至


很多時候,我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看,學習往往發生得更早,也更隱秘。

當一個選擇帶來好結果,它更可能再次出現;當一個行為導致不利后果,它逐漸被抑制。

這種從反饋中調整行為的過程,被稱為強化學習(reinforcement learning)。它并不是某種高階推理,而是連接經驗、行動與未來選擇的基本機制

在神經科學中,強化學習并不是從計算機科學“照搬”來的概念。相反,它最早來自對動物行為的觀察:獎勵不僅帶來愉悅感,更重要的是,它會改變行為的概率。正是這一點,讓獎勵成為塑造決策的關鍵力量。

從“被獎勵”到“做選擇”

早期心理學家很早就注意到,如果一個行為產生令人滿意的結果,它會在未來更頻繁地出現。久而久之,人們甚至提出一種激進的觀點:所有行為,都是為了獲得獎勵或避免懲罰。

這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現,行為可以被系統性地塑造。動物并不需要理解規則本身,只要反饋足夠穩定,行為模式就會逐漸成形。

真正讓“學習”與“決策”交匯的,是當環境中出現了多個可選項。當個體不再只是重復一個動作,而是在不同選項之間分配時間和精力,選擇本身就成為研究對象。

在這些多選項任務中,一個令人著迷的現象反復出現:個體往往不會把所有行為都壓到回報最高的選項上。相反,它們會在不同選項之間分配選擇次數,而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化,卻并不解釋行為為何如此。

更耐人尋味的是,在大多數實驗中,個體表現出的并不是“完美匹配”,而是一種偏離——它們對高回報選項的選擇不夠極端,對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

從結果上看,這似乎并不完全“理性”。如果目標是最大化回報,為什么不更堅決地選擇更好的選項?

大腦在做全局計算嗎?

一個重要的轉折在于,人們開始意識到:也許問題不在“結果是否最優”,而在大腦如何在時間中做決定

在現實世界中,回報是隨機的、嘈雜的,真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”,大腦必須保留大量歷史信息,并進行復雜計算。這在生物系統中并不容易實現。

相反,如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇,都是基于近期經驗的權衡,而不是對整體結構的精確把握。

從這種局部選擇規則出發,長期統計上的匹配行為會自然涌現,而無需大腦明確追求“最優解”。

當研究者把目光投向大腦時,這一假設開始獲得支持。在靈長類動物的實驗中,神經元的活動不僅與選擇本身有關,還會隨選項的回報歷史發生系統性變化

某些神經區域中的神經元,其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的,而是通過對獎勵歷史的持續整合逐步形成。

重要的是,這種整合并不是無限的。較新的結果影響更大,較久遠的結果逐漸衰減。這意味著,大腦對世界的估計始終是動態的、帶有遺忘的。

學習信號來自哪里?

要讓估計發生改變,大腦需要一個關鍵信號:當結果與預期不一致時,系統必須“知道自己錯了”。

這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”,而是“實際結果與預期之間的差異”。如果結果比預期好,估計上調;如果更差,估計下調。

在大腦中,某些神經系統的活動模式,與這種誤差信號高度一致。它們在結果超出預期時短暫增強,在結果落空時被抑制。這種信號并不是為了制造快感,而是為了驅動學習,讓連接發生改變。

隨著時間維度被引入,預測誤差也不再局限于結果出現的那一刻,而是逐漸提前,轉移到那些預示未來結果的線索上。這一現象,為更連續的學習模型提供了基礎。

正是在這樣的背景下,研究者開始借助計算機科學中的強化學習框架,對這些過程進行形式化描述。在這一框架中,個體被視為一個與環境互動的“代理”,通過行動獲得反饋,并試圖在時間中最大化回報

這些模型提供了一種清晰的語言,用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅,卻可能難以在嘈雜、有限的神經系統中實現。

事實上,動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項,會表現出選擇慣性,會在探索與利用之間搖擺。這些特征并非噪聲,而是生物系統在現實約束下的產物。

從神經科學的角度看,強化學習更像是一種視角,幫助我們理解:經驗如何塑造行為,反饋如何改變選擇,以及學習如何嵌入決策本身

它提醒我們,所謂“理性”,并不意味著完美計算;所謂“學習”,也不意味著穩定收斂。在真實的大腦中,學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中,行為才顯得如此真實。

在「神經現實 x Noetex Academy」新一期的決策神經科學課程中,你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下,你將進入生物、認知和計算三個層級,探尋決策機制的神經基礎,以及它如何啟發經濟學、認知科學和人工智能等領域的發展。







特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反穆情緒高漲,伊斯蘭教在印度還能傳播開嗎?

反穆情緒高漲,伊斯蘭教在印度還能傳播開嗎?

阿訊說天下
2026-03-28 16:16:05
西安一商場門店招牌上方養魚,被疑有安全隱患

西安一商場門店招牌上方養魚,被疑有安全隱患

現代快報
2026-03-29 23:00:10
山西一兒媳住院公公陪床,趁護士換藥塞紙條,護士看后直接報警

山西一兒媳住院公公陪床,趁護士換藥塞紙條,護士看后直接報警

五元講堂
2024-10-24 10:54:37
38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

云景侃記
2026-02-12 22:21:30
太狠了!山東網紅城市用“工業暴力”,干翻馬來西亞百年橡膠帝國

太狠了!山東網紅城市用“工業暴力”,干翻馬來西亞百年橡膠帝國

毒sir財經
2026-03-29 23:27:36
國際原子能機構:伊朗重水工廠遭嚴重損壞并停止運行

國際原子能機構:伊朗重水工廠遭嚴重損壞并停止運行

新華社
2026-03-30 06:36:03
紅魔終于等對人!貝克漢姆:看卡里克執教的曼聯,比十年都舒服

紅魔終于等對人!貝克漢姆:看卡里克執教的曼聯,比十年都舒服

夜白侃球
2026-03-30 09:09:17
這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

潮鹿逐夢
2026-03-02 17:19:02
不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

米果說識
2026-03-29 22:01:08
廣州天氣:抓緊時間到室內躲避,不要在戶外停留!

廣州天氣:抓緊時間到室內躲避,不要在戶外停留!

魯中晨報
2026-03-30 09:09:13
臨時世界排名更新!趙心童創新高,丁俊暉保前16吳宜澤直逼肖國棟

臨時世界排名更新!趙心童創新高,丁俊暉保前16吳宜澤直逼肖國棟

世界體壇觀察家
2026-03-30 00:03:55
4月1日起,高血壓糖尿病患者必辦三件事,藥費直接省一半

4月1日起,高血壓糖尿病患者必辦三件事,藥費直接省一半

今日養生之道
2026-03-28 07:00:22
何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

大鐵貓娛樂
2026-03-27 14:20:03
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
為娶學生拋棄懷孕發妻,16年后出軌他人妻,卻說:我從不玩弄女性

為娶學生拋棄懷孕發妻,16年后出軌他人妻,卻說:我從不玩弄女性

歷史人文2
2026-03-28 13:24:06
德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

大西體育
2026-03-29 21:29:44
善惡有報!逼人民日報怒批、暗諷張雪峰,1300萬網紅終為荒唐買單

善惡有報!逼人民日報怒批、暗諷張雪峰,1300萬網紅終為荒唐買單

科普100克克
2026-03-30 00:44:32
演員李尚寶去世終年45歲,曾患抑郁癥街頭狂奔精神異常,公司回應

演員李尚寶去世終年45歲,曾患抑郁癥街頭狂奔精神異常,公司回應

韓小娛
2026-03-28 13:31:17
CBA一夜3場慘案!上海4殺山西,黑馬7連勝,最新積分:北京跌第6

CBA一夜3場慘案!上海4殺山西,黑馬7連勝,最新積分:北京跌第6

小火箭愛體育
2026-03-29 21:43:03
62年印軍戰斗力如何?陰法唐回憶:很多戰斗,印軍戰死比被俘的多

62年印軍戰斗力如何?陰法唐回憶:很多戰斗,印軍戰死比被俘的多

云霄紀史觀
2026-03-29 16:54:22
2026-03-30 09:27:00
神經現實
神經現實
大腦,心智,認知
2478文章數 25496關注度
往期回顧 全部

科技要聞

中國科學院院士:全固態電池或至少再等5年

頭條要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

頭條要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

教育
藝術
本地
數碼
房產

教育要聞

持續700年的功名之路,江南貢院九日考:古代科舉高考有多難?

藝術要聞

毛主席的草案遭吐槽!退休前能否再創輝煌?

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

數碼要聞

假SSD越來越真了!測速7255MB/s、容量校驗全過:大文件拷貝才露餡

房產要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

無障礙瀏覽 進入關懷版