?
這是我思維導(dǎo)論的第1期,靈感來自另一位博主。視頻做完后會接著更新算法系列專欄~
?
我們玩王者榮耀,究竟是為了什么
?
對于非職業(yè)玩家來說,打王者榮耀,是為了什么?除去消遣時間這個普遍因素,是為了推掉對方水晶?還是拿到5殺?抑或只是為了和朋友一起,享受在游戲中暢快地傾瀉技能的感覺?
這些都不是本質(zhì)原因,單次的獲勝,或者5殺,并不能促使我們不斷打開下一局游戲。本質(zhì)上,我們對游戲的快感,都是大腦對游戲反饋機(jī)制的一種獎勵,它由我們的多巴胺所決定。
?
人們常以為多巴胺等同于快感,但事實(shí)并非如此。多巴胺(dopamine)只是腦垂體腺中的前體物質(zhì),它不是快感本身,而是對快感的預(yù)期,或者說,對快感的追求。當(dāng)你獲勝,或者拿到擊殺,你的腎上腺素、催產(chǎn)素以及內(nèi)啡肽分泌增多,你會感到愉悅、興奮,當(dāng)你被擊殺、水晶被推,你會感到沮喪、憤怒。但對于大腦神經(jīng)來說,這些情緒只是暫時的體驗(yàn),突觸上的電信號一觸即走,不帶走半點(diǎn)云彩。而多巴胺所構(gòu)成的信號機(jī)制,才是決定你會不會接著玩下去,并且以后還會打開游戲的關(guān)鍵。
?
換句話說,多巴胺賦予你沉迷游戲的欲望。在多巴胺的信號機(jī)制中,它并不會讓你感到“我玩王者榮耀很爽”,而是讓你覺得“這把我能翻”、“下把一定贏”“再贏一把排位我就升段位了”。
也正由于多巴胺是直接作用于大腦的獎勵回路,使得一個人即使對某件事感到厭惡,也會在多巴胺的作用下去做這件事。于是,一次又一次地,我們打開手機(jī)或電腦,點(diǎn)開了游戲,進(jìn)入了排位,周而復(fù)始。
?
這,就是我們玩王者榮耀的根本原因。
?
反饋回路
反饋回路是一種“信號-動作-反饋”機(jī)制,可以簡單描述為一個五元組系統(tǒng)
· 環(huán)境 – 你的交互環(huán)境,比如游戲
· 狀態(tài) – 你所處的狀態(tài),比如擊殺、被擊殺、以及獲得勝利
· 動作 – 打開游戲,操作游戲角色,或者關(guān)掉游戲
· 更新 – 提高或降低你做出某個動作的概率。概率-可以理解為大腦信號的強(qiáng)弱
· 獎勵 – 獲勝的愉悅,也就是快感預(yù)期
?
并且滿足以下4個規(guī)則:
*
當(dāng)你進(jìn)入游戲,你會以不同的概率,在每一個時間點(diǎn)上,做出不同的動作
*
你的動作決定了下一刻你所處的狀態(tài),每個狀態(tài)都對應(yīng)一個獎勵,也即大腦所獲得的反饋
*
每一步動作,都不只影響下一步的反饋,也可能影響更遠(yuǎn)的狀態(tài)和反饋
*
反饋可以為正,也可以為負(fù)
舉個例子,作為一個剛玩MOBA類游戲的玩家,你只知道要推掉敵方水晶。當(dāng)你進(jìn)入游戲(環(huán)境),你孤身進(jìn)入敵方防御塔范圍(動作),被擊殺(狀態(tài)),你的大腦感覺失望(獎勵)。于是,當(dāng)你從泉水復(fù)活(環(huán)境),你孤身進(jìn)塔的動作概率被降低(更新),你選擇跟隨兵線一起進(jìn)入(動作),推掉了防御塔(狀態(tài)轉(zhuǎn)移),并在數(shù)十個類似動作后,最終勝利(更遠(yuǎn)狀態(tài)),你獲得了滿足(獎勵)。
?
根據(jù)獎勵結(jié)果,大腦判斷第二種路徑更好,因此下一次循環(huán),你選擇跟隨兵線的概率會繼續(xù)增加,并隨之做出更多正確操作,最終加強(qiáng)這個正向反饋回路的效果。這,也是職業(yè)選手得以脫穎而出的原因——他們的反饋機(jī)制更為迅速,且響應(yīng)更快。
?
強(qiáng)化學(xué)習(xí)
?
這個反饋回路,就是構(gòu)成人工智能中強(qiáng)化學(xué)習(xí)理論的基礎(chǔ)機(jī)制。強(qiáng)化(reinforcement),是指在不斷嘗試中,個體所學(xué)習(xí)到的反饋回路在不斷更新,并最終優(yōu)化到可能目標(biāo)的過程。
它和監(jiān)督式機(jī)器學(xué)習(xí)一樣,是構(gòu)成人工智能的基石。
監(jiān)督式機(jī)器學(xué)習(xí),就好比你做歷年真題,它由往年題目(舊數(shù)據(jù))和答案(標(biāo)簽)構(gòu)成,通過做題,你獲得了從題目和答案中學(xué)習(xí)到的解題方法,并將這種方法應(yīng)用到下一次考試中去。本質(zhì)上,它學(xué)習(xí)出的是問題和答案之間的關(guān)系,這種關(guān)系就是模型。機(jī)器學(xué)習(xí),只是把我們在過去學(xué)習(xí)中所做了十幾年的事情,復(fù)制到了計算機(jī)上。
?
而強(qiáng)化學(xué)習(xí),學(xué)到的是反饋回路。反饋 (reward),即用來判斷這個行為是好是壞。一個優(yōu)秀的強(qiáng)化學(xué)習(xí)系統(tǒng),甚至不需要舊有的數(shù)據(jù),就可以直接進(jìn)行學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)的反饋有延時,即有可能走了很多步以后,才知道以前的某一步的選擇是好還是壞,而監(jiān)督式機(jī)器學(xué)習(xí)只學(xué)習(xí)方法,不考慮時間。這樣的思考方式其實(shí)并不與現(xiàn)實(shí)相似,因?yàn)槲覀兯龅拿總€選擇,所處的每個環(huán)境,都與過去的許多行為有關(guān),它們極其復(fù)雜,沒有一個固定、線性的模式可被學(xué)習(xí),但通過強(qiáng)化學(xué)習(xí),可以盡量逼近可能存在的完美模型。
?
從生物學(xué)的角度講,強(qiáng)化學(xué)習(xí)更符合人類的進(jìn)化方式,從古代的尼安德特人就已經(jīng)開始:不符合正反饋回路的行為或族群,注定被“環(huán)境”所“更新”,也意味著淘汰。人類之所以進(jìn)化成人類,是因?yàn)槌丝偨Y(jié)舊有知識并發(fā)現(xiàn)規(guī)律(機(jī)器學(xué)習(xí))外,還會不斷嘗試和探索(強(qiáng)化學(xué)習(xí))。
?
現(xiàn)如今,最完善的強(qiáng)化學(xué)習(xí)系統(tǒng),就是谷歌的AlphaGo。每日與自己對弈數(shù)十萬局,根據(jù)對弈結(jié)果,強(qiáng)化棋盤落子的正反饋回路。如果說,監(jiān)督式機(jī)器學(xué)習(xí)是一種方法遷移,那強(qiáng)化學(xué)習(xí)則是方法探索。在某種意義上,強(qiáng)化學(xué)習(xí)更接近想象中的人工智能。
?
現(xiàn)在,讓我們回到問題中來。
學(xué)習(xí),究竟是為了什么?
不打游戲,是為了更好的學(xué)習(xí)。更好的學(xué)習(xí),是為了更好的生活。那,什么是更好的生活?可以痛快地玩游戲,算不算更好的生活?我們從小被教導(dǎo)要好好學(xué)習(xí),卻從來沒有真正思考過為什么要好好學(xué)習(xí)。如果連成因、機(jī)制都不了解,看再多的思維教學(xué)、學(xué)習(xí)導(dǎo)論,也沒有辦法讓自己真正地執(zhí)行“好好學(xué)習(xí)”這件事。
?
讓我們思考一個問題:
“我們真的厭惡學(xué)習(xí)嗎?”
?
其實(shí),用強(qiáng)化學(xué)習(xí)的角度看,學(xué)習(xí)和玩王者,本質(zhì)上沒有區(qū)別。
學(xué)習(xí)是一個枯燥的過程,你要背單詞、背公式,要寫作、還要練習(xí)。玩游戲也是如此:你要記憶每個英雄的技能、走位技巧、出裝順序,也要通過很多次的對局來練習(xí)、提高技能。
?
區(qū)別在哪里?在學(xué)習(xí)系統(tǒng)中,它們都是同一種東西,即“動作”,動作無所謂枯燥和有趣,關(guān)鍵看它所處的“狀態(tài)”和預(yù)期的“獎勵”。
人類厭惡枯燥的東西,所以當(dāng)學(xué)習(xí)變得索然無味,我們就會討厭學(xué)習(xí),這是天性。我們在學(xué)習(xí)時,并不能獲得和做愛一樣的快感,否則的話,沒有人會討厭學(xué)習(xí)。但是,有的人卻能堅持學(xué)習(xí)并樂在其中,為什么?答案是反饋機(jī)制。
當(dāng)學(xué)習(xí)的“動作”帶給人的長期收益為正,就會獲得我們所說的快感預(yù)期,也即前文提到的多巴胺。如果不靠多巴胺,只靠意志力去堅持學(xué)習(xí),會怎么樣呢?就像不斷繃緊一根弦,強(qiáng)行違背身體的感覺,到最后早晚會斷掉。
?
我們絕大多數(shù)人,沒有移山填海的毅力,因此這樣的學(xué)習(xí)方式,是不科學(xué)的。大腦發(fā)出指令的動機(jī)其實(shí)和海洋館的海豹一樣,是為了眼前那一條小魚干,頂一次球,給一條魚,再頂一次,再給一次。也就是說,只有不斷收到正向的反饋,才會自然而然地保持前進(jìn)的動力。
本質(zhì)上,這只是把“學(xué)習(xí)”動作的反饋回路,搬到了游戲上來。搞清楚這點(diǎn),我們就可以思考,如何讓自己像打王者榮耀一樣的學(xué)習(xí)
?
?
反饋強(qiáng)化
?
先讓我們回到游戲本身。游戲帶給玩家的反饋是否足夠,是決定一個游戲是否有趣的基礎(chǔ)。而游戲廠商在做的事情,就是將反饋回路,竭盡所能的加強(qiáng)和加快,也即提高動作的收益,比如推掉水晶,你獲得的不只是勝利,游戲分?jǐn)?shù)也會提升。或者增加不確定性,讓玩家耗費(fèi)更多次的嘗試,來確定反饋回路,比如部分皮膚的隨機(jī)性。
?
簡單來說,常見的游戲,都是基于以下三種強(qiáng)化模式,來對游戲結(jié)果的反饋機(jī)制進(jìn)行加強(qiáng):
*
一種是“固定比率強(qiáng)化”(Fixed Ratio),比如“打敗10個哥布林一定可以升1級”,“連勝10場一定可以升段”
*
一種是“固定時距強(qiáng)化”(Fixed Interval),比如“《皇室戰(zhàn)爭》里的白銀寶箱3小時后一定可以解鎖”
*
還有一種“不固定比率強(qiáng)化”(Variable Ratio),也就是“《陰陽師》每抽一次卡,有1%的幾率抽到SSR”
這三種方法,將強(qiáng)化學(xué)習(xí)中的不確定性獎勵,固化成為確定性收益,比如分?jǐn)?shù)、卡牌、等級。
分別為游戲廠商帶來了留存率,在線人數(shù),和凈收入。
?
?
?
我們該怎么做?
?
學(xué)霸和學(xué)渣的區(qū)別,就在于對快感的預(yù)期不同。預(yù)期不同,形成的反饋也就不同。成為學(xué)霸,需要不斷強(qiáng)化自己的反饋回路。最基本的,從以下三點(diǎn)做起
1.?縮短反饋周期
反饋周期太長,意味著半衰期長。半衰期是什么,下期文章我會講。這里只需要知道,反饋周期太長是大多數(shù)人無法堅持的主要障礙。舉個例子,有的人高中時成績很好,為何到大學(xué)時成績就一落千丈?有人說,是因?yàn)楦呖贾笕怂尚噶?,就容易變笨。很可惜,這個說法或許有道理,卻并沒有研究結(jié)論支撐。真正的原因,其實(shí)是反饋周期變長了。
在高中時,一個月會有3-4次測試,你努力學(xué)習(xí)一個周,就能看到努力的效果,班級名次很容易進(jìn)步。接著,同學(xué)吃驚,家長老師表揚(yáng),你覺得特別很開心,打了雞血一樣繼續(xù)學(xué)習(xí),這種感覺可能會持續(xù)幾天,還沒等它消退,下一次考試又來了。不出意外,你會接著獲得下一次正反饋。在這樣的反饋回路中,“動作”帶來的“獎勵”被極大加速,整個系統(tǒng)變得完全正向。
?
上了大學(xué)以后,認(rèn)真學(xué)習(xí)一個學(xué)期,才能有一個好的GPA,這個反饋周期變長了幾倍,而且也很少有人因?yàn)镚PA受到表揚(yáng),因此,大多數(shù)人堅持不來。取而代之的,很多人習(xí)慣考試前1個周開始執(zhí)行“學(xué)習(xí)”動作,因?yàn)橹恍枰?個周就可以獲得相當(dāng)可觀“獎勵”,比如及格。所以,想辦法減少你的反饋周期,比如,將大目標(biāo)分解為小目標(biāo),會更容易獲得成就感。
?
2.?增加反饋強(qiáng)化
我們提到過三種反饋強(qiáng)化模式,那么把“游戲”替換成“學(xué)習(xí)”,我們要做的是什么呢?可以是考試?yán)塾嬤M(jìn)步10名就請自己吃燒烤,也可以是隔壁班的小愛刮目相看的“SSR”,又或是再看3小時書就去打王者榮耀。
對應(yīng)到游戲廠商的三種收益上來,就是提高學(xué)習(xí)留存率,延長學(xué)習(xí)時間,增加學(xué)習(xí)收益。
?
3.?調(diào)整反饋難度
斯坦福大學(xué)行為科學(xué)研究人員曾發(fā)表過一篇論文,大意是玩家在高難度游戲獲勝的那一刻,大腦多巴胺回路會異常激活。也就是說,適當(dāng)?shù)母唠y度游戲,能夠最大化地激活反饋回路。這也是各大競技類游戲排位賽機(jī)制的由來,通過匹配不同難度的對手,即不會讓你一直輸下去,也不會讓你永遠(yuǎn)贏。它們塑造一種“升段”“掉段”的獎勵機(jī)制,讓你的反饋回路一直處于半激活狀態(tài)。
在學(xué)習(xí)中,如何設(shè)置難度,需要根據(jù)個人情況制定,比如,下一次考試提高10分,和成為班級第一,就是兩種不同的難度。難度可以遞進(jìn),既不要太簡單,也不能太難。
?
一旦大腦形成了正反饋回路機(jī)制,那么嘗過一次甜頭,食髓知味,你的動力將會更加充足,久而久之,甚至?xí)硎軐W(xué)習(xí)這件事情本身,像打王者一樣石樂志一般的學(xué)習(xí),最終愛上學(xué)習(xí)。這,就是學(xué)霸的誕生規(guī)則。
?
關(guān)于反饋機(jī)制,其實(shí)還有很多東西可以講,具體的學(xué)習(xí)方法也遠(yuǎn)不止這些,有一種叫做“心流”的東西,是增強(qiáng)學(xué)習(xí)能力的利器。但是因?yàn)闀r間關(guān)系,我不想把文章寫的太長。更多的學(xué)習(xí)方法和強(qiáng)化學(xué)習(xí)知識,歡迎關(guān)注我的下一期文章。
?
文章之后會制作成視頻發(fā)在B站,也謝謝大家的閱讀~
?
?
?
熱門工具 換一換