黑人大鷄巴A片视频,黄色日本视频,夜夜干天天操,黄色小说大全,欧美综合在线视频,91我要操,人人鲁人人爱,亲戚交换乱h文

?

這是我思維導(dǎo)論的第1期，靈感來自另一位博主。視頻做完后會接著更新算法系列專欄~

?

我們玩王者榮耀，究竟是為了什么

?

對于非職業(yè)玩家來說，打王者榮耀，是為了什么？除去消遣時間這個普遍因素，是為了推掉對方水晶？還是拿到5殺？抑或只是為了和朋友一起，享受在游戲中暢快地傾瀉技能的感覺？

這些都不是本質(zhì)原因，單次的獲勝，或者5殺，并不能促使我們不斷打開下一局游戲。本質(zhì)上，我們對游戲的快感，都是大腦對游戲反饋機(jī)制的一種獎勵，它由我們的多巴胺所決定。

?

人們常以為多巴胺等同于快感，但事實(shí)并非如此。多巴胺(dopamine)只是腦垂體腺中的前體物質(zhì)，它不是快感本身，而是對快感的預(yù)期，或者說，對快感的追求。當(dāng)你獲勝，或者拿到擊殺，你的腎上腺素、催產(chǎn)素以及內(nèi)啡肽分泌增多，你會感到愉悅、興奮，當(dāng)你被擊殺、水晶被推，你會感到沮喪、憤怒。但對于大腦神經(jīng)來說，這些情緒只是暫時的體驗(yàn)，突觸上的電信號一觸即走，不帶走半點(diǎn)云彩。而多巴胺所構(gòu)成的信號機(jī)制，才是決定你會不會接著玩下去，并且以后還會打開游戲的關(guān)鍵。

?

換句話說，多巴胺賦予你沉迷游戲的欲望。在多巴胺的信號機(jī)制中，它并不會讓你感到“我玩王者榮耀很爽”，而是讓你覺得“這把我能翻”、“下把一定贏”“再贏一把排位我就升段位了”。

也正由于多巴胺是直接作用于大腦的獎勵回路，使得一個人即使對某件事感到厭惡，也會在多巴胺的作用下去做這件事。于是，一次又一次地，我們打開手機(jī)或電腦，點(diǎn)開了游戲，進(jìn)入了排位，周而復(fù)始。

?

這，就是我們玩王者榮耀的根本原因。

?

反饋回路

反饋回路是一種“信號-動作-反饋”機(jī)制，可以簡單描述為一個五元組系統(tǒng)

· 環(huán)境 – 你的交互環(huán)境，比如游戲

· 狀態(tài) – 你所處的狀態(tài)，比如擊殺、被擊殺、以及獲得勝利

· 動作 – 打開游戲，操作游戲角色，或者關(guān)掉游戲

· 更新 – 提高或降低你做出某個動作的概率。概率-可以理解為大腦信號的強(qiáng)弱

· 獎勵 – 獲勝的愉悅，也就是快感預(yù)期

?

并且滿足以下4個規(guī)則：

*
當(dāng)你進(jìn)入游戲，你會以不同的概率，在每一個時間點(diǎn)上，做出不同的動作

*
你的動作決定了下一刻你所處的狀態(tài)，每個狀態(tài)都對應(yīng)一個獎勵，也即大腦所獲得的反饋

*
每一步動作，都不只影響下一步的反饋，也可能影響更遠(yuǎn)的狀態(tài)和反饋

*
反饋可以為正，也可以為負(fù)

舉個例子，作為一個剛玩MOBA類游戲的玩家，你只知道要推掉敵方水晶。當(dāng)你進(jìn)入游戲（環(huán)境），你孤身進(jìn)入敵方防御塔范圍（動作），被擊殺（狀態(tài)），你的大腦感覺失望（獎勵）。于是，當(dāng)你從泉水復(fù)活（環(huán)境），你孤身進(jìn)塔的動作概率被降低（更新），你選擇跟隨兵線一起進(jìn)入（動作），推掉了防御塔（狀態(tài)轉(zhuǎn)移），并在數(shù)十個類似動作后，最終勝利（更遠(yuǎn)狀態(tài)），你獲得了滿足（獎勵）。

?

根據(jù)獎勵結(jié)果，大腦判斷第二種路徑更好，因此下一次循環(huán)，你選擇跟隨兵線的概率會繼續(xù)增加，并隨之做出更多正確操作，最終加強(qiáng)這個正向反饋回路的效果。這，也是職業(yè)選手得以脫穎而出的原因——他們的反饋機(jī)制更為迅速，且響應(yīng)更快。

?

強(qiáng)化學(xué)習(xí)

?

這個反饋回路，就是構(gòu)成人工智能中強(qiáng)化學(xué)習(xí)理論的基礎(chǔ)機(jī)制。強(qiáng)化（reinforcement），是指在不斷嘗試中，個體所學(xué)習(xí)到的反饋回路在不斷更新，并最終優(yōu)化到可能目標(biāo)的過程。

它和監(jiān)督式機(jī)器學(xué)習(xí)一樣，是構(gòu)成人工智能的基石。

監(jiān)督式機(jī)器學(xué)習(xí)，就好比你做歷年真題，它由往年題目（舊數(shù)據(jù)）和答案（標(biāo)簽）構(gòu)成，通過做題，你獲得了從題目和答案中學(xué)習(xí)到的解題方法，并將這種方法應(yīng)用到下一次考試中去。本質(zhì)上，它學(xué)習(xí)出的是問題和答案之間的關(guān)系，這種關(guān)系就是模型。機(jī)器學(xué)習(xí)，只是把我們在過去學(xué)習(xí)中所做了十幾年的事情，復(fù)制到了計算機(jī)上。

?

而強(qiáng)化學(xué)習(xí)，學(xué)到的是反饋回路。反饋（reward），即用來判斷這個行為是好是壞。一個優(yōu)秀的強(qiáng)化學(xué)習(xí)系統(tǒng)，甚至不需要舊有的數(shù)據(jù)，就可以直接進(jìn)行學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)的反饋有延時，即有可能走了很多步以后，才知道以前的某一步的選擇是好還是壞，而監(jiān)督式機(jī)器學(xué)習(xí)只學(xué)習(xí)方法，不考慮時間。這樣的思考方式其實(shí)并不與現(xiàn)實(shí)相似，因?yàn)槲覀兯龅拿總€選擇，所處的每個環(huán)境，都與過去的許多行為有關(guān)，它們極其復(fù)雜，沒有一個固定、線性的模式可被學(xué)習(xí)，但通過強(qiáng)化學(xué)習(xí)，可以盡量逼近可能存在的完美模型。

?

從生物學(xué)的角度講，強(qiáng)化學(xué)習(xí)更符合人類的進(jìn)化方式，從古代的尼安德特人就已經(jīng)開始：不符合正反饋回路的行為或族群，注定被“環(huán)境”所“更新”，也意味著淘汰。人類之所以進(jìn)化成人類，是因?yàn)槌丝偨Y(jié)舊有知識并發(fā)現(xiàn)規(guī)律（機(jī)器學(xué)習(xí)）外，還會不斷嘗試和探索（強(qiáng)化學(xué)習(xí)）。

?

現(xiàn)如今，最完善的強(qiáng)化學(xué)習(xí)系統(tǒng)，就是谷歌的AlphaGo。每日與自己對弈數(shù)十萬局，根據(jù)對弈結(jié)果，強(qiáng)化棋盤落子的正反饋回路。如果說，監(jiān)督式機(jī)器學(xué)習(xí)是一種方法遷移，那強(qiáng)化學(xué)習(xí)則是方法探索。在某種意義上，強(qiáng)化學(xué)習(xí)更接近想象中的人工智能。

?

現(xiàn)在，讓我們回到問題中來。

學(xué)習(xí)，究竟是為了什么？

不打游戲，是為了更好的學(xué)習(xí)。更好的學(xué)習(xí)，是為了更好的生活。那，什么是更好的生活？可以痛快地玩游戲，算不算更好的生活？我們從小被教導(dǎo)要好好學(xué)習(xí)，卻從來沒有真正思考過為什么要好好學(xué)習(xí)。如果連成因、機(jī)制都不了解，看再多的思維教學(xué)、學(xué)習(xí)導(dǎo)論，也沒有辦法讓自己真正地執(zhí)行“好好學(xué)習(xí)”這件事。

?

讓我們思考一個問題：

“我們真的厭惡學(xué)習(xí)嗎？”

?

其實(shí)，用強(qiáng)化學(xué)習(xí)的角度看，學(xué)習(xí)和玩王者，本質(zhì)上沒有區(qū)別。

學(xué)習(xí)是一個枯燥的過程，你要背單詞、背公式，要寫作、還要練習(xí)。玩游戲也是如此：你要記憶每個英雄的技能、走位技巧、出裝順序，也要通過很多次的對局來練習(xí)、提高技能。

?

區(qū)別在哪里？在學(xué)習(xí)系統(tǒng)中，它們都是同一種東西，即“動作”，動作無所謂枯燥和有趣，關(guān)鍵看它所處的“狀態(tài)”和預(yù)期的“獎勵”。

人類厭惡枯燥的東西，所以當(dāng)學(xué)習(xí)變得索然無味，我們就會討厭學(xué)習(xí)，這是天性。我們在學(xué)習(xí)時，并不能獲得和做愛一樣的快感，否則的話，沒有人會討厭學(xué)習(xí)。但是，有的人卻能堅持學(xué)習(xí)并樂在其中，為什么？答案是反饋機(jī)制。

當(dāng)學(xué)習(xí)的“動作”帶給人的長期收益為正，就會獲得我們所說的快感預(yù)期，也即前文提到的多巴胺。如果不靠多巴胺，只靠意志力去堅持學(xué)習(xí)，會怎么樣呢？就像不斷繃緊一根弦，強(qiáng)行違背身體的感覺，到最后早晚會斷掉。

?

我們絕大多數(shù)人，沒有移山填海的毅力，因此這樣的學(xué)習(xí)方式，是不科學(xué)的。大腦發(fā)出指令的動機(jī)其實(shí)和海洋館的海豹一樣，是為了眼前那一條小魚干，頂一次球，給一條魚，再頂一次，再給一次。也就是說，只有不斷收到正向的反饋，才會自然而然地保持前進(jìn)的動力。

本質(zhì)上，這只是把“學(xué)習(xí)”動作的反饋回路，搬到了游戲上來。搞清楚這點(diǎn)，我們就可以思考，如何讓自己像打王者榮耀一樣的學(xué)習(xí)

?

?

反饋強(qiáng)化

?

先讓我們回到游戲本身。游戲帶給玩家的反饋是否足夠，是決定一個游戲是否有趣的基礎(chǔ)。而游戲廠商在做的事情，就是將反饋回路，竭盡所能的加強(qiáng)和加快，也即提高動作的收益，比如推掉水晶，你獲得的不只是勝利，游戲分?jǐn)?shù)也會提升。或者增加不確定性，讓玩家耗費(fèi)更多次的嘗試，來確定反饋回路，比如部分皮膚的隨機(jī)性。

?

簡單來說，常見的游戲，都是基于以下三種強(qiáng)化模式，來對游戲結(jié)果的反饋機(jī)制進(jìn)行加強(qiáng)：

*
一種是“固定比率強(qiáng)化”(Fixed Ratio)，比如“打敗10個哥布林一定可以升1級”，“連勝10場一定可以升段”

*
一種是“固定時距強(qiáng)化”(Fixed Interval)，比如“《皇室戰(zhàn)爭》里的白銀寶箱3小時后一定可以解鎖”

*
還有一種“不固定比率強(qiáng)化”(Variable Ratio)，也就是“《陰陽師》每抽一次卡，有1%的幾率抽到SSR”

這三種方法，將強(qiáng)化學(xué)習(xí)中的不確定性獎勵，固化成為確定性收益，比如分?jǐn)?shù)、卡牌、等級。

分別為游戲廠商帶來了留存率，在線人數(shù)，和凈收入。

?

?

?

我們該怎么做？

?

學(xué)霸和學(xué)渣的區(qū)別，就在于對快感的預(yù)期不同。預(yù)期不同，形成的反饋也就不同。成為學(xué)霸，需要不斷強(qiáng)化自己的反饋回路。最基本的，從以下三點(diǎn)做起

1.?縮短反饋周期

反饋周期太長，意味著半衰期長。半衰期是什么，下期文章我會講。這里只需要知道，反饋周期太長是大多數(shù)人無法堅持的主要障礙。舉個例子，有的人高中時成績很好，為何到大學(xué)時成績就一落千丈？有人說，是因?yàn)楦呖贾笕怂尚噶?，就容易變笨。很可惜，這個說法或許有道理，卻并沒有研究結(jié)論支撐。真正的原因，其實(shí)是反饋周期變長了。

在高中時，一個月會有3-4次測試，你努力學(xué)習(xí)一個周，就能看到努力的效果，班級名次很容易進(jìn)步。接著，同學(xué)吃驚，家長老師表揚(yáng)，你覺得特別很開心，打了雞血一樣繼續(xù)學(xué)習(xí)，這種感覺可能會持續(xù)幾天，還沒等它消退，下一次考試又來了。不出意外，你會接著獲得下一次正反饋。在這樣的反饋回路中，“動作”帶來的“獎勵”被極大加速，整個系統(tǒng)變得完全正向。

?

上了大學(xué)以后，認(rèn)真學(xué)習(xí)一個學(xué)期，才能有一個好的GPA，這個反饋周期變長了幾倍，而且也很少有人因?yàn)镚PA受到表揚(yáng)，因此，大多數(shù)人堅持不來。取而代之的，很多人習(xí)慣考試前1個周開始執(zhí)行“學(xué)習(xí)”動作，因?yàn)橹恍枰?個周就可以獲得相當(dāng)可觀“獎勵”，比如及格。所以，想辦法減少你的反饋周期，比如，將大目標(biāo)分解為小目標(biāo)，會更容易獲得成就感。

?

2.?增加反饋強(qiáng)化

我們提到過三種反饋強(qiáng)化模式，那么把“游戲”替換成“學(xué)習(xí)”，我們要做的是什么呢？可以是考試?yán)塾嬤M(jìn)步10名就請自己吃燒烤，也可以是隔壁班的小愛刮目相看的“SSR”，又或是再看3小時書就去打王者榮耀。

對應(yīng)到游戲廠商的三種收益上來，就是提高學(xué)習(xí)留存率，延長學(xué)習(xí)時間，增加學(xué)習(xí)收益。

?

3.?調(diào)整反饋難度

斯坦福大學(xué)行為科學(xué)研究人員曾發(fā)表過一篇論文，大意是玩家在高難度游戲獲勝的那一刻，大腦多巴胺回路會異常激活。也就是說，適當(dāng)?shù)母唠y度游戲，能夠最大化地激活反饋回路。這也是各大競技類游戲排位賽機(jī)制的由來，通過匹配不同難度的對手，即不會讓你一直輸下去，也不會讓你永遠(yuǎn)贏。它們塑造一種“升段”“掉段”的獎勵機(jī)制，讓你的反饋回路一直處于半激活狀態(tài)。

在學(xué)習(xí)中，如何設(shè)置難度，需要根據(jù)個人情況制定，比如，下一次考試提高10分，和成為班級第一，就是兩種不同的難度。難度可以遞進(jìn)，既不要太簡單，也不能太難。

?

一旦大腦形成了正反饋回路機(jī)制，那么嘗過一次甜頭，食髓知味，你的動力將會更加充足，久而久之，甚至?xí)硎軐W(xué)習(xí)這件事情本身，像打王者一樣石樂志一般的學(xué)習(xí)，最終愛上學(xué)習(xí)。這，就是學(xué)霸的誕生規(guī)則。

?

關(guān)于反饋機(jī)制，其實(shí)還有很多東西可以講，具體的學(xué)習(xí)方法也遠(yuǎn)不止這些，有一種叫做“心流”的東西，是增強(qiáng)學(xué)習(xí)能力的利器。但是因?yàn)闀r間關(guān)系，我不想把文章寫的太長。更多的學(xué)習(xí)方法和強(qiáng)化學(xué)習(xí)知識，歡迎關(guān)注我的下一期文章。

?

文章之后會制作成視頻發(fā)在B站，也謝謝大家的閱讀~

?

?
?

熱門工具換一換

【思維論01】如何讓自己像打王者榮耀一樣發(fā)了瘋、石樂志的學(xué)習(xí)？

【思維論01】如何讓自己像打王者榮耀一樣發(fā)了瘋、石樂志的學(xué)習(xí)？