内部分享音频:
科技新闻:Elon Musk的猴子
Youtube Link:埃隆·马斯克的NeuroLink 猴脑演示的原理 2021.4.9
序章 为什么年轻人沉迷游戏?
- 年轻人沉迷游戏,特别是男性,这背后的知识很简单,但是深刻理解认知系统的各种法则需要自己的阅读,它涉及进化心理学、认知神经以及人工智能的。
- 先当下你所有热爱的游戏,管他是原神(塞尔达)、王者荣耀(DOTA)还是动森(女生版怪物猎人)
如果你用三个关键词总结游戏对你产生成瘾的原因,你会选择什么词?
游戏当然是学习的过程(掌握某个pattern结构或建立一套语义网络来理解概念)。但为什么游戏成瘾,而学校教育令学生深恶痛绝呢? 注意, 我说的是学校教育,特指这种高考模式下,从来不与时俱进的教育系统,而不是学习和认知这个大的范畴。
先抛观点和立场:我批判绝大部分手机游戏和学校这种教育系统, 但同时支持如下观点:今天整个游戏行业最高水准的作品,已经不亚于最顶级导演的电影作品🎬,好莱坞已经感觉到了危机。
游戏是一个极为复杂、告诉发展的产业,它很年轻,但是生命力极强,本质主义或者粗暴站在极左和极右的论调,都是很危险的。在这里,我想重点讨论游戏和教育共通的基石:学习。因为没有学习和认知的过程,外在的两个系统无论怎么设计,都没有任何意义。
无论什么视角,当我们讨论游戏的体验(而非玩法和机制),我们首先不能回避的是,快感和学习本身强关联。从体验上说,每个玩家都会认同这个观点:游戏难度和深度和乐趣的程度成正比。
接下来,我们直面学习这个本质这背后的大脑神经机制以及到底什么原理呢?
我会用三个故事和几个核心科学概念展开这篇小科学散文。包含:行为心理学、斯金纳箱以及AI的强化学习,全文30分钟。
Story 1. 学习就是条件反射吗? ——行为心理学的洞察
- 我们要从这个具有争议的、里程碑意义学科开始, 行为性理学。他不仅深刻的影响今天的游戏制作人们,还对今天的人工智能和科技界都产生决定性的影响。
- 这个学派早期知名的实验有巴布洛夫的狗🐶,不需要深入,你可能说过生物的条件反射。下面三张图,感受一下,就懂了:



- 最后一个阶段,也就是这个神奇实验,有几个不得了的启发: 大部分的动物行为可以被训练和学习出来、心理学和脑科学研究可以做实验得出;
- 更可怕的推论是: 给我一个足够的条件(强烈的奖励和训练的时间),我可以制造任何魔法的结果。 行为心理学家华生曾经超级自信说的:
给我一打健康的婴儿,一个由我支配的特殊的环境,让我在这个环境里养育他们,我可担保,任意选择一个,不论他父母的才干、倾向、爱好如何,他父母的职业及种族如何,我都可以按照我的意愿把他们训练成为任何一种人物——医生、律师、艺术家、大商人,甚至乞丐或强盗。”
科学小历史
这是巴普洛夫在19世纪末20世纪初做的实验, 并因此获得1904年诺贝尔奖。
在此之前心理学研究经常都很玄,也经常得出荒谬的理论,例如,弗洛伊德的《梦的解析》 。
行为心理学严谨的实验结果)在科学界掀起了革命。比如,他们使用「棉花糖实验」研究儿童(长时间持续跟踪这些儿童), 发现早期儿童能否忍耐棉花糖诱惑,可以预测她们的未来是否获得更幸福的人生,例如高收入的职业,更低的离婚率等
Story 2 :鸽子的舞蹈:斯金纳箱的奖励逻辑
如果你喜欢玩游戏,看看以下行为是否一直围绕着你:
期待下一次抽卡
期待下一个扭蛋
期待下一个盲盒
期待下一次割草
期待下一次开箱子
期待下一款新游开放下载
期待下一次和朋友在新的虚拟世界互动
预期是欲望的核心,先把消费主义的批判放在一边的话, 我想强调一点, 欲望和目标一样,都是学习的核心。
我们深入理解下斯金纳箱的故事
总的来说,集成斯金纳的理论根基很简单:
如果一个行为之后有奖励,那么这个行为就更有可能被重复,但如果行为之后有某种惩罚,那么这个行为就不太可能被重复。


再巴普洛夫的实验基础上, 斯金纳做出更进一步的理论, 他把奖励、条件反射以及学习这些内容更深入的理论化了。
这里有三个核心概念:
- 操作条件性刺激。这里和巴普洛夫的差异在于,操作两个字。这里操作至少有两个层次:互动和Pattern的掌握。
- 强化物。 强化物分为两级。 一级强化物能够直接满足我们的欲望,比如:食物和水,成为一级强化物。二级强化物指初时并不具有强化的作用,而是由于它们同诸如食物、水之类的一级强化物相匹配而具有了强化的作用,例如货币。
- 随机的深刻意义。时间是生物理解规律和规则的核心要素。 在节律之上,生物体很容易习得规则,那么随机会带来什么呢?
和奖励和分成两类。而且通过不同强化物的组合模式, 可以「操控实验动物」, 无论老鼠还是鸽子(注意,鸟类是绝顶聪明的物种)。
为了有趣一些,我们以《塞尔达》这个系列游戏来展开上面三个概念的而理解:
- 操作性刺激反射: 无论我们喜欢在旷野骑马,还是会经常时不时下来,不停捡水果、打猎获得肉、开宝箱。 这些基础道具能让我们保持血条, 或者变的更强,我们就会反复去做。 核心在于我们会主动去做、去重复(对比老鼠,右图2)。
- 强化过程: 水果和烹饪都是一级强化物;一些获取高级武器的媒介(钥匙🔑、水晶之类),就是二级强化物。 在塞尔达世界里, 每次我们打过地牢的大Boss,获得一种特殊神器时,心情无法抑制,就是把二级强化建立学习感知的过程。
- 为什么我们会在塞尔达系列里面, 割草。 如果你爸妈看到你在这个游戏,多次看到你在做这个无意义的重复行为? 一定会非常不理解, 然后夺走你的游戏机。 这是因为随机的力量。 你不知道,下一次割草会得到什么奖励, 不知不觉竟然养成了一种习惯 。背后的核心就是,就是斯金纳箱的随机。
斯金纳箱的神奇:鸽子如何疯狂习得「新」行为?
华生和斯金纳眼中,万物皆可训练。鸽子们打乒乓球视频
强化学习,是一个什么神奇的过程?对于鸽子来说?
斯金纳箱的实验不仅发现可以轻松通过强化物的规则设计来控制鸽子和老鼠的行为,不仅可以通过强化的学习过程,让实验生物记住对应所有控制它的条件(规则+ 强化物),而且可以引发鸽子们的群魔乱舞。
请脑补一分钟这个画面,并联想你看过任何和原始部落祭祀时人们手舞足蹈、闻歌起舞的样子。
关于鸽子🐦的伟大对后来的AI 有着重大意义:一、良好奖励和目标设计,对于学习至关重要;二、对于生物体来说,随机的力量,超出想象。
游戏和科学
行为主义为什么心理学的江湖?
对各种动物进行行为控制的实验, 是在19世纪50年代之前完成的,你可以想想对整个科学界的冲击。行为心理学的诸多理论(正强化和负强化、操作条件性刺激),直接王道版决定心理学和认知学的基石。
直到在1960年代~90年代,基因和生物技术、认知神经科学、进化心理学、人类学全面崛起,人类研究大脑的方法回到本质,而不是行为控制的维度是
行为心理学通过各种神奇的实验结果在科学界掀起了革命。比如,他们使用「棉花糖实验」研究儿童(长时间持续跟踪这些儿童), 发现早期儿童能否忍耐棉花糖诱惑,可以预测她们的未来是否获得更幸福的人生,例如高收入的职业,更低的离婚率等。
科学课外题:为什么行为主义的观点是旧科学的思维方式?
Story 3 人工智能也爱玩游戏,但是深蓝不快乐😑
今天最牛逼让AI进行学习的商业机构,是DeepMind,它让所有AI学习如何打游戏。
最经典的街机小游戏,《Pong》你可能会知道。它是电子游戏开启的里程碑。
是的,乔布斯第一份工作所在的公司,开创了街机(80年代男生的怀旧时光)的雅达利。


DeepMind怎么教AI呢? 采用一种叫做强化学习的策略(吸收斯金纳的强化,核心就是让任何动物学会新的一种行为,以目标和奖励)。
以下用「机器狗如何学习踢球⚽️」的例子,来理解AI到底如何自学成才的!
引自《AI 3.0》这本梅耶尔的启蒙级大作。连初中数学都不需要,你就能理解,毫无神秘可言。
- 首先,这里有一只可爱的机器狗🐶(绝对不是《黑镜》中坏狗狗),它虽有有个摄像头,我们需要让它自己学习,如何前进三个单位,并踢一个球。
- 其次,为了进一步简化,我们思考机器狗只能在直线运动,且它只有三类行为:前进、后腿和踢。
- 因为机器脑子里是原始状态是「白板」一块,我们只能,让它每次行动采取「随机」策略。
- 这里学习的核心策略,就是相信多次迭代之后,下次可能更靠近奖励的某个动作参数会提升预测的准确性。
- 也就说,每个动作在一次迭代中偶然靠近了目标和奖励时,有一个动作对应的数值会变化。例如,经过多次不小心随机,机器狗在0距离于足球⚽的那一状态,随机出招,正好选择了「踢」这个动作时,此状态下的数值更新最高值10。见图8-5

见图8-5,机器狗如何学习踢球的模型(Q表)
- 机器狗总是采取随机动作的策略,因为每个动作对应状态依然是0。
- 所谓的学习,就是就为每一个状态,填上一个数,这个数能更好的靠近目标。
- 如果机器狗,经过N次迭代,执行,就会,机器狗的「大脑」那张张表格,微微发生了变化:

- 就这么简单,通过随机试错进行计算,然后填表,表里的数值根据目标的距离,倒着计算得出。试错越多,每一步状态的数值就会填上,还原和分解出每一个步骤的数值。
- 是的,试错就行了,现在可以大胆的说,所谓伟大的创新都来自微小的每一步试错,算法只有一个,就是随机。当今最先进的AI研究领域,遗传算法就采取这个👆🏻思想。
随机的力量,不仅是AI算法的核心,而且基因进化的本质之一。我们知道进化来自突变,突变来自复制出错,而出错代表某种熵和随机共同作用结婚。
DeepMind的AI学习打砖块需要多少次迭代?
AI机器远远不如生物聪明。对于机器狗掌握上面的计算表格,它需要试错和迭代试错的次数是一千次以上。特别厉害机器学习(Deepmind的打砖块)可能要几百万次。计算机学习打游戏,拼的是体力……
- 换句话说,人学习的速度和迁移能力(皮亚杰的顺应和同化)远远超过今天的AI。但是,本质已经很接近了——疯狂的试错和计算每一步更接近目标的概率。
- 再想想我们如何学习开车,整个过程相比机器学会自动驾驶要轻松太多了。个体学习几十个小时都差不多,但是计算机(加起来可能已经有几百万小时)要学的东西实在太多了,红灯停绿灯行这样规则看起来很简单,但因为「长尾」事件(小概率)的存在,规则比想象中复杂很多。另外,开一篇散文来展开自动驾驶。
值得批判的错误观念:学习是反人性的
- 学习是人性的基本面、生物认知系统自然不过的状态。别被所谓的传统智慧骗了,学习不仅不反人性,它塑造了认知和人性。
- 为什么世俗意义上,人们习惯说大多数人不爱学习呢?普通人因为不理解生物学和进化心理学,无法深刻感知到基因的一个核心属性,节俭。说白了,只要不是生存繁衍大事,基因告诉我们不要浪费能量。
- 看看动物们,它们没事就是休息的状态,除了一些玩耍社交时间大部分就是懒者。其中比较瞩目的就,考拉🐨和树懒了吧。(其实每种生物都很懒,我们只是每仔细观察罢了)
- 人类今天的身体和大脑还是300~700万年时期几乎一样,狩猎采集时代的学习都是身体力行的程序性记忆和模仿学习,而现代社会的学习,很依赖理性逻辑思考。用专业一点的学术概念说法,今天的学习更多在使用系统2(见 《思考的快与慢》)。所以,人在阅读书写文字(几年的历史而已)时累,而看和听完全不累。
- 普通人能感受自己学习时认知负载压力,就会误以为学习都是累的,都是反人性的。这个观念义破坏性很大,我们放在最后说。
- 简而言之,基因的节俭和自私(通过各种激素)会让生物体产生错觉,在近几十年认知科学重大突破之前,一直把心灵当成神话瞎理解。
- 作为人类最值得骄傲大脑独特的思维能力,学习,是所有文明的基石。如果人类不爱学习,儿童为什么天生好奇,而人类自己怎么走到今天的?!
- 学习,从不反人性,学校这种教育系统才是罪魁祸首。说到这,是时候让我们对那些传统观念——学习是反人性的,游戏才是顺应人性——表达愤怒表示愤慨😡。这种流行而谬误的观点,为教育系统的设计者找了无数开脱的后路,更为家长不认真对待孩子的批判性了幻象和方向性的误导。
- 送给所谓为人父母的箴言, 儿童是天生的学习者, 只要给她们适宜的环境就行了, 这就是蒙台梭利思想的伟大意义。
对于所有终身学习者来说,来自希腊哲人的智慧:
你成为你所关注的东西。——伊壁鸠鲁
学习的本质,可以理解为AI的输入输出结果,但是,人活在文化之中,信息凝结在于每一个作品和文章里面,你选择吸收什么,将最终塑造自己。
思考的延伸:
游戏到底令人沉迷在哪?
一句话:因为游戏不断通过增加「复杂性」来模拟世界和建构世界。它启发我们身体全部的力量(神经、动作系统和情绪机制等),启动了无数无意识的学习过程,让我们通过在那个世界「活下去」,同时循序渐进。 这个过程可控,又不那么可控,全看你拥有什么的认知基础和学习倾向。
万物皆可输出。
游戏和看电影,怎么输出?如何管理时间?如何管理信息输入?




