经过40小时的训练，AI打破了跑酷游《QWOP》的世界纪录

时间：2022-01-14 来源：创新游戏网作者：

更高、更快、更智能。多年前，有一款很棒的跑步模拟游戏《QWOP》。玩家只需要越过障碍物，以最快的速度跑完100米。游戏名称中的四个字母不是缩写或奇怪的提示，但它们确实对应于控制游戏的四个按钮。

操作看起来并不复杂，但刚发布时就被玩家评为Q、W、O键盘的“史上最难游戏”。四个按钮中，P控制角色的左右大腿和小腿，而不是上下左右。玩家需要交替控制不同的关节，才能在游戏中移动小人。

正常动作细化到肌肉水平，难度瞬间提升几个档次。对于新玩家，不要说跑。能移动一两米已经是奇迹了，很多玩家都是用膝盖一步步摩擦的，如上所述。

目前，《QWOP》的100米世界纪录是48.34秒，ID是Gunneko的日本选手设置的：

世界纪录列表，一周前，日本选手打破了两个月的纪录，但这一次打破的是由科学家训练了 40 小时的 AI，而不是人类。

在发布的视频中，AI跑完全程47.34秒，超世界纪录1秒。

Wesley Liao 是波士顿咨询公司。他总是好奇，当人工智能已经征服了国际象棋、围棋，甚至是竞技类游戏时，当面对规则完全不同的“沙雕”游戏时，人工智能会如何反应。

于是他想出了难度很大的游戏《QWOP》。当然，廖所采用的训练方式并不是提前将预设的操作输入到程序中，而是设置国际象棋、围棋训练等奖惩机制，让AI逐步学习规则。像个初学者，终于找到了最好的方法。

在廖的一份实验报告中，这个AI的名字最初是“ACER”和Xu。和很多球员一样，使用的是“膝盖清除法”。也就是用膝盖一步一步地揉到底。

在学习了基本规则后，ACER 的表现并没有达到预期，而是学会了如何使用这种低效的递进技术。原因很简单。角色跌倒的可能性最小，因为这是最安全的通关方式。

在发现ACER能顺利过关后，廖老师尝试教他如何“跑”。为此，他将向 AI 提供人类专家通关数据。这与 DeepMind 训练 Alpha Go 的方式非常相似。也就是让AI模仿顶级棋手与自己对战。

廖不认识《QWOP》的游戏大师，所以一开始只能提供自己的试玩数据，目前的最高成绩只有28米。

果不其然，ACER在“注入”低级人类数据后，首先尝试“奔跑”完成游戏，可惜动作又回到了初学者水平：

此时，AI还没有理解“踩”的意思，后来，廖终于找到了一位世界速跑运动员来帮助完成实验。玩家向廖提供了 50 场比赛的数据。它包含人类玩家经常使用的高级技巧，但 AI 以前从未见过它。

但是，ACER 仍然无法立即获得这些技能，也无法与以前获得的经验相协调。由于自我训练和人类数据的双重影响，我对跑步的了解很少，而且速度还不够快。最终纪录是1分08秒，距离世界纪录还差得很远。

最后，廖某异想天开地重新打造了AI，只提供ACER执行数据，同时调整了奖惩系统，取消了触发惩罚等特殊动作。这些机制旨在教你如何像人一样跑步，而且由于ACER数据已经过训练，当然不需要这些额外的约束。

这一次，廖取消了附加条款，人工智能纯粹是速度优化的。最终，在学习ACER的执行数据并结合近40小时的训练后，新AI跑出了47.34秒的成绩，打破了人类玩家的记录。

当然，这个记录暂时无法识别，因为speedrun榜单要求提交分数的玩家必须是人类。然而，廖的研究目的显然不是为了打破记录。观察 AI 在不同游戏环境中的反应和学习方式。有朝一日，这些经验或许能够指导人类。这才是科学家真正想要的。