凭借深厚的加强学习的冠军冠军冠军司机

　　人工智能的许多潜在应用都涉及在与人类互动时在物理系统中做出实时决策。汽车赛车代表了这些条件的极端例子。驾驶员必须执行复杂的战术演习，以通过牵引力限制操作车辆时通过或阻止对手1。诸如PlayStation游戏Gran Turismo之类的赛车模拟忠实地重现了真实赛车的非线性控制挑战，同时还封装了复杂的多代理相互作用。在这里，我们描述了如何训练与世界上最好的电子竞技司机竞争的Gran Turismo的代理商。我们将最先进的，无模型的深入强化学习算法与混合赛车培训相结合，以学习将杰出速度与令人印象深刻的策略相结合的综合控制政策。此外，我们构建了一个奖励功能，使代理商在遵守Racing重要但不明的体育精神规则的同时具有竞争力。我们通过与世界上四名最好的Gran Turismo司机进行正面竞争，展示了我们经纪人Gran Turismo Sophy的能力。通过描述我们如何训练冠军级别的赛车手，我们证明了使用这些技术来控制代理必须尊重不确定定义的人类规范的域中复杂动力系统的可能性和挑战。

本文来自作者[admin]投稿，不代表象功馆立场，如若转载，请注明出处：https://wap.xianggongguan.cn/xgzx/202506-1307.html