近年来,深度强化学习受到了学术界和产业界的广泛关注,在游戏、推荐系统、无人驾驶等很多领域取得了令人瞩目的研究进展和成果。在新一代信息技术“大计算、大融合”的背景下,深度强化学习正在快速向大数据量、海量智能体、大模型等“大规模”方向演进。然而,大规模深度强化学习的发展仍面临着可解释性、稳定性和安全性等方面的挑战,尚未形成完整的科学技术体系,亟需探索新的理论和技术路径。
图1 论坛概况
在此背景下,中国计算机学会(CCF)于2022年青年精英大会(YEF)第三日(6月11日)在线举办了“大规模强化学习的未来之路”专题论坛。论坛围绕大规模强化学习的核心科学问题以及如何工程落地展开研讨,邀请了六位强化学习领域的知名学者就数据驱动的强化学习及其工业应用、强化学习求解大规模复杂博弈、自监督强化学习、大规模离线强化学习、多智能体强化学习进展以及强化学习在OPPO多场景落地的挑战等展开深入交流和讨论,并探讨大规模强化学习发展中可能存在的突破机遇和路径。此次论坛由CCF青年计算机科技论坛(YOCSEF)太原分论坛AC委员会和山西大学计算机与信息技术学院承办。YOCSEF太原AC荣誉委员、山西大学教授钱宇华,YOCSEF太原主席、山西大学教授魏巍担任论坛执行主席。
图2 特邀报告嘉宾
此次论坛邀请了南京大学俞扬教授、南洋理工大学安波讲席副教授、天津大学郝建业副教授、上海交通大学张伟楠副教授、北京大学卢宗青助理教授以及OPPO高级专家陈令奎作为报告嘉宾,针对“大数据、大算力、大模型背景下强化学习研究的核心科学问题是什么、如何工程落地”等问题进行探讨,并畅想其未来发展之路。
本次论坛分为特邀报告和PANEL 2个环节。
图3 南京大学俞扬老师作报告
在特邀报告环节中,俞扬老师以“数据驱动的强化学习及其工业应用”为题,从数据驱动强化学习的角度出发,深入浅出地从强化学习讲解到offline强化学习及其发展前景。为解决强化学习在大规模工业应用中操作难、成本高等问题,提出了一系列解决方案,并分享了俞老师团队最新取得一些研究进展及其在工业应用中的案例。
图4 南洋理工大学安波老师作报告
安波老师以“强化学习求解大规模复杂博弈”为题,从算法优化和强化学习的角度求解大规模复杂博弈问题,结合警察资源调度、多人德扑系统等示例生动形象地阐述了大规模博弈的基本形式、研究现状、应用场景,详细介绍了博弈问题中算法博弈论与深度(强化)学习各自的优势与适用范围,并对强化学习与博弈论的结合演进进行前瞻性的展望。
图5 天津大学郝建业老师作报告
郝建业老师以“自监督强化学习-通往强化学习决策大模型之路”为题,介绍了如何利用自监督学习从状态、动作、策略、环境等维度提高强化学习的表征能力,进而提升强化学习的性能,同时展示了郝老师团队近年来在这方面的最新成果。最后展望了基于自监督强化学习的“决策大模型”的发展前景,以及构建面向通用人工智能的“决策大模型”演进之路。
图6 北京大学卢宗青老师作报告
卢宗青老师以“Advances in Multi-Agent Reinforcement Learning”为题,围绕当前多智能体存在的非平稳性,部分可观测等挑战,结合团队的最新研究进展,从多智能体强化学习学习范式、智能体之间的合作与通信等角度讲解了当前多智能体强化学习的前沿发展状况,并对多智能体强化学习的未来发展进行了展望。
图7 上海交通大学张伟楠老师作报告
张伟楠老师以“大规模离线强化学习”为题,针对深度强化学习存在的样本效率低、与真实环境交互风险大等问题,从强化学习不同的训练范式开始,系统阐述了offline强化学习的基本概念、算法起源、实现原理、理论分析以及实验结果等,详细讲解了Transformer在offline强化学习任务上的应用,并对offline强化学习的发展方向进行了前瞻性的总结与展望。
图8 OPPO高级算法专家陈令奎老师作报告
陈令奎老师以“强化学习在OPPO多场景落地的挑战”为题,介绍了强化学习在OPPO的应用分发、浏览器等应用场景技术上的落地方案,并从多智能体和模拟环境两个方向提出现存痛点及未来的探索方向,展现出企业界在强化学习研究上的努力和贡献。
图9 思辨环节
在PANEL环节中,嘉宾围绕“大规模强化学习的挑战有什么?”,“海量智能体博弈的难点是什么?未来如何发展?”,“开放场景下的不确定性应该如何应对?”,“大模型对强化学习有什么本质上的推动作用,出发点是什么?”,“强化学习靠奖励和反馈形成的学习方法在可学习理论下的界是否存在?”等议题以及一些延伸出的议题进行热烈的讨论。PANEL嘉宾和主持人分享了许多精彩观点和独到的见解。
此次论坛历时四个半小时,钱宇华教授对此次论坛进行了总结。钱教授首先感谢各位专家的精彩报告、CCF YOCSEF的大力支持,也感谢了线上听众的踊跃参与。钱教授指出,学术交流是我们保持鲜活的法宝,是学术不断创新的阶梯,通过此次论坛,大家对大规模强化学习产生了许多新的认识,对大规模强化学习未来的发展路径也更加清晰。最后,论坛在一片热烈的氛围中圆满结束。