在决策智能与计算前沿论坛上,中科院自动化所邢研究员做了主题演讲。中国科学院自动化研究所供图
中新网6月22日电记者22日从中国科学院自动化研究所获悉,南京人工智能芯片创新研究院近日举办了“决策智能与计算前沿论坛”。业界众多专家学者和青年研究人员齐聚南京,聚焦新一代人工智能发展,探讨决策智能未来发展的关键前沿理论和技术问题,推动决策智能研究的深入发展,促进决策智能技术和人才的交流。

中科院自动化所副所长刘成林研究员指出,该所已将自主进化智能作为重点投入、发展和突破方向。在中科院人工智能创新研究院平台上,已有20多个团队开展了决策智能基础理论、算法、环境、评估、应用等方面的研究。本次论坛的目的之一是加强与国内同行的学术交流,探讨发展方向,寻求合作机会,共同为我国新一代人工智能的发展贡献力量。

麒麟科技园管委会副主任魏斌表示,麒麟科技园将与中科院自动化所一起,面向国家在决策智能化方向的战略部署和社会民生的实际需求,针对经济、民生、重大核心产业的复杂决策问题,共同构建具有“可评估、可推演、可解释”优势的新型AI重大技术基础设施。
江苏省人工智能学会秘书长方巍认为,本次论坛将对促进决策智能技术和人才的交流,推动决策智能研究方向的深入发展产生深远影响。
在论坛主题演讲环节,中国科学技术大学李教授、南京大学教授、安交通大学柯教授、华为诺亚方舟实验室郝建业博士、中科院自动化所邢等,,就机器博弈、智能博弈、多智能体博弈、强化学习如何走出游戏等话题做了精彩分享。
李介绍了机器博弈的重要学术价值和广泛应用价值,介绍了机器博弈的概念和问题建模方法,并围绕机器博弈的三个研究方向:博弈论、强化学习和多智能体进行了理论和应用分析。他分享了自己的研究组在机器博弈三个方向的成果,认为未来的机器博弈会向强化均衡、终身学习、可解释性的方向发展。
杨宇表示,游戏外强化学习的难点在于现实世界场景有限、试错成本高、样本效率低等。其中提到,基于环境模型的强化学习被认为是解决强化学习样本低效问题的主要途径。他指出,一旦有了好的环境模型,就可以在环境模型中完成强化学习的大量试错,从而大大减少真实环境中的试错采样次数,使强化学习更有用。
柯·梁军从数学模型的角度详细解释了单个智能体与环境的博弈问题和大小规模领土守卫问题,指出梯度优化方法虽然可以在没有训练模型的情况下得到纳什均衡解,但需要已知的报酬和智能体的动态微分方程。此外,深度强化学习还会面临多个智能体目标冲突等问题。采用全局深度强化学习和局部博弈论是未来的发展趋势。
围绕多智能体学习的难点,针对如何从低质量数据中学习出高层次决策模型的问题,梁军重点分析了三种学习算法:两阶段学习算法、三阶段学习算法和基于序列化信用度分配的学习算法,并介绍了这三种学习方法在《星际争霸》和《兵棋》中的应用效果。
郝建业首先介绍了深度强化学习的背景和基础,然后从如何学好、学快、学稳三个方面介绍了深度强化学习面临的挑战和相应的解决方案,以及深度强化学习在自动驾驶控制、5G网络优化、供应链物流优化等场景中的应用。
据了解,中科院自动化所南京人工智能芯片创新研究院将聚焦我国下一代人工智能关键技术难题,聚集决策智能核心人才,形成决策智能核心创新,突破决策智能核心技术,产生面向重点民生行业的决策智能新应用。


