其实数据库数据是推演中基本不需要关注的事情 ——致CMO玩家们以及关注CMO的朋友们的一封信

能不能详细说说这个,水平有限看得不是很明白。我接触的人工智能多是机器学习,通过人工智能算法近似举穷的办法演绎归纳出人类之前没有想到的一些策略,这个是我对人工智能推演的理解。

《系统仿真学报》2021年8月刊载了胡晓峰与齐大伟的论文《智能化兵棋系统:下一代需要改变的是什么》,当中有几个意见是这样的:

下一代兵棋系统应该是智能化兵棋系统,这一点毋庸置疑.但智能化兵棋系统应该具有什么样的改变,现在还很难说清楚.这不是简单地引入诸如深度学习、知识图谱等智能技术后,就可以成为"智能化兵棋系统"的.

计算机兵棋系统的本质特征……是"数学模型+程序计算"……是基于牛顿科学体系下的确定性系统仿真方法,即所谓"机器"系统仿真方法.……一个核心问题始终没有解决好,即"智能行为难题":"人"既然是兵棋推演的核心,但人的智能行为却不能被真实反映.而智能行为的核心是认知,但我们却找不到对认知进行建模的合适方法.该领域多年来虽然一直都是研究的重点,但研究的结果却总是不尽人意.……我们试图建立的各种智能作战决策行为模型,表现出来的却总是带有"机器味",显示不出自主决策智能行为的特点.

产生这些问题的原因,还是因为难以处理复杂性问题,缺乏"自主认知"能力,靠的是系统外的"人"所给与的预先有限指定,方法都还是局限在"规律不变"或"规律可描述"的框架内.

以上意见实际上已经触碰到了一个哲学领域,但局限于技术本位,未能向前跨出一步作出阐述.我们所期望的自主决策行为,本质上是要求计算机复现人的主观能动性.主观能动性并不等同于主观意识,它实际上是一系列行动的集合,即在思想观念、目的计划等主观意识的支配下去开展行动.这样的行动在兵棋推演的过程中,将通过推演数据得到表达.

军事行动的本质是客体之间的对抗关系,比如部队前出到接敌距离是一种空间对抗关系,我方侦察到敌方是一种信息对抗关系,我方打击敌方是一种火力对抗关系,战场补给和救援是一种保障对抗关系.这四大关系构成了兵棋规则的四大章节(机动、侦察、战斗和补给).这些对抗关系依据人所筹划的作战程序(在时间和空间上的先后次序)表现为一种作战结构,即一系列行动及其联系的总和.于是,我们必然在整个推演过程中,以数据变化的方式存留下这些总和的运动,这就是"精确地计算推演中反映行动关系的数量变化过程"之意.这些总和的运动,如果单凭人力来整理,效率非常低下.

最后说说"通过人工智能算法近似举穷的办法演绎归纳出人类之前没有想到的一些策略",这就是我认为的"通过推演数据总结推演经验".然而这样做有一个前提,就是兵棋推演首先要解决可解释性问题.2017年ICML Tutorial将可解释性定义为向人类给出解释的过程,从数据中发现知识或解决问题的过程中,只要是能够提供关于数据或模型的可以理解的信息,有助于我们更充分地发现知识、理解问题和解决问题的方法,都可以归类为可解释性方法.

也就是说,我们手中现有的技术与方法,首先要满足一个条件,就是能用历史的军事理论向我们作出评估和解释."只要研究一般战争的规律就得了"和"只要研究俄国革命战争的经验就得了"这两种意见,早在革命战争时期就已经被抛弃了.如果我们今天的兵棋推演理论是用一般战争的规律或者某一国的经验来指导我们中国人,那就是舍本逐末,放弃拾级而上要一跃到空中楼阁.

一旦中国军事战略思维实现了可推演化,亦即实现了推演的可解释性,又即能够实现解释一系列行动及其联系的推演数据的变化过程,那么我们可以认为初步解决了主观能动性的复现.有了这个基础,人工智能推演不但有了"人"的味道,也有"中国"的味道.

基于这一层认识,关键举措就在于如何总结推演当中的一系列行动及其联系,这是数据挖掘的任务.这个过程其实还是通过推演数据总结推演经验,即在大量占有推演资料的情况下对能够说明胜负条件转化的一系列作战行动及其联系进行理性分析,并通过实践、再认识和再实践,确立其正确性和普遍性.

P.S. 附上国外一篇最新的论文,DeepNash基于博弈论的、无模型的深度强化学习方法 R-NaD,以无需搜索的从头开始的自我博弈方式来学习如何掌握西洋陆军棋的游戏策略. Mastering the game of Stratego with model-free multiagent reinforcement learning