评论：实战化训练当借力人工智能

2017-6-14 19:47| 发布者: leedell| 查看: 2| 评论: 0|来自: 解放军报

摘要: 　　●不久前结束的AlphaGo（阿尔法狗）与围棋选手柯洁的人机大战，留给观战者众多思考。诸如人工智能是人类的威胁，还是人类发展的朋友；继在围棋领域取得突破进展后，人工智能下一个进军领域将是什么等，都引起热 ...

　　●不久前结束的AlphaGo（阿尔法狗）与围棋选手柯洁的人机大战，留给观战者众多思考。诸如人工智能是人类的威胁，还是人类发展的朋友；继在围棋领域取得突破进展后，人工智能下一个进军领域将是什么等，都引起热烈的讨论。可以说，人工智能的发展如火如荼。在作为未来战争预演的实战化训练中，人工智能能否发挥应有的作用呢？

　　要回答实战化训练能否借力人工智能的问题，首先要明了AlphaGo到底是如何下围棋的？简单地说，AlphaGo是通过蒙特卡洛树搜索算法和两个深度神经网络合作来完成下棋的。

　　对于什么是蒙特卡洛搜索树算法，有专家曾通俗地解释说：假如篮子里有1000个苹果，让你每次闭着眼睛找一个最大的，而且不限制挑选次数。那么你可以闭着眼随机拿一个，然后再随机拿一个与第一个比，留下大的，随后再随机拿一个，与前次留下的比较，再留下大的。如此循环往复，拿的次数越多，挑出最大苹果的可能性也就越大，但除非你把1000个苹果都挑一遍，否则你无法肯定最终挑出来的就是最大的一个。这就是蒙特卡洛搜索，它广泛应用于科学和工程研究的算法仿真当中。而AlphaGo寻找下棋策略的方法，就是建立在这一原理基础之上的。只不过它为降低搜索树的复杂性，采取了深度学习方法，提高了策略选择效率。比如在2016年3月与韩国围棋选手李世石对阵之前，谷歌首先用人类对弈的近3000万种走法来训练“阿尔法狗”的神经网络，让它学会预测人类专业棋手怎么落子。然后让AlphaGo自己跟自己下棋，从而又产生规模庞大的全新的棋谱。谷歌工程师曾宣称AlphaGo每天可以尝试百万量级的走法。

　　AlphaGo的“大脑”由策略网络和估值网络两部分组成。策略网络主要用来生成落子策略。下棋过程中，它不是考虑自己应该怎么下，而是想人类高手会怎么走，提出最符合人类思维的几种可行的下法。估值网络则会对各个可行下法进行评估，然后给出一个“胜率”。这些值会反馈到蒙特卡洛树搜索算法中，通过反复如上过程，最终推演出“胜率”最高的走法。AlphaGo利用上述工具来分析局面，判断每种下子策略的优劣，就像人类棋手会判断当前局面以及推断未来局面一样。

　　也就是说，AlphaGo能够战胜人类围棋高手的基础，首先在于海量的棋谱存储，提供了“搜索”前提。其次在于它可以模拟人脑机制来学习、判断、决策。综合言之，就是全面数据开发与自主学习能力塑造。近年来，此类方法已被应用于诸多领域，比如人脸识别、语音识别等。专家表示，AlphaGo的一些算法机理可以运用到其它领域，去解决一些对抗性的问题。正所谓大道无形，实战化训练作为模拟未来战争的对抗训练，完全可以借鉴AlphaGo的开发经验，在开发利用海量数据的基础上，打造系统自学习、自判断、自决策能力，提高实战化训练的强度、难度和复杂程度，从而真正让训练内容更加接近于实战，提高训练效率。

　　当然，最为重要的是AlphaGo的“思维”没有任何“限制”。它所走的一些步骤，有时完全是围棋教学中所谓的笨招、蠢式。但恰恰就是这些所谓的“笨招、蠢式”，反而让人措手不及。因此说，AlphaGo最大的启迪就是创新，它并没有一个固化的下棋套路。战争是最忌讳任何固化、教条的领域，在开发实战化智能辅助训练系统的同时，最重要的是打破思维的樊篱，冲破训练的禁区，真正让训练接近实战，创造出令人意想不到的战法。胡小柏

收藏分享邀请

上一篇：武警福建总队南平片区魔鬼周第二季来袭下一篇：第73集团军某旅转业干部退役人人签订保密协定

		自动登录	找回密码
密码			注册

评论：实战化训练当借力人工智能

相关分类