设为首页收藏本站

海外华人网 - 海外华人中文门户网站

 找回密码
 注册

扫一扫,访问微社区

评论:实战化训练当借力人工智能

2017-6-14 19:47| 发布者: leedell| 查看: 2| 评论: 0|来自: 解放军报

摘要:   ●不久前结束的AlphaGo(阿尔法狗)与围棋选手柯洁的人机大战,留给观战者众多思考。诸如人工智能是人类的威胁,还是人类发展的朋友;继在围棋领域取得突破进展后,人工智能下一个进军领域将是什么等,都引起热 ...

  ●不久前结束的AlphaGo(阿尔法狗)与围棋选手柯洁的人机大战,留给观战者众多思考。诸如人工智能是人类的威胁,还是人类发展的朋友;继在围棋领域取得突破进展后,人工智能下一个进军领域将是什么等,都引起热烈的讨论。可以说,人工智能的发展如火如荼。在作为未来战争预演的实战化训练中,人工智能能否发挥应有的作用呢?

  要回答实战化训练能否借力人工智能的问题,首先要明了AlphaGo到底是如何下围棋的?简单地说,AlphaGo是通过蒙特卡洛树搜索算法和两个深度神经网络合作来完成下棋的。

  对于什么是蒙特卡洛搜索树算法,有专家曾通俗地解释说:假如篮子里有1000个苹果,让你每次闭着眼睛找一个最大的,而且不限制挑选次数。那么你可以闭着眼随机拿一个,然后再随机拿一个与第一个比,留下大的,随后再随机拿一个,与前次留下的比较,再留下大的。如此循环往复,拿的次数越多,挑出最大苹果的可能性也就越大,但除非你把1000个苹果都挑一遍,否则你无法肯定最终挑出来的就是最大的一个。这就是蒙特卡洛搜索,它广泛应用于科学和工程研究的算法仿真当中。而AlphaGo寻找下棋策略的方法,就是建立在这一原理基础之上的。只不过它为降低搜索树的复杂性,采取了深度学习方法,提高了策略选择效率。比如在2016年3月与韩国围棋选手李世石对阵之前,谷歌首先用人类对弈的近3000万种走法来训练“阿尔法狗”的神经网络,让它学会预测人类专业棋手怎么落子。然后让AlphaGo自己跟自己下棋,从而又产生规模庞大的全新的棋谱。谷歌工程师曾宣称AlphaGo每天可以尝试百万量级的走法。

  AlphaGo的“大脑”由策略网络和估值网络两部分组成。策略网络主要用来生成落子策略。下棋过程中,它不是考虑自己应该怎么下,而是想人类高手会怎么走,提出最符合人类思维的几种可行的下法。估值网络则会对各个可行下法进行评估,然后给出一个“胜率”。这些值会反馈到蒙特卡洛树搜索算法中,通过反复如上过程,最终推演出“胜率”最高的走法。AlphaGo利用上述工具来分析局面,判断每种下子策略的优劣,就像人类棋手会判断当前局面以及推断未来局面一样。

  也就是说,AlphaGo能够战胜人类围棋高手的基础,首先在于海量的棋谱存储,提供了“搜索”前提。其次在于它可以模拟人脑机制来学习、判断、决策。综合言之,就是全面数据开发与自主学习能力塑造。近年来,此类方法已被应用于诸多领域,比如人脸识别、语音识别等。专家表示,AlphaGo的一些算法机理可以运用到其它领域,去解决一些对抗性的问题。正所谓大道无形,实战化训练作为模拟未来战争的对抗训练,完全可以借鉴AlphaGo的开发经验,在开发利用海量数据的基础上,打造系统自学习、自判断、自决策能力,提高实战化训练的强度、难度和复杂程度,从而真正让训练内容更加接近于实战,提高训练效率。

  当然,最为重要的是AlphaGo的“思维”没有任何“限制”。它所走的一些步骤,有时完全是围棋教学中所谓的笨招、蠢式。但恰恰就是这些所谓的“笨招、蠢式”,反而让人措手不及。因此说,AlphaGo最大的启迪就是创新,它并没有一个固化的下棋套路。战争是最忌讳任何固化、教条的领域,在开发实战化智能辅助训练系统的同时,最重要的是打破思维的樊篱,冲破训练的禁区,真正让训练接近实战,创造出令人意想不到的战法。胡小柏

联系我们|Archiver|手机版|小黑屋| 海外华人中文网   

GMT-8, 2024-11-25 19:41

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

返回顶部