事项:
10月18日,谷歌人工智能团队DeepMind在Nature上发表论文,宣布新版的AlphaGo——AlphaGo Zero基于强化学习算法,可在只了解比赛规则和目标的情形下进行自我学习,并仅用三天时间便完胜曾击败世界冠军李世石的AlphaGo Lee。http://www.hibor.com.cn【慧博投研资讯】
平安观点:
AlphaGo Zero 表现惊艳,仅40天即超越此前所有版本:根据DeepMind在Nature上发表的论文Mastering the Game of Go without Human Knowledge,在只输入游戏规则和比赛目标的条件下,AlphaGo Zero 基于强化学习(reinforcementlearning)算法从头开始学习围棋,经过短短3 天时间便以100:0 的比分完胜此前击败世界冠军李世石的AlphaGo Lee。http://www.hibor.com.cn(慧博投研资讯)在击败Lee 之前,Zero 进行了490 万次的自我对弈,而Lee 达到该水平则是经过数月的训练。经过21 天的学习,Zero已达到曾击败柯洁的AlphaGo Master 的水准,仅仅40 天后便以90%的胜率完全实现了超越。
纯强化学习成为亮点,或预示数据重要性下降:与此前版本的AlphaGo 采用监督学习不同,Zero 采用单纯的强化学习算法,完全不需依赖人类的棋谱数据进行训练,仅通过自我对弈进行学习。技术层面,一是Zero 将此前版本中的策略网络和价值网络合二为一,单一神经网络使得Zero 获得了更高效的训练和评估;二是Zero 并不采用此前版本快速、随机的走子方法预测胜率,而是依靠高质量的神经网络评估对弈局势。另一点值得注意的是,深度强化学习极其不稳定、易遗忘,Zero 并未设置大量的历史checkpoint 来解决这个问题,而是采用简单的、基于梯度更新的方法来进行迭代,以更佳的渐进性能实现了网络的收敛。
我们认为,纯强化学习应用是Zero 的最大亮点,这使得AI 可以摆脱人类数据进行学习,有望大大简化AI 的训练,扩大AI 的应用场景,摆脱昂贵的数据获取成本的限制。实际上,从Zero 超越Master 的结果来看,人类的经验数据反而可能是对AI 的制约,单纯的自我学习或更可能超越人类。
Zero 仅由4 个TPU 支持,证明AI 算法的核心地位:硬件方面,曾击败樊麾的AlphaGo Fan 使用了176 个GPU,Lee 使用了48 个TPU,而Master 和Zero仅使用了4 个TPU。以此来看,尽管Lee 具有远超Zero 的硬件算力,但依靠更优的算法,Zero 仍仅用3 天即超越了Lee 的表现。这或许表明即使在AI 时代,算法仍然处于核心地位,是提高效率、降低能耗的关键。
AlphaGo Zero 或成重要里程碑,但与通用AI 仍相距甚远:当前,AI 在语音识别、文本翻译、图像分类等领域已取得了惊人成果,如AlphaGo Zero 强化学习的成功得以在其他领域复制,那么AI 的能力无疑将显著增强,应用场景或将得以向新药研发、新材料设计、气候建模、自动驾驶等深度应用领域拓展,AlphaGo Zero 也将因此成为AI 史册中的重要里程碑。不过也应看到的是,围棋仍具有明确的规则,强化学习能否有效应用于其他复杂场景仍存在疑问,而Zero 距通用AI 更是相差甚远。因此,尽管AI 发展迅速,前景乐观,但短期不应期许过高。
投资建议:DeepMind 已通过AlphaGo 完成了AI 在围棋应用中的验证,预计下一阶段将把AI 技术推广到更多应用场景。受此次事件带动,全球AI 业界或也将在强化学习等AI 算法的研究和应用领域加大投入,因此我们认为AI 龙头企业在下一阶段的动向值得关注。A 股投资标的方面,我们建议关注国内技术领先且研发费用通常保持在20%左右的AI 龙头科大讯飞,以及与华为海思合作开发移动AI 芯片麒麟970 的中科创达。
风险提示:人工智能技术发展不及预期;人工智能应用落地不及预期。