2017年度的预测内容。
作者根据其观察到Nvidia和Intel的发展动态,认为这是显而易见的趋势。由于Nvidia具有完整的深度学习生态系统,它们在整个2017年都将主导占据主导地位。在另一个深度学习生态系统成熟之前,没有人会抛弃Nvidia而追求其它的平台。Intel的Xeon Phi方案中途夭折,预计要到2017年年中才能在性能上追赶上Nvidia,那时基于Nervana的芯片才推向市场。Intel的FPGA方案可能因为成本原因而被云提供商所采纳。降低功耗是头等大事。预计到2017年年中,Intel的Nervana芯片每秒可完成30万亿次浮点运算。作者个人猜测,Nvidia目前已经能够实现每秒20万亿次浮点运算,他打赌Intel在2018年之前不会有太多动作。Intel手中的唯一可能的一张王牌是3D XPoint技术。这将有助于提高整个硬件堆栈,但不一定是提升核心能力。
作者认为CNN模型将成为深度学习系统的主流模型。RNN和LSTM模型及其递归设置和嵌套的记忆节点将越来越少地使用,因为它们无法与CNN所抗衡。就如同GOTO在代码中消失一样,作者希望RNN和LSTM模型也被淘汰。
当作者刚开始接触深度学习时,他认为优化算法,特别是二阶的算法能够有巨大的提升。如今,已经有替我们优化模型的深度学习模型了。我们不在需要费尽心思改进SGD算法了,作者认为重要的一个原因是元学习(meta-learning)能够根据领域自适应地优化学习过程。
记忆模块将从核心节点中抽取出来,只是作为计算机制的一个独立组件,作者觉得这是一个很自然的结果或者说架构。他认为LSTM的遗忘门、输入门和输出门没有必要,它们可以被辅助的可微分记忆模块所取代。这呼应了作者对CNN模型的预测。
对于现实的观察永远是不完美的。我们身边存在着大量SGD无法解决的问题。因此,任何实践性的深度学习系统都必须包含某些形式的强化学习。除此之外,强化学习将会出现在各种深度学习的训练过程中。作者认为强化学习极大地促进了元学习。
在过去,我们的深度学习系统都只有单一的目标函数。今后,作者希望看到两个或两个以上的网络合作或竞争来实现一个很好的解决方案。参见“博弈论揭示了深度学习的未来”。
Andrew Ng认为这非常重要,作者也表示赞同!
在2016年,我们已经看到深度学习在更大的搜索算法中用作一个功能评价组件。alphago采用深层学习来评估策略。谷歌的Gmail自动回复系统将深度学习与集束搜索(beam search)结合。作者希望看到更多的这类混合算法,而不是新的end-to-end的被训练的DL系统。
深度学习只是众多需要抽象结构的复杂领域之一。尽管它用到了很多高深的数学知识,仍有很多未经证明和模糊的概念可以借鉴在其它复杂领域已被证明是有效的方法,比如在软件开发领域有效。作者认为人们最终会从深度学习与模式设计中得到启发。
作者认为研究人员的背景和他们所使用的数学工具会给他们的研究方法带来偏见。深度学习系统和无监督学习系统等等这些新的东西可能我们从来没有遇到过。因此,他觉得没有证据表明我们的传统分析工具将对解开深度学习的谜团提供任何帮助。几十年来,物理学中大量的动态系统一直困扰着作者,他将此类比于深度学习系统。
然而,尽管我们缺乏了解其本质,但是将不会阻止工程上的应用。作者觉得深度学习几乎就像是生物技术或基因工程。我们已经创建了模拟学习机,我们不知道他们是如何工作的,但是这并没有阻止任何人进行创新。