北海到山东潍坊的汽车司机电话本车发车时间每天早上7:00
途经:钦州:南宁:柳州:桂林:长沙:武汉:驻马店:周口:开封:兰考:菏泽:济南:淄博:潍坊《汽车总站》
联系人:张师傅
选自arXiv
机器之心编译
参与:黄小天、刘晓坤
近日,田渊栋等人在 arXiv 上发表了一篇题为《When is a Convolutional Filter Easy To Learn?》的论文,分析了用于学习带有 ReLU 激活函数的卷积滤波器的(随机)梯度下降算法的收敛,整个过程没有依赖输出分布的任何特定形式,论证也只用到了 ReLU 定义,这与先前受限于标准高斯分布的工作相反。同时这一理论也证明了深度神经网络中两阶段的学习率策略。
深度卷积神经网络(CNN)已经在很多应用中展现出了人工智能的较佳水平,如计算机视觉、自然语言处理和围棋等复杂游戏。尽管目标函数具有非常高的非凸性,简单的一阶算法(如随机梯度下降及其变体)通常可以成功地训练这样的网络。另一方面,卷积神经网络的成功从优化角度来考虑仍然是难以捉摸的。
当输入分布不受约束时,已有的结果大多数为负,如 3 节点神经网络学习的硬度(Blum & Rivest,1989)或非重叠卷积滤波器(Brutzkus & Globerson,2017)。较近,Shamir 等人表明学习单层全连接神经网络对于某些特定的输入分布来说是非常困难的。
这些负面结果告诉我们,为了解释 SGD 学习神经网络的成功,还需要对于输入分布做出更强假设。较近的一系列研究(Tian,2017;Brutzkus & Globerson,2017;Li & Yuan,2017;Soltanolkotabi,2017;Zhong 等人,2017)假设输入分布为标准高斯 N(0,I),并展示了(随机)梯度下降能够在多项式时间内得到具有 ReLU 激活的神经网络。
这些分析的一个主要问题在于它们依赖于高斯分布的专门分析,因此不能推广到非高斯情况下(真实世界的分布情况)。对于一般输入的分布而言,我们需要新的技术。
在卡耐基梅隆大学、南加州大学和 Facebook 共同发表的这篇论文中,研究人员考虑了一种相对简单的架构:一个卷积层,随后跟着一个 ReLU 激活参数,然后是平均池化。形式上,以 x ∈ Rd 作为输入示例。例如,一张图片,我们从 x 中生成 k 个补丁,每个大小均为 p: Z ∈ R p×k,其中* i 列是已知函数 Zi = Zi(x) 生成的* i 个补丁。对于尺寸为 2,步幅 1 的滤波器,Zi(x) 是* i 个和* (i + 1) 个像素。因为对于卷积滤波器,我们只需要关注补丁而不是输入,在下面的定义和定理中,我们将 Z 作为输入,并将 Z 作为 Z 的分布:(σ(x) = max(x, 0) 是 ReLU 激活函数)。
学界 | 田渊栋等人论文:何时卷积滤波器容易学习?