卷积神经网络：研究者过于追求理论和完美数据集而深陷其中

全文共2342字，预计学习时长6分钟

图源：unsplash

一直以来，卷积神经网络（CNN）在多个标准数据集上所展现出的技术发展水平都令人印象深刻。毫无疑问，卷积神经网络在图像处理及周边领域的开发进程和研究突破中发挥着重要作用。

但是，这不代表卷积神经网络表现完美。

研究人员经常会遇到一个问题：他们往往由于过于追求理论和完美数据集而深陷其中。然而事与愿违，要求数据准确度到小数点后几位其实往往与现实情况中图像处理的实际用处恰恰相反。在无噪声且结果可预测的数据集环境下，所设计出的算法和方法很可能不符合现实情况而导致表现不佳。

事实也确实如此。卷积神经网络特别容易产生"对抗性"输入，或对输入进行小改动，而这些改动会有意或无意地干扰神经网络正常工作。

就在今年，网络安全公司McAfee发现，只要将一条两英寸宽的黑色胶带贴到限速标志上，Mobileye（特斯拉以及其他汽车制造商都在使用的汽车智能系统）就会失控并以50英里每小时的速度加速并超过限速。

来自华盛顿大学和加州大学伯克利分校等四所大学的研究人员也发现，当停车标志被漆或贴纸掩盖住时，路标识别模型就完全失效。这并非是在为难系统，而是现实生活中确实会碰到这种情况。此外，卷积神经网络在图像移动或旋转上的泛化能力很差，更不用说观察三维的不同角度了。

图源：Evtimov etc

要弄清为什么卷积神经网络在图像角度泛化上困难重重，就必须先理解卷积神经网络是如何能够正常工作的，以及卷积神经网络和池化层的特别之处。

由于整个图像都被同一卷积层滤波器扫描（可视为某种"特征检测器"，用于识别线条或其他特征），所以不受平移影响。因为滤波器覆盖整个图像，所以无论被识别对象在左上方还是右下角都会被检测到。池化层有助于"总结"每个区域的识别结果以进一步优化，卷积层和池化层的存在也使得倾斜或缩放的物体在不同区域能被识别到。

图源：HackerNoon

另一方面，滤波器无法捕获缩放。红色框表示当识别到鸟时，滤波器处于高度激活状态。而当图像被缩放时，由于滤波器大小有限，滤波器处于任何位置都无法被高度激活。

图源：Pixabay

旋转也会出现同样问题。如果有些像素值与其他值相关，则滤波器只是产生高值的权重矩阵。由于滤波器是固定的，并且自上而下左右固定移动，因此它无法识别除此以外由其他轴向布局的图像。

图源：Pixabay

处理此问题的标准方法是数据增强，但这也不是一个很好的解决办法。卷积神经网络只需记忆，物体也可以从近似的方向以近似大小出现，而不一定泛化到所有视角。将网络暴露在各物体的所有视角实则实操性不强。处理这个问题的另一个方法是使用高维地图，但也十分低效。

Geoff Hinton将CNNs描述为对不变性建模的尝试——对神经活动进行池化或平滑以避免其被微小的变化影响，他发现这个方向是错误的。其目的是使最终标签不随视角而改变。他反其道而行之，提出以等方差作为目标——神经活动会根据视角的变化而改变。权重编码不随形状而改变，而不是为了激活滤波器。

此外，CNNs将图像解析为整个主体，而不是多物体的各部件。不能明确表示不同主体及其间关系，意味着它对于未识别过的对象分析强度降低。这也意味着它以蛮力来识别图像：记忆像素不同的图像时，往往记忆细节更丰富的表示形式，而忽略物体各部件（例如，薄轮胎+框架+手柄=自行车）。

这主要是因为卷积神经网络无法像人类那样识别图像。确实，在标准数据集的完美环境中，旋转和平移不常见或不重要的简单任务下，CNNs表现良好。但是随着我们对图像处理的需求愈发增加，技术也需要被更新。

解决不变量问题的一个方法是通过空间变换，它将在预测之前定义轴和图像边界。从而帮助纠正缩放（第一行）和旋转（第二行）所存在的不平衡，以及注意机制所存在的噪点（第三行）。

图源：空间变换网络

事实上，空间变换网络还可以消除复杂畸变。鉴于三维视角的复杂性，它还能够超越旋转和缩放变换，具有十分重要的价值。

图源：空间变换网络

还有其他几个架构，比如最近提出的缩放不变性卷积神经网络（SiCNN）。比较出名的是Geoff Hinton提出的胶囊网络：它通过层级来明确建立识别单个部件——他认为这是人类的自然识别方法。

Hinton指出，计算机视觉的任务就是推翻计算机图形。图形程序使用分层模型，根据位置不变的矩阵计算空间结构，视角只是一个矩阵乘法。因此，图像识别网络的目的应该是寻找视角表示和"内部"对象表示之间的关系，这种关系与视角无关。

每个胶囊网络都会被分配给一个内在对象，并且通过强制模型学习特征方差来进行无特定角度识别。这使得外延性增加，意味着图像模型开始真正对镜头的所有视角有了良好的泛化及分类。胶囊网络还对空间信息进行编码，并且只进行"协议路由"，这意味着如果内容相似，网络仅向更高级别的图层发送较低级别特征，如眼睛、鼻子和嘴唇。

图源：unsplash

显然，这是一个与卷积神经网络完全不同的范例。然而，也许正是这种处理图像识别的转变，才使设计数据集翻篇，转而构造出在日益复杂和按需要求的实际任务中表现更好的更智能且稳固的模型。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

举报/反馈

溪亭说科技

43.6万获赞 12.1万粉丝

中国计算机学会（CCF）杰出会员，科普工委副主任，聚焦人工智能/科技领域的洞察与分析

鲲鹏计划获奖作者,活力创作者

关注