神经网络还通过训练神经网络来识别图像中哪些特征很重要,从而提供图像分割解决方案,而不是像传统算法那样依赖自定义函数。执行分割任务的神经网络通常使用编码器-解码器结构。
编码器通过更窄和更深的滤波器提取图像的特征。如果编码器针对图像或人脸识别等任务进行了预训练,那么它就会使用该知识来提取特征以进行分割(迁移学习)。然后,解码器在一系列层上将编码器的输出膨胀为类似于输入图像的像素分辨率的分割掩模。
许多深度学习模型非常擅长可靠地执行分割任务。
U-Net是一种改进的全卷积神经网络。它主要是为了医学目的而提出的,即检测肺部和大脑中的肿瘤。它具有相同的编码器和解码器。编码器用于使用快捷连接来提取特征,这与通过上采样提取特征的全卷积网络不同。U-Net中的快捷连接是为了解决信息丢失的问题而设计的。在U-Net架构中,编码器和解码器的设计方式使得网络通过将高级特征与低级特征连接来捕获更精细的信息并保留更多信息。这使得网络能够产生更准确的结果。
SegNet也是一个深度全卷积网络,专为语义像素分割而设计。与 U-Net 一样,SegNet 的架构也由编码器和解码器块组成。SegNet 与其他神经网络的不同之处在于它使用解码器对特征进行上采样的方式。解码器网络使用在最大池层中计算的池索引,这反过来又使编码器执行非线性上采样。这消除了学习上采样的需要。SegNet 主要是为场景理解应用程序而设计的。
DeepLab主要是一个卷积神经网络 (CNN) 架构。与其他两个网络不同,它使用每个卷积块的特征,然后将它们连接到反卷积块。神经网络使用最后一个卷积块的特征,并像全卷积网络(FCN)一样对其进行上采样。它使用空洞卷积或扩张卷积方法进行上采样。空洞卷积的优点是在捕获更多信息的同时降低了计算成本。
基础模型也已用于图像分割,将图像划分为不同的区域或片段。与通常基于 Transformer 架构的语言模型不同,图像分割的基础模型通常使用旨在处理图像数据的卷积神经网络 (CNN)。