您现在的位置是:主页 > news > 西安网站建设费用/兰州seo整站优化服务商
西安网站建设费用/兰州seo整站优化服务商
admin2025/6/18 20:22:25【news】
简介西安网站建设费用,兰州seo整站优化服务商,网站建设的发展历史与新方向,台州卫浴网站建设题目:将超像素分割隐式集成到完全卷积网络中 Abstract 超像素是降低图像数据复杂性的有用表示。但是,要以端到端的方式将超像素与卷积神经网络 (cnn) 组合在一起,需要额外的模型来生成超像素和特殊操作,例如图卷积。在本文中&am…
题目:将超像素分割隐式集成到完全卷积网络中
Abstract
超像素是降低图像数据复杂性的有用表示。但是,要以端到端的方式将超像素与卷积神经网络 (cnn) 组合在一起,需要额外的模型来生成超像素和特殊操作,例如图卷积。在本文中,我们提出了一种将超像素方案隐式集成到CNNs中的方法,这使得以端到端方式将超像素与CNNs一起使用变得容易。我们提出的方法将下采样层的像素分层分组,并生成超像素。我们的方法可以插入到许多现有的体系结构中,而无需改变它们的前馈路径,因为我们的方法不使用前馈路径中的超像素,而是使用它们来恢复丢失的分辨率,而不是双线性上采样。结果,即使模型包含下采样层,我们的方法也会以超像素形式保留详细信息,例如对象边界。我们对几种任务 (例如语义分割,超像素分割和单目深度估计) 进行评估,并确认它可以加快现代体系结构和/或提高它们在这些任务中的预测精度。
1. Introduction
Long等人 [25] 提出的全卷积网络 (FCNs) 带来了重大进展,成为图像分割、深度估计等密集预测任务的合理选择。随后,已经提出了各种衍生模型 [2、3、4、5、22、444、48、50],并将其应用于各种密集预测任务。
将下采样操作 (例如,最大/平均池化和两步以上的卷积) 应用于卷积神经网络 (cnn),以降低分辨率并有效扩展感受野。但是,它会丢失详细信息,例如对象边界和小而薄的对象。
FCNs还使用下采样层并利用双线性插值来恢复丢失的空间分辨率; 因此,通常会错过局部结构。
许多现有方法试图通过用atrous卷积 (也称为扩张卷积 [3,48]) 代替striding来减轻这种局部信息损失,或者利用可训练的解码器来恢复丢失的分辨率,该分辨率由转置卷积或双线性插值组成。具有一些卷积层 [2,24,25,32,36]。这些方法生成高分辨率分割图,但与FCN-32等简单模型相比,需要很高的计算成本或额外的层 [25]。
传统上,超像素 [38] 被用作有效的图像表示,这可以降低图像数据的复杂性并保留局部结构。现有的一些方法 [21,41,46] 将超像素与深度神经网络相结合,通过使用基于超像素的下采样。由于超像素的不规则性,它们需要图形卷积 [20,30,41] 来处理下采样的特征。因此,需要修改现有体系结构的前馈路径和/或在降采样之前需要额外的模型来计算超像素。
我们工作的目的是使在CNNs中使用超像素变得容易。我们将CNNs中的一般降采样操作解释为基于超像素的降采样,并通过将采样的像素用作超像素的种子来生成超像素。结果,我们提出的方法保留了超像素形式的详细信息,并且超像素用于恢复丢失的分辨率。使用所提出方法的主干体系结构比使用atrous卷积的主干更有效,后者被PSPNet [50] 和Deeplabv3 [5] 等现代体系结构所采用。与将超像素与cnn结合在一起的其他方法不同,我们提出的方法不会改变基本架构的前馈路径,因为它没有明确使用超像素进行下采样。因此,我们提出的方法可以插入许多现有方法。
我们提出的方法的优点有三个方面 :
( 1) 它可以插入到许多现有的密集预测模型中,而不改变它们的前馈路径;
(2) 通过用我们提出的主干替换它们的主干,降低使用atrous卷积 [50,5] 模型的计算成本,
(3) 通过整合所提出的方法并将解码器中的双线性上采样替换为基于超像素的上采样,提高了编码器-解码器架构 [24] 的计算精度。
在语义分割任务的情况下,我们的方法加快或改善了现代体系结构的平均交集 (mIoU),如图1所示。此外,我们在实验中证实了我们的方法在超像素分割和单目深度估计中的有效性。
2. Related Work
Long等人提出了用于语义分割任务的全卷积网络 (FCNs) [25],并且已经提出了其他各种衍生模型 [3,5,6,24,36,48]。FCNs不仅用于分割任务,还用于各种任务,例如深度估计 [9、11、12],光流估计 [8、15、39],超像素分割 [16、40、44、46] 和基本逆问题 (例如,去模糊 [31,43] 和修复 [14,47])。
FCN-32 [25] 是最简单的模型,生成空间分辨率降低为1/32的预测图。由于FCN-32使用双线性插值 (一种静态和线性插值方法) 来恢复丢失的空间分辨率,因此经常会错过诸如对象边界之类的局部结构。此问题可能是由利用双线性插值从粗输出生成预测图的方法引起的。因此,为了生成高分辨率地图,许多现有方法都使用可训练的解码器或用atrous卷积 (也称为膨胀卷积) 代替striding [3,48]。编码器-解码器模型 [2,24,32,36] 使用可训练的解码器来恢复丢失的分辨率和局部结构,该解码器由具有某些卷积层的转置卷积或双线性插值组成。编码器-解码器模型可以生成高分辨率地图,但需要解码器的额外层和参数。
Atrous卷积 [3,48] 用于有效地扩展感受野,而不是大步化。许多现代架构,例如PSPNet [50] 和DeepLabv3 [5],只有几个下采样层 (通常为三个),并使用atrous卷积代替。尽管这样的模型通过去除下采样层来避免信息损失并证明有效的结果,但它们通常需要很高的计算成本,因为它们丢弃了一些下采样操作并处理了中间层中的大量像素。
作为图像数据的细节保留复杂性降低,经典地使用了超像素分割,该分割将颜色和其他低级属性相似的像素分组。超像素可以保留对象边界和语义,一些现有的方法 [10,20,21,41,46,49] 将超像素与深度神经网络相结合。他们中的许多人显式地使用超像素作为降采样操作,并且由于超像素的不规则性而需要诸如图卷积之类的特殊操作来处理降采样的图像,或者需要在降采样之前使用额外的模型来计算超像素。
我们的策略还使用超像素来降低图像数据的复杂性并保留局部结构。与许多利用超像素的现有方法不同,我们提出的方法不会改变前馈路径,并且不需要额外的模型,因为我们没有明确使用超像素进行下采样。
原则上,当logn作为上采样模块 (例如双线性插值和转置卷积) 被使用时,我们的方法可以与现有模型和模块合并 (例如,保留或恢复详细信息 [23,28,29,35,42] 和全局上下文聚合 [5,45,49,50]),用我们提出的基于主干和超像素的上采样替换主干和基本上采样模块。在本文中,我们验证了我们的方法对于简单且广泛使用的模型和模块 [25,24,50,5,16,9] 的有效性。
3. Method
我们的动机是通过利用超像素属性来减轻信息丢失。我们在图2中展示了我们提出的方法的概述。我们的方法将一般的下采样视为基于超像素的下采样并通过将采样的像素用作超像素种子来对像素进行分组。基于生成的超像素将粗略预测图解码为精细分辨率。
通过将我们提出的方法集成到下采样层中,该模型可以分层地生成超像素并预测超像素的目标值。我们的方法不会更改基本体系结构的前馈路径,因为在前馈路径中未使用超像素,但是超像素仅用于恢复丢失的分辨率,而不是双线性插值。由于超像素的特性,该模型可以保留详细信息。
3.1. Preliminary 准备工作
其中:
- I为RGB图像
- H为高度,W为宽度
为特征图中第i个像素的n维特征向量;s表示输出步幅
的分辨率为 (H/s,W/s)
FCNs由构建在卷积层、ReLU激活层、下采样层 (例如最大池化和步幅为两个或两个以上卷积层) 上的块组成。
让 和
为卷积+ReLU块和下采样层(降低空间分辨率的的下采样层)。
我们将降采样层定义为将分辨率从 (H/s,W /) 降低到 (H/2s,W/2s),不会损失一般性。并在文章其他地方将下采样层定义为d(·)。
下采样特征图的特征维度可能会在(使用分频卷积strided convolution作为下采样时)时改变。
由FCN-32 生成的预测图 定义为=xxx。公式中 φ(·) 是到目标值的映射。我们的方法不会改变前馈路径,这意味着从
到
的映射。
3.2. Clustering Procedure 聚类程序
我们的策略是将下采样层的像素分组,预测群集的目标值,并与属于相应群集的像素共享预测值。