Semantic Segmentation Models

语义分割模型:从 FCN 到 DeepLab V3+的全面解析

2015

FCN(全卷积网络)

2015 年提出,首次将卷积神经网络应用于像素级分类,开创了端到端语义分割的先河。FCN 将最后几层全连接层替换为卷积层,允许任意大小的输入图像,并通过上采样(反卷积)恢复分割图的分辨率。

U-Net

特别适用于医学图像分割,其特征是编码器-解码器结构,解码器层与编码器层之间有跳跃连接,用以恢复细节信息。

2016

SegNet

基于 VGG 网络,改进了 FCN 的上采样部分,使用了编码器-解码器结构,其中解码器的上采样层使用了编码器的池化索引来恢复细节。

DeepLab V1

DeepLab 系列模型是语义分割领域的另一个重要里程碑。DeepLab V1 首次引入了 Atrous Convolution 模块,弥补了删除池化模块后感受野大小的影响。

2017

PSPNet(金字塔场景解析网络)

引入了金字塔池化模块(Pyramid Pooling Module),捕获不同尺度的信息,增强了模型对不同大小物体的分割能力。

DeepLab V2

DeepLab V2 在 ResNet 的基础上引入了 ASPP(Atrous Spatial Pyramid Pooling)模块,进一步扩大了感受野并提高了分割精度。

MobileNet V1

深度可分离卷积的应用

2018

DeepLab V3

而 DeepLab V3 通过增加 ASPP 模块的宽度,进一步提升了模型的性能。DeepLab V3+是 DeepLab 系列的最新版本,它增加了网络深度,将 Xception 网络作为主干,使用深度可分离卷积 Depthwise Separable Convolution, 结合了解码器模块,以恢复细节信息,进一步提升了多尺度处理能力。

ENet

专为实时应用设计,使用了高效的编码-解码结构和跳过连接。

MobileNet V2

Inverted Residuals 和 Linear Bottleneck

ICNet

多尺度级联输入,深度监督

BiSeNet

结合了两个分支,Spatial 分支和 Context 分支。

2019

HRNet

维持高分辨率流以捕获更多细节,同时进行多尺度融合。

DANet

Spatial Attention 和 Channel Attention

Fast-SCNN:Fast Semantic Segmentation Network

共享下采样权重双分支网络

OCRNet(Object Contextual Representations)

引入了对象上下文表示,使用注意力机制来建模像素间的关系,增强对局部和全局上下文的理解。

CCNet

提出了交叉注意机制(Criss-Cross Attention),允许模型以较低的计算成本建模长距离依赖

MobileNet V3

SE 模块和 Swish

2021

SegFormer

SETR

图像块编码,输入纯 Transformer 网络提取特征,reshape 特征后卷积上采样

MaskFormer

将分割统一为 Mask 分类任务

2023

Segment Anything Model (SAM)

一种通用的分割模型,能够处理多种类型的分割任务,包括语义分割、实例分割和全景分割。

p