Semantic Segmentation Models
2015
FCN(全卷积网络)
2015 年提出,首次将卷积神经网络应用于像素级分类,开创了端到端语义分割的先河。FCN 将最后几层全连接层替换为卷积层,允许任意大小的输入图像,并通过上采样(反卷积)恢复分割图的分辨率。
U-Net
特别适用于医学图像分割,其特征是编码器-解码器结构,解码器层与编码器层之间有跳跃连接,用以恢复细节信息。
2016
SegNet
基于 VGG 网络,改进了 FCN 的上采样部分,使用了编码器-解码器结构,其中解码器的上采样层使用了编码器的池化索引来恢复细节。
DeepLab V1
DeepLab 系列模型是语义分割领域的另一个重要里程碑。DeepLab V1 首次引入了 Atrous Convolution 模块,弥补了删除池化模块后感受野大小的影响。
2017
PSPNet(金字塔场景解析网络)
引入了金字塔池化模块(Pyramid Pooling Module),捕获不同尺度的信息,增强了模型对不同大小物体的分割能力。
DeepLab V2
DeepLab V2 在 ResNet 的基础上引入了 ASPP(Atrous Spatial Pyramid Pooling)模块,进一步扩大了感受野并提高了分割精度。
MobileNet V1
深度可分离卷积的应用
2018
DeepLab V3
而 DeepLab V3 通过增加 ASPP 模块的宽度,进一步提升了模型的性能。DeepLab V3+是 DeepLab 系列的最新版本,它增加了网络深度,将 Xception 网络作为主干,使用深度可分离卷积 Depthwise Separable Convolution, 结合了解码器模块,以恢复细节信息,进一步提升了多尺度处理能力。
ENet
专为实时应用设计,使用了高效的编码-解码结构和跳过连接。
MobileNet V2
Inverted Residuals 和 Linear Bottleneck
ICNet
多尺度级联输入,深度监督
BiSeNet
结合了两个分支,Spatial 分支和 Context 分支。
2019
HRNet
维持高分辨率流以捕获更多细节,同时进行多尺度融合。
DANet
Spatial Attention 和 Channel Attention
Fast-SCNN:Fast Semantic Segmentation Network
共享下采样权重双分支网络
OCRNet(Object Contextual Representations)
引入了对象上下文表示,使用注意力机制来建模像素间的关系,增强对局部和全局上下文的理解。
CCNet
提出了交叉注意机制(Criss-Cross Attention),允许模型以较低的计算成本建模长距离依赖
MobileNet V3
SE 模块和 Swish
2021
SegFormer
SETR
图像块编码,输入纯 Transformer 网络提取特征,reshape 特征后卷积上采样
MaskFormer
将分割统一为 Mask 分类任务
2023
Segment Anything Model (SAM)
一种通用的分割模型,能够处理多种类型的分割任务,包括语义分割、实例分割和全景分割。
Semantic Segmentation Models
https://derolol.github.io/2024/07/01/knowledge/semantic-segmentation/