发布时间:2025年09月27日 作者:aiycxz.cn
基于深度学习的图像语义分割方法研究RESEARCH ON IMAGE SEMANTIC SEGMENTATION METHODS BASED ON DEEP LEARNING张 婧哈尔滨工业大学2021 年 6 月国内图书分类号:TP391.4国际图书分类号:004.8学校代码:10213密级:公开工学博士学位论文基于深度学习的图像语义分割方法研究博 士 研 究 生:张 婧导 师:姚鸿勋 教授申 请 学 位:工学博士学 科:计算机科学与技术所 在 单 位:计算机科学与技术学院答 辩 日 期:2021年6月授予学位单位:哈尔滨工业大学Classified Index: TP391.4U.D.C: 004.8# Dissertation for the Doctoral Degree in Engineering## RESEARCH ON IMAGE SEMANTIC SEGMENTATION METHODS BASED ON DEEP LEARNING### Candidate:**Supervisor:** Academic Degree Applied for: Speciality: Affiliation: Date of Defence: Degree-Conferring-Institution: Zhang Jing Prof. Yao Hongxun Doctor of Engineering Computer Science and Technology School of Computer Science and Technology June, 2021 Harbin Institute of Technology 摘要摘 要图像语义分割是计算机视觉领域的关键问题之一,其目标是为图像中的每个像素分配一个语义类别标签。作为场景理解的基础,图像语义分割在自动驾驶、机器人导航、医学图像分析等应用中具有重要价值。近年来,随着深度学习技术的快速发展,基于深度学习的图像语义分割方法取得了显著进展。然而,由于图像语义分割任务本身的复杂性,现有方法仍面临诸多挑战。首先,图像语义分割需要同时处理像素级分类和空间位置信息,这要求模型具有强大的特征表示能力。其次,图像中目标物体通常具有尺度多样性,如何有效处理多尺度目标是图像语义分割面临的重要挑战。此外,图像中目标物体通常具有复杂的形状和边界,如何准确分割目标边界也是图像语义分割的关键问题。最后,在真实场景中,图像语义分割模型需要处理各种复杂的环境条件,如光照变化、遮挡等,这对模型的鲁棒性提出了更高要求。针对上述挑战,本文从特征表示学习、多尺度信息融合、边界优化和模型鲁棒性四个方面展开研究,主要工作和创新点如下:(1)针对现有语义分割方法在特征表示学习方面的不足,提出了一种基于注意力机制的语义分割网络。该网络通过引入通道注意力和空间注意力模块,自适应地学习特征图中不同通道和空间位置的重要性,从而增强对关键特征的表示能力。具体而言,通道注意力模块通过全局平均池化和全连接层学习每个通道的权重,空间注意力模块通过卷积操作学习每个空间位置的权重。通过将这两个注意力模块集成到编码器-解码器结构中,网络能够更有效地捕捉图像中的语义信息。在多个公开数据集上的实验结果表明,该方法在分割精度和计算效率方面均优于现有方法。(2)针对多尺度目标分割问题,提出了一种多尺度特征融合网络。该网络通过设计多分支结构,在不同尺度上提取特征,并通过特征金字塔网络进行特征融合。具体而言,网络包含多个并行分支,每个分支使用不同大小的卷积核或池化操作来捕获不同尺度的特征。然后,通过自上而下和横向连接的方式将这些特征融合,形成多尺度特征金字塔。此外,还引入了一种自适应权重学习机制,动态调整不同尺度特征的贡献,从而更好地处理尺度变化。实验结果表明,该方法在包含多尺度目标的复杂场景中表现出色。(3)针对边界分割不准确的问题,提出了一种边界感知的语义分割方法。该方法通过显式地建模边界信息,提高分割边界的准确性。具体而言,首先设计了一个边界检测模块,用于预测图像中的语义边界。然后,将边界信息与语义分割网络相结合,通过多任务学习的方式联合优化边界检测和语义分割任务。此外,还提出了一种边界哈尔滨工业大学工学博士学位论文细化策略,在解码过程中逐步优化边界区域的分割结果。通过在多个数据集上的实验验证,该方法能够显著改善边界区域的分割质量。(4)针对模型鲁棒性问题,提出了一种基于对抗训练的语义分割方法。该方法通过引入对抗样本训练,提高模型对噪声、遮挡等干扰的鲁棒性。具体而言,在训练过程中生成对抗样本,并通过最小化对抗风险来优化模型参数。同时,还设计了一种自适应对抗训练策略,根据样本难度动态调整对抗训练的强度。实验结果表明,该方法在多种干扰条件下均能保持稳定的分割性能。综上所述,本文围绕图像语义分割中的关键问题,从特征表示、多尺度处理、边界优化和模型鲁棒性四个方面提出了创新性方法。通过大量实验验证了所提方法的有效