Fine-grained Classification Model of High-frequency Components Based on Reinforced Spatial Transformation

LI Guo-peng, LUO Jian-qiao, ZENG Bao-zhi, XIONG Ying, LI Bai-lin

PDF(2082 KB)
PDF(2082 KB)
Manufacturing Automation ›› 2024, Vol. 46 ›› Issue (5) : 61-68. DOI: 10.3969/j.issn.1009-0134.2024.05.010

Fine-grained Classification Model of High-frequency Components Based on Reinforced Spatial Transformation

Author information +
History +

Cite this article

Download Citations
LI Guo-peng , LUO Jian-qiao , ZENG Bao-zhi , XIONG Ying , LI Bai-lin. Fine-grained Classification Model of High-frequency Components Based on Reinforced Spatial Transformation[J]. Manufacturing Automation. 2024, 46(5): 61-68. https://doi.org/10.3969/j.issn.1009-0134.2024.05.010

0 引言

高频元件是现代飞机研制中常见的整体结构件,具有结构复杂、薄壁、多腔等特点1,元件加工需要依赖智能制造手段。放置高频元件的托盘关联了记录元件工艺信息的射频芯片,由芯片控制加工过程。由于热处理时元件与托盘分离,需要人工再次关联元件和托盘,这严重降低了加工效率。本文通过图像分类技术实现元件类型与托盘的自动关联,以此提升加工智能化水平。
高频元件分类任务难点在于:1)受光照波动和姿态变化影响,元件类内差异大;2)部分类型元件高度相似,局部辨识性区域占比小,元件类间差异小。理论上,高频元件分类属于典型的细粒度视觉分类 (Fine-Grained Visual Categorization,FGVC)问题2
根据训练过程中监督信息的强弱,目前FGVC方法可分为基于强监督信息和基于弱监督信息的方法。二者均引入了关于局部类别辨识性区域的额外监督信息,以此区分细粒度类别。提高FGVC性能的关键是定位局部辨识性区域。基于强监督信息的方法3-4直接使用人工标注的辨识区域训练分类模型,存在标注成本高、主观差异大等问题。基于弱监督信息的方法5-6仅使用图像标签信息,通过构造网络结构自动关注局部辨识区域,因而避免了人工标注,逐渐成为主流FGVC方法。近期一些研究使用空间变换网络(Spatial Transformer Network,STN)7-8提供关于局部辨识区域的弱监督信息,有效提高了分类性能。STN的原理是网络自动学习对输入样本的空间变换,对样本进行变换能够增强局部辨识区域,例如可以通过缩放、裁剪等变换将图中辨识区域放大。具体地,文献[9]提出基于空间变换的双线性网络用于鱼类图像细粒度分类,空间变换自动定位图中局部辨识区域,双线性网络用于增强局部区域特征响应。在遥感图像分类领域,文献[10]迫使网络同时学习几何与光谱空间中的样本变换,变换能够校正多光谱遥感图像的几何变形和光谱畸变,明显提高了分类效果。
由于高频元件类内差异大、类间高度相似,目前STN方法难以有效捕捉不同类型高频元件的局部辨识区域。一方面,STN根据原始图像计算空间变换参数,变换效果容易受高频元件图像中光照变化、加工纹理、图像噪声的干扰;另一方面,STN使用传统Softmax分类器组合交叉熵损失(Cross Entropy Loss,CE Loss)完成变换参数学习,CE损失仅考虑类间可分性,无法保证同类元件的紧凑特征表达。
针对目前STN方法难以捕捉不同类别高频元件局部辨识区域的问题,通过提取高频元件的形态学轮廓增强STN的输入样本,同时引入中心损失增强STN的损失函数,提出基于增强空间变换网络的细粒度高频元件分类模型(reinforced Spatial Transformer Network,rSTN)。所提rSTN模型的基本原理是,通过增强STN的输入样本和损失函数,提高网络捕捉不同类型元件局部辨识区域的能力。所提模型创新之处为:
1)相比STN以原始图像为输入计算空间变换参数,所提rSTN将原始图像替换为提取高频元件形态学轮廓,元件轮廓不仅能够抑制光照变化、加工纹理、图像噪声的干扰,而且突出了高频元件结构信息。在元件轮廓上计算变换参数有利于捕捉每个类别的局部辨识区域。
2)相比STN仅使用CE损失进行训练,所提rSTN增加中心损失11-12鼓励同类元件图像具有紧凑特征表达,特征紧凑性要求同类图像具有一致的局部辨识区域,因而提高了网络捕捉局部辨识区域的能力。

1 rSTN模型

图1所示,所提rSTN模型基于Mobilenet_V3,通过空间变换网络提高图像特征表达和模型分类性能,通过样本增强和损失增强提高网络捕捉不同类型元件局部辨识区域的能力。
图1 所提rSTN模型框架图

Full size|PPT slide

1.1 空间变换网络(STN

STN旨在学习输入图像的空间变换,通过对图像进行缩放、裁剪、旋转,或非刚性变形等空间变换,提高图像特征表达和模型分类性能。STN可实现端到端训练,分类模型损失函数引导STN学习能够最小化损失函数的空间变换。训练后的STN能够自动关注不同类别图像中的中局部辨识区域,并去除干扰背景,有利于提高模型分类性能。图2给出了STN基本组成,包括定位网络、网格生成器和采样器三个部分7
图2 STN基本组成

Full size|PPT slide

首先,定位网络根据输入图像 U计算空间变换参数 θ。其中, URH×W×C H W C分别为图像高度、宽度、通道数;空间变换类型是二维仿射变换, θ是由6个参数组成的矩阵(如图1所示)。定位网络由卷积层构成,最后使用回归层产生变换参数8
然后,网格生成器使用空间变换参数 θ构造变换函数 TθG,作用是生成采样网格完成输入图像 U和输出图像 V之间的位置映射。输出图像的像素位于规则网格 G=Gi上,像素位置 Gi=(xit,yit),输出像素的集合形成了输出图像 VRH'×W'×C',其中 H' W'分别为输出网格的高度和宽度,输入和输出的通道数一致。输入输出之间像素位置对应关系如下:
xisyis=TθGi=θ11θ12θ13θ21θ22θ23xityit1
(1)
其中, (xit,yit)为规则网格的目标坐标, (xis,yis)为输入图像的源坐标,输出图像目标坐标处的像素值可在输入图像源坐标处获得。
最后,采样器根据 TθG计算的源坐标从输入图像 U中采样像素值,完成图像的空间变换。 TθG中每个坐标 (xis,yis)对应输入图像中的空间位置,每个坐标应用采样核来获得输出 V中的特定像素处的值。
需要说明的是,STN不同于常用的数据增强方法在训练开始前执行固定的数据扩充,式(1)中的空间变换参数 θ由定位网络根据输入图像自动计算,STN自动学习能够最小化模型损失的空间变换。

1.2 样本增强

所提模型通过提取高频元件的形态学轮廓,抑制图像中光照变化、加工纹理、图像噪声和背景信息的干扰,增强高频元件的结构信息13。不同类型高频元件的本质区别在于结构差异,样本增强后的元件轮廓有利于STN关注不同元件的局部辨识区域。样本增强模块包括图像预处理和形态学轮廓提取,将高质量的形态学轮廓图像作为STN的输入样本,有利于减小光照变化等因素对特征提取的影响,增强对高频元件局部区域的特征表达。高频元件形态学轮廓提取如图3所示。
图3 高频元件形态学轮廓提取

Full size|PPT slide

首先,通过图像预处理去除图中无关信息,突出有效信息。预处理操作包括:1)最小外接矩截取;2)图像灰度化;3)图像二值化;4)高斯滤波。
然后,使用形态学开运算和闭运算提取元件轮廓。定义一个尺寸可变的结构元素,对预处理后图像进行多次开运算和闭运算组合操作可以获得图像骨架,骨架表达了元件轮廓信息。形态学轮廓计算过程如下:
MP(x)=CPn(x),,I(x),OPn(x)
(2)
其中,MPx)表示图像 I x位置处的轮廓,取值为0或1; CPn(x) OPn(x)分别为图像 I x点处的开运算轮廓和闭运算轮廓,n为结构元素尺寸。所提模型通过两个开运算和闭运算的组合提取元件轮廓,两个结构元素尺寸分别为 9×9 5×5
图3所示,相比原始图像,形态学轮廓抑制了光照变化、加工纹理等干扰因素的影响,从本质上表达了高频元件结构信息。使用形态学轮廓作为STN输入有利于捕捉元件局部辨识区域。

1.3 损失增强

STN仅使用CE损失鼓励类间可分性,所提rSTN模型增加中心损失迫使变换后的样本特征具有类内紧凑性。FGVC的一个难点是样本特征的类内变化可能大于类间差异,因此,提高特征类内紧凑性有利于对类内波动大的样本做出鲁棒性判断14。另外,特征紧凑性可以引导STN为同类图像捕捉一致的局部辨识区域,这就提高了关注局部辨识区域的能力。具体地,所提模型构造中心损失 Lcenter增强原有CE损失,表达式如下:
Lcenter=12m=1Mfm-cym22
(3)
其中, m是一个迭代批次内的样本下标, fm是主干网络倒数第二个全连接层输出的样本特征, cym是样本真实类别对应的特征中心。 Lcenter通过鼓励样本特征 fm尽量靠近特征中心 cym保证特征类内紧凑性。
模型训练需要计算 Lcenter对特征的导数 Lcenter/ fm,以及特征中心 cj的更新公式,具体如下:
Lcenterfm=fm-cym
(4)
Δcj=m=1Mδym=jcj-fm1+m=1Mδym=j
(5)
模型总的损失函数 L式(6)
L=Lce+λLcenter=-m=1MlogeWymTfm+bymj=1neWymTxm+bym+12m=1Mfm-cym22
(6)
其中, Lce为传统CE损失函数, W b分别是分类器权重和偏置, λ是平衡系数。
式(6)不仅通过使用CE损失要求特征类间可分,而且使用中心损失保证特征类内紧凑性,鼓励同类高频元件图像具有相似特征。换言之,中心损失迫使STN关注同类元件中相似的局部辨识区域,这就增强了STN捕捉局部辨识区域的能力。

1.4 模型执行流程

模型执行流程分为样本增强阶段、空间变换阶段、损失增强阶段和预测阶段。样本增强阶段,通过预处理操作和形态学轮廓提取,增强高频元件的结构信息;空间变换阶段,根据高频元件的形态学轮廓图像计算空间变换参数,对输入图像进行图像变换;损失增强阶段,通过中心损失和交叉熵损失的组合进行反向传播,增强了模型捕捉局部辨识区域的能力;预测阶段,输入空间变换后的样本到Mobilenet_v3网络,输出高频元件分类预测结果。
图4 模型执行流程

Full size|PPT slide

2 实验与分析

2.1 实验设置

实验数据为某军工院所生产的高频元件图像4528张,高频元件类别11种,图像分辨率为3774×2670,采用裁剪、随机水平和垂直翻转等数据增强方法将样本数量扩大2倍。数据集按照6∶2∶2的比列划分为训练集、验证集和测试集。数据集样本数量如表1所示。
表1 数据集划分
训练集 验证集 测试集
图像数量 5434 1811 1811
实验模型主干网络为Moblilenet_V315;空间变换网络的定位网络采用Moblilenet_V3的第一层卷积层;形态学轮廓提取采用两个开运算和闭运算的组合,第一个结构元素的大小为 9×9,第二个结构元素的大小为 5×5式(6)所示损失函数中平衡参数 λ取经验值0.1;网络训练的批量大小设置为64,回合数设置为200个,学习率设置为0.01。
实验环境为Windows10,软硬件配置如下:GPU为NVIDIA GTX1080Ti,CPU为Intel Core i7-6700,运行内存32GB,算法执行依赖的语言和工具包括Pytorch1.2,Pycharm2020,Python3.7,深度学习网络加速库为CUDA 10.2结合CUDNN 7.6。参考现有细粒度分类研究16,分类性能评价指标采用高频元件分类准确率。为获得稳定实验结果,每次实验重复5次,汇报5次结果的均值。

2.2 高频元件分类性能

为验证所提模型分类性能,将所提rSTN与标准STN,以及近期细粒度分类方法在高频元件数据集上进行对比,对比方法如下:
1)基准模型为Moblilenet_V3,记为Base。
2)人工校正输入图像的方法。利用1.2节图像预处理中截取最小外接矩的方法,将高频元件的最小外接矩区域作为输入图像,方法记为MC(manual correction)。
3)基于弱监督机制的方法9。利用空间变换捕捉图像辨识区域,将变换后的高频工件图像作为双线性网络的输入图像,以此提高网络对局部辨识区域特定位置的响应,方法记为STB(spatial transformation bilinear fish net, STB)。
4)基于注意力机制的方法110。在输入图像上自适应学习几何变换参数,将变换后的高频工件图像作为ResNet34网络的输入图像,方法记为JSST(a learnable joint spatial and spectral transformation, JSST)。
5)基于注意力机制的方法211。利用注意力机制捕捉高频工件的显著特征,同时定义多任务学习网络增强特征辨识能力,方法记为DFLA(a discriminative feature learning approach for deep face recognition, DFLA)。
6)标准STN7。利用空间变换捕捉局部辨识区域,将变换后的高频工件图像作为网络的输入图像,方法记为STN。
7)仅使用样本增强的rSTN模型。将1.2节提取的高频元件形态学轮廓作为STN输入图像学习变换参数,变换参数用于对原始图像进行变换,将变换后的高频工件图像作为网络的输入图像进行类别预测,方法记为rSTN-S。
8)仅使用损失增强的rSTN模型。利用STN捕捉局部辨识区域,将变换后的高频元件图像作为网络输入,并利用1.3节损失增强的方法,在网络原有CE损失基础上增加中心损失进行反向传播,对高频元件类别进行预测,方法记为STN-L。
为公平对比不同方法,除STB、JSST、DFLA外,其他方法主干网络均为Moblilenet_V3,训练参数配置与2.1节保持一致。STB、JSST、DFLA的主干网络与参数配置参考原著。表2给出了不同方法的高频元件分类性能。
表2 不同方法的高频元件分类性能表
方法 主干网络 准确率 推理时间/(ms/张)
Base Moblilenet_V3 0.8040 32.04
MC Moblilenet_V3 0.8353 30.02
STB VGG16 0.8601 31.65
JSST ResNet34 0.8489 30.40
DFLA ResNet50 0.8563 30.84
STN Moblilenet_V3 0.8857 31.73
rSTN-S Moblilenet_V3 0.9029 33.94
rSTN-L Moblilenet_V3 0.8982 32.11
rSTN Moblilenet_V3 0.9212 34.23
表2说明了所提rSTN模型在高频元件分类任务上的优势,具体包括以下几点:
1)MC方法将Base方法的准确率从0.8040提高到0.8353,说明截取高频元件外接矩可以突出局部辨识区域,提高分类性能。
2)相比于MC方法,STB、JSST、DFLA方法将准确率分别提高了0.0248、0.0136、0.0210,说明迫使网络自动关注图像局部辨识区域能够获得比人工校正更高的分类性能。
3)STN获得的分类性能优于STB、JSST、DFLA,准确率分别提高了0.0256,0.0368,0.0294,说明通过STN关注局部辨识区域可以进一步提高分类性能。
4)相比于STN,使用样本增强的rSTN-S将准确率提高了0.0172。这是因为样本增强后的形态学轮廓突出了元件结构信息,有利于STN捕捉不同类型的局部辨识区域。另外,rSTN-S将推理时间延长到33.94ms/张,这是因为轮廓提取增加了计算开销。
5)使用损失增强的rSTN-L将STN的准确率提高了0.0125。这是因为中心损失迫使STN关注每类元件中相同的局部辨识区域,以此保证每类元件具有紧凑特征表达。实验说明了增加中心损失的有效性。
6)结合样本增强和损失增强的rSTN获得最高准确率0.9212,说明引入元件轮廓和中心损失可以增强STN捕捉局部辨识区域的能力,能够提高分类性能。另外,由于样本增强延长了推理时间,rSTN的推理时间比STN延长了2.5ms/张。
为进一步分析不同类别的分类结果,图5对比了STN和所提rSTN获得的分类结果混淆矩阵。
图5 分类结果混淆矩阵

Full size|PPT slide

图5中,rSTN获得的混淆矩阵更接近块对角形式,非对角线上的错误分类比例更少,说明rSTN的分类性能更强。这是因为样本增强和损失增强提升了STN捕捉局部辨识区域的能力,空间变换后的元件图像更容易被准确分类。实验证明了所提模型能够良好的应用于高频元件的细粒度分类任务。

2.3 捕捉局部辨识区域的效果

为了验证rSTN对局部辨识区域的捕捉效果,以及对正确预测概率值的影响,选择高频元件原始图像(Base)、手动校正后图像(MC)和rSTN方法中空间变换后的图像进行加权梯度类激活映射(Grad-CAM)可视化实验对比,Grad-CAM可视化17通过保留网络最后一层卷积层的梯度信息进行向前传递,求得局部辨识区域对于最后一层卷积层输出的特征图感兴趣程度,表3为加权梯度类激活映射Grad-CAM实验结果表,表4为网络预测样本真实类别的概率。
表3 加权梯度类激活映射(Grad-CAM)实验结果
类别 样本 Base MC rSTN
网络输入 类别激活图 网络输入 类别激活图 网络输入 类别激活图
G1 S1
S2
G2 S3
S4
G3 S5
S6
表4 网络预测样本真实类别概率TOP5
样本 Base MC rSTN
S1 0.852 0.886 0.964
S2 0.849 0.879 0.955
S3 0.853 0.881 0.944
S4 0.848 0.875 0.956
S5 0.858 0.880 0.952
S6 0.844 0.875 0.948
分析Grad-CAM实验结果表和网络预测样本真实类别概率TOP5表可以看出:
1)采用MC和rSTN方法变换后的输入图像不会丢失图像关键信息,且变换后图像的Grad-CAM能够捕捉局部辨识区域。例如采用MC和rSTN方法变换后的G2类高频工件S3和S4,能够聚焦到高频元件腔体、凸台等局部辨识区域。
2)rSTN方法通过放大局部辨识区域和提高同类输入的一致性,增强了网络输入的局部辨识区域。例如,同属G1类的高频工件S1和S2,rSTN方法放大了中间腔体和凸台,统一了元件方向。
3) Grad-CAM实验结果表表明rSTN增强了网络对类别语义的学习能力,提高了同类样本中由相似区域贡献真实类别的概率。例如,G1类的高频工件S1和G3类的高频工件S6,能够更集中的聚焦到腔体、凸台等特征信息。
4)MC和rSTN方法提高了网络预测样本真实类别的概率,对比六组对照试验发现,MC和rSTN方法的平均TOP5值相比于Base方法分别提高了0.029,0.103。说明了rSTN方法提高了网络准确识别真实类别的能力。

2.4 对网络特征表达的影响

为进一步说明rSTN方法在高频元件细粒度分类问题上的优势,选择Base,STNS,STNL方法进行二维特征分布对比试验,图6展示了四种方法在高频元件数据集上训练得到的特征向量经降维后的二维特征分布图,其中高频元件的不同类别用不同的填充和形状的组合表示。
图6 高频元件的特征向量分布图

Full size|PPT slide

分析高频元件的特征向量分布图可以看出:
1)STNL方法的特征向量分布图相比于Base方法,同类高频元件的特征向量更集中,如图6(a)和图6(b),说明损失增强能够降低高频元件特征的类内散度。
2)STNS方法的特征向量分布图相比于Base方法,不同类高频元件的特征向量间距更广,如图6(a)和图6(c),说明样本增强能够增大高频元件特征的类间间距。
3)rSTN方法分别与STNL方法和STNS方法的特征向量分布图进行比较,能够更加集中同类高频元件的特征向量,增广不同类高频元件的特征向量间距。如图6(c)~图6(d),说明rSTN方法能够同时降低高频元件特征的类内散度,增大高频元件特征的类间间距,并且样本增强和损失增强还具有一定的相互增益能力,因此rSTN方法能够良好的应用于高频元件的细粒度分类任务。

3 结论

针对高频元件细粒度分类中存在的元件类内差异大,类间相似度高,目前STN方法难以有效捕捉不同类型高频元件的局部辨识区域的问题,本文提出基于增强空间变换的细粒度高频元件分类网络模型rSTN,通过增强空间变换网络的输入样本和模型损失,提高网络捕捉不同类型元件局部辨识区域的能力。实验结果表明,空间变换网络模块自动学习对输入样本的空间变换,能够自动关注不同类别图像中的局部辨识区域,并去除干扰背景,提高了网络的分类性能;样本增强模块提高了高频元件结构信息的表达能力,增强了网络捕捉局部辨识区域的能力;损失增强模块迫使STN关注每类元件中相同的局部辨识区域,保证了每类元件具有紧凑的特征表达。rSTN对高频元件的局部有辨识性的区域关注能力增强,类别预测概率得到了提高,能够良好的应用于高频元件的细粒度分类任务。

References

1
魏涛,张丹,左敦稳,等.面向薄壁多腔类结构件加工特征识别方法[J].计算机集成制造系统201723(12):2683-2691.
2
李国瑞,何小海,吴晓红,等.基于语义信息跨层特征融合的细粒度鸟类识别[J].计算机应用与软件202037(4):132-136.
3
ZHANG N DONAHUE J GIRSHICK R, et al. Part-Based R-CNNs for Fine-Grained Category Detection[C]//Proceedings of European Conference on Computer Vision (ECCV), 2014: 834-849.
4
ZHANG H XU T ELHOSEINY M, et al. Spda-Cnn: Unifying Semantic Part Detection and Abstraction for Fine-Grained Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1143-1152.
5
顾攀,张烽栋.基于神经网络的图像弱监督语义分割算法[J].计算机应用与软件201835(2):284-288.
6
WANG Z WANG S LI H, et al. Graph-Propagation Based Correlation Learning for Weakly Supervised Fine-Grained Image Classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 202032 (7) : 12289-12296.
7
JADERBERG M SIMONYAN K ZISSERMAN A. Spatial Transformer Networks[J]. Advances in Neural Information Processing Systems. 201528: 2017-2025.
8
FINNVEDEN L JANSSON Y LINDEBERG T. Understanding When Spatial Transformer Networks do not Support Invariance, and What to do About it[C]//International Conference on Pattern Recognition (ICPR), 2021: 3427-3434.
9
冀中,赵可心,张锁平,等.基于空间变换双线性网络的细粒度鱼类图像分类[J].天津大学学报:自然科学与工程技术版.201952(5):475-82.
10
WANG Y JI S ZHANG Y. A Learnable Joint Spatial and Spectral Transformation for High Resolution Remote Sensing Image Retrieval[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. 202114: 8100-8112.
11
WEN Y ZHANG K LI Z, et al. A Discriminative Feature Learning Approach for Deep Face Recognition[C]//European Conference on Computer Vision (ECCV), 2016: 499-515.
12
陈绪,陈志澜.基于迁移学习的零件识别方法研究[J].制造业自动化201941(8):81-86.
13
HE X WANG A GHAMISI P, et al. LiDAR Data Classification Using Spatial Transformation and CNN[J]. IEEE Geoscience and Remote Sensing Letters. 201816(1): 125-129.
14
蒲云洁,王学渊.基于CUDA加速的多模态膝关节图像配准[J].制造业自动化202244(3):11-14+26.
15
HOWARD A SANDLER M CHU G, et al. Searching for Mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 1314-1324.
16
祝礼佳,刘桂华,林杰.sss基于卷积神经网络的磁瓦表面缺陷识别[J].制造业自动化202244(3):48-53.
17
SELVARAJU RR COGSWELL M, DAS A, et al. Grad-Cam: Visual Explanations from Deep Networks via Gradient-Based Localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.
PDF(2082 KB)

36

Accesses

0

Citation

Detail

Sections
Recommended

/