欢迎来到专业的优谦范文网平台! 工作总结 工作计划 心得体会 述职报告 思想汇报 事迹材料 疫情防控 共同富裕
当前位置:首页 > 范文大全 > 公文范文 > 正文

Mask,Text,Detector:一种检测自然场景下任意形状的文本分割网络

时间:2023-08-26 15:35:06 来源:网友投稿

向 伟,程 博,杨 航,祝来李,武钰智,王雅丽

(西南民族大学电子信息工程国家民委重点实验室,四川 成都 610041)

早期的文本检测方法大致分为两类,一类是基于滑动窗口[1-2],一类是基于连接组件[3-4].这些方法的核心原理在于逐个检测图像的字符,基于所检测到的字符再将各个字符组合成字符串.在传统方法中,经典的特征提取方法有Hanif[5]论文中的均值差和标准差方法,Wang[6]论文中的定向梯度直方图方法以及Lee[7]论文中的边缘区域方法.基于这些特征提取算法提取的特征再后接经典分类器对字符进行分类,并且在增加若干个自适应增强的分类器基础上,继而是对每个滑动窗口收集的特征进行分类.深度学习方法的出现从研究范式上深刻改变了研究人员处理文本检测任务的思路,避免了手工设计特征提取的复杂度.在Jaderberg[8]的论文中,提出了使用卷积神经网络来检测文本框的方法,得到基于文本框的检测结果,继而使用NMS 处理方法把所有符合条件的预测文本框留下,然后删除重复的文本框,最后留下的就是检测的最佳结果.Huang[9]的论文中,把传统的连接组件的方法和深度学习的方法相结合,在这种方法中提出了一种结合最大稳定极值和高对比度区域的检测器方法,它被用来寻找输入图像中的候选字符[10],基于这些候选字符再使用卷积神经网络分类器来生成特征置信度分数,通过这些特征置信度分数来过滤非文本候选框并生成候选物体的可信度分数.近些年,受益于深度学习算法在目标检测领域的巨大推动作用[13-14],基于深度学习的文本检测方法[11-12]结合目标检测范式大致可分为基于边框回归的方法、基于分割的方法以及结合前两者的混合检测方法.

在本节中,我们将介绍我们新提出的Mask Text Detector 方法,它基于Mask R-CNN 改进的.接下来先介绍具体思路,然后再详细介绍每个改进模块的具体实现细节.

2.1 改进思路

Mask R-CNN 算法是在目标检测领域具有很好的性能的检测模型,它的研究范式是从像素点大小分割目标区域,并且它具有检测并标记出任意形状目标的能力.这些能力正好符合任意形状文本检测的要求,因此可将其应用到文本检测领域.一方面,将其应用进来以后存在精度亟待提高的问题,另一方面Mask R-CNN 针对文本检测中容易将类文本目标错误检测为文本目标的问题.针对上述两个问题,我们在Mask R-CNN 的基础上对以上两个问题进行改进.

针对当前的文本检测器对复杂形状文本检测困难的问题,虽然使用Mask R-CNN 的分割功能可以生成任意形状的文本标记框,但是Mask R-CNN 初始是用于对人物和实体目标进行分割的,它们的检测与文本内容有一定的区别.基于分析的问题,我们在其原本的网络结构中结合传统的用于文本检测的Sobel 算子,并且在卷积模型中使用1*3 和3*1 的卷积核,分别用于提取图像的纵向和横向纹理特征,旨在增强文本特征之间关联度,进而使其更适合分割文本区域.

针对类文本目标容易被误检的问题,我们尝试对Mask R-CNN 的分类分支进行加强,让其分类文本性能更强.原本的分类分支把文本的目标区域标记为1,非文本的目标区域标记为0,这种离散的计算方法,并不能很好地处理类文本目标.我们拟用预测框与真实目标框之间的交并比作为预测框的类别分数,用于改善对类文本目标的误检问题,进而提升分类分支的性能.

2.2 整体网络结构

我们从网络架构的几个部分入手进行介绍.首先,构建骨干网络用于提取多尺度特征.该灵感来自FPN[15],基于FPN 的骨干网络可以用于提取多尺度目标的强语义特征,它主要通过在不同尺度的卷积层中实现横向连接来构造具有FPN 的架构的骨干网络.然后,我们提出了如图1 所示的Anchor-free-RPN方法,它的主要功能是生成建议框,这些建议框供后面分割网络使用.与传统的RPN 结构不同的是,我们用Anchor-free 的方法代替Anchor,它具有以下优点:①减少了RPN 的超参使用量;
②减少了浮点计算量.

然后,介绍特征提取后的分类部分.在此,我们提出了我们的LQCS(Localization Quality and Classification Score)联合回归方法,如图1 所示.它在获得前述建议框的基础上,通过联合坐标质量和类别分数来进行精确的目标边界回归和分类.与之前做法不同的是,在训练阶段,分类标签值由建议框与GT 的IOU 决定.反类box 的标签值为0,正类的标签值∈(0,1] .这样在推理阶段中,class 既能表示类别分数,也能表示坐标预测准确度.

最后,在掩码分割层Sobel-Mask,针对文本目标边缘性比较突出的问题,我们在边Sobel 边缘检测算法的基础上,加入了一部分3*1(纵向)和1*3(横向)卷积,与3*3 的卷积结果在通道层上叠加.并结合使用通道自注意力机制网络SE-NET,让网络具有自主选择通道特征的能力,既哪个方向的边缘特征.

2.3 Anchor-free RPN

在分割网络结构中,RPN 层的作用是生成可能包含目标的预测框,大约有2 000 个.后续的网络在RPN 生成的建议框上进行二次分类和二次坐标回归.基于这个特点,可得知RPN 层生成的框召回率越高,后续网络结构性能更好.传统的RPN 层是在anchor的基础上进行坐标回归,所以需要提前设置好anchor的尺度大小,这些超参数在配置模型的时其实是可以避免的.基于这种思想,我们设计了anchor-free RPN,将其接在FPN 特征层之后.然后经过四层全连接,使用全卷积分别生成分类分支和回归分支.与之前方法的区别是我们减少了多余的尺度设置等超参,同时减小了浮点计算量.

2.4 LQCS 联合回归

原始的Focal Loss[16]提出是用于解决在one-stage的检测场景中,训练期间存在前景和背景类之间的极端不平衡的情况.使用的公式如下:在文本检测中同样存在前景和背景类之间的极端不平衡问题,所以在计算类损失中我们尝试使用了该方法来解决问题.在使用过程中,我们发现,在测试阶段的预测文本框具有类别分数很高,但是与真实文本框的交并比(Intersection-over-Union,IOU)很低的情况,还有有预测文本框有类别分数很低,但是与真实文本框的IOU 很高的情况.这是不希望遇到的IOU和Class 不一致问题,为了解决预测框的IOU 与Class不一致的问题,提出了坐标质量和类别分数的联合回归方法.之前在训练阶段,所有的文本类别都是0 或者1 的离散值,现在用预测框和真实文本框的IOU 作为类别分数后,变成了0 到1 的不定值离散形式.这样在预测阶预测框的分数和真实框的IOU 成正比.在公式上体现为简化了类别标签y,使其分数在[0,1]之间浮动.所有类别分数y =0 表示为负样本,0<y≤1 表示正样本,y 的实际值是预测框与GT 的IOU 值.在处理类别不均衡问题上参考了FL 的思想.然而FL的形式只支持离散标签{0,1} .联合回归的类别分数存在[0,1]的多种连续可能.因此对其损失计算公式进行扩展:

公式2 中σ表示预测分数,y表示真实的标签分数,β是抑制负样本的因子,负样本越多数值越大.

2.5 Sobel-Mask

传统的文本检测算法是基于图像形态学的理论,对图像进行膨胀、腐蚀操作,从而突出文本的边缘特征.然后对其进行边缘检测继而获得边缘特征再进行模板匹配.Canny、Prewitt、Sobel 等传统边缘检测算法已经取得不错的成果.我们在mask 分支上融合了Sobel 边缘检测算法的思想来检测边缘特征,用一组轮廓点表示文本区域.如图2 所示,Sobel-Mask 包含3条路径,每条路径在输入的特征映射层上分别进行1*3、3*1、3*3 的卷积特征提取.1*3 的卷积提取水平方向上的特征、3*1 的提取垂直方向上的特征、3*3的提取综合特征.然后经过4 层卷积后,把3 条路径上的通道进行叠加.最后添加自注意力模块SE-Net.

图2 Sobel-Mask 分支的结构Fig.2 The structure of the Sobel-Mask branch

3.1 数据集

我们使用了以下数据集进行了实验.

ICDAR2013[17]是一个典型的水平文本数据集,它包含229 个训练图像和233 个测试图像,而且提供了字符和字符级注释.

ICDAR2015[18]是一个多方向文本数据集,它侧重于场景文本,并包含1 000 个培训图像和500 个测试图像,其中大部分都是低质量和过度模糊的图片.此数据集仅提供四边形标记的词级注释.

CTW1500[19]是用于曲线文本检测的数据集.它包含1 000 张训练和500 张图像进行测试,文本区域的注释为14 个边界点.

Total-Text[20]是一个全面的任意形状文本数据集,用于场景文本读数.Total-Text 包含1 255 次训练图像和300 个测试图像.所有图像都以单词级别的多边形注释.

3.2 实验配置

我们是在MMDection 开源架构上实现我们的模型,并且所有的实验都在8 张Nvidia 1080TI(11G)高性能GPU 上进行.我们只使用了每个数据集的官方数据集来训练模型.该方法用Pytorch 实现,在数据预处理阶段,使用多尺度训练,图像的短边设置为{400,600,720,1000,1200},长边设置为2000.这些模型总共进行了37.5 K 次迭代,学习率从2.0 *1e-2 开始,在6 K 和18 K 次迭代后乘以0.1.在训练ICDAR 数据集时忽略模糊样本.在评估阶段,由于测试图像的不同尺度多余检测性能有较大的影响,故把CTW1500 数据集中的图像缩放到720*1280,并将ICDAR2015 的分辨率固定为1200*2000.

3.3 实验结果分析

我们的模型与MMDection 框架的原始Mask RCNN 相比,使用两个模块做消融实验,第一个是LQCS 联合回归,另一个是引入x 方向、y 方向特征的Sobel-Mask.在ICDAR2013、ICDAR2015 数据集上做消融实验,并进行总结,以评估Text Mask Detector 中每个模块的是否能起到有效作用.所有的模型都只使用官方数据集训练,未使用其他数据.

LQCS 联合回归:本实验验证坐标质量和类别分数联合回归对模型起到的作用.实验结果如表1 所示,可以看到在加入了LQCS 联合回归后,模型在ICDAR2013 和ICDAR2015 的两个数据上识别文本的分数有所提高.在ICDAR2013 的数据集上F1-mean 值提高了2.5%,在ICDAR2015 的数据集上F1-mean 值提高了1.2%,明显地表现了该方法的有效性.为了方便观察结果,还展示了预测结果的可视化,把ICDAR2015 的500 张测试图片输入到网络,每张图片会生成1 000 个预测结果,对其进行10%的随机采样.横轴表示类别分数,纵轴表示location 分数.由此可以看出有多少预测结果IOU 和类别分数差距较大.从图3 可以观察到,在使用联合回归之后,左上角和右下角的样本点明显减少.经过消融实验的对比,在Mask R-CNN 中使用LQCS 联合回归的改进,在ICDAR2013和ICDAR2015 数据集都得到了文本检测性能的提升,证明了LQCS 联合回归方法的有效性.

表1 LQCS 消融实验结果Table 1 LQCS ablation trial results

图3 使用LQCS 后目标框的散点图可视化Fig.3 Scatterplot visualization of target boxes after using LQCS

Sobel-Mask:这一部分验证对x 方向、y 方向上进行边缘特征提取会对模型起到的作用,为了评估所提方法的有效性,进行了以下实验,把原本的Mask 分支的网络替换为图2 所示的Sobel-Mask 结构.实验结果如表2 所示,在数据集ICDAR2015 测试结果上,Baseline 的F1-mean 为80.2%,在掩码分割层加入Sobel-Mask 方法后识别率达到了82.2%.提升2%的识别准确率.明显地表明当模型结合传统方法提取纹理信息的有效性,在实验之中还尝试用1*5 和1*7 的卷积核,性能提升并没有1*3 的效果好.经过消融实验的对比,在Mask R-CNN 中使用Sobel-Mask 的改进,在CTW1500 和ICDAR2015 数据集都得到了文本检测性能的提升,证明了Sobel-Mask 方法的有效性.

表2 加入Sobel-Mask 模块的性能对比Table 2 Adding the performance comparison of the Sobel-Mask module

与经典方法做对比:通过前面两个消融实验证明了Mask Text Detector 各改进模块的有效性,本实验旨在通过与经典算法的对比验证Mask Text Detector 的整体性能.在实验中使用了三种不同的数据集,ICDAR2013 表示水平文本,ICDAR2015 表示任意方向文本,Total-Text 是任意形状文本,整个实验的过程中使用ResNet-101 作为骨干网络.实验结果如表3 所示,表3 的最后一行是Mask Text Detector 的性能测试结果,前面几行是经典模型的测试结果.从表中可以看出,Mask Text Detector 对水平文本的检测准确率达到了90.4%,对任意方向的文本检测准确率达到84.1%,对曲形文本的识别准确率达到了82.3%.

表3 中的CTPN 方法是基于Faster R-CNN 方法改进的,其检测文本的方法是用矩形方框标记,所以不能检测任意形状的样本,其在数据集Total-Text 的测试结果填写“-”.Seglink 在SSD 目标检测的方法上进行改进,也是检测矩形文本目标,先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样的好处是可以检测任意长度的文本行.SPCNet 在表中的性能与我们的模型类似,SPCnet 将Mask R-CNN 做为基础,同时引入了text context 模块和re-score 机制,从而提升检测准确率,降低误检率.表中效果最好的文本检测算法DBNet 是基于分割方法的文本检测网络,对于多方向文本识别性能为87.3%,对于任意形状文本识别性能为84.7%.其创新点是将二值化操作插入到分割网络中进行联合优化,这样网络可以自适应的预测图像中每一个像素点的阈值,从而可完全区分前景和背景的像素.表中的Mask TextSpotter 方法也是基于Mask R-CNN 改进的,与Mask Text Detector 的方法类似,但其只是在Mask分支进行修改,无其他改进.我们的模型Mask Text Detector 在多方向文本的检测性能比其高出1.7%,在任意形状文本的检测性能比其高出21.0%.这是一个巨大的性能提升.

表3 Mask text detector 在多个数据集上与最先进的模型作对比Table 3 Comparison of Mask Text Detector with state-of-the-art models on a dataset

为了更好地表现Mask Text Detector 在任意形状文本的效果,在实验的数据中挑选了一些经过文本检测的图片进行展示.如图4 所示可以看到对于曲形文本,多方向文本,Mask Text Detector 都能完整的在复杂背景中检测出来.

图4 模型在CTW-1500 上检测不规则文本的结果Fig.4 The result of the model detecting irregular text on CTW-1500

为了准确地检测出自然场景下不规则的文本目标,我们设计了基于分割模型的Mask Text Detector 算法.主要由三部分组成:Anchor-free RPN、坐标和类别联合回归、Sobel-Mask.Anchor-free RPN 通过恒等映射的空间特征点直接进行坐标回归,不需要设置多余的超参,减小了网络的计算量.坐标与类别的联合回归模块使用预测框与GT 的IoU 作为类别打分标签,明显减少了预测阶段出现类别分数高却与实际GT 偏差大的情况.Sobel-Mask 在水平和垂直方向上收集边缘特征信息,并使用通道自注意力机制使网络自行选择任意通道的特征.该方法在开源的数据集ICDAR 2013、ICDAR2015、CTW1500 等数据集上取得了很好的效果.在未来的展望中,我们希望能开发一个端到端的可适用于任意形状的文本识别算法.

猜你喜欢类别卷积分数基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02分数的脚步数学小灵通·3-4年级(2021年6期)2021-07-16分数的由来小学生学习指导(高年级)(2021年4期)2021-04-29无限循环小数化为分数的反思中学生数理化·七年级数学人教版(2020年11期)2020-12-14卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04可怕的分数趣味(数学)(2019年12期)2019-04-13壮字喃字同形字的三种类别及简要分析民族古籍研究(2018年1期)2018-05-21基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20西夏刻本中小装饰的类别及流变西夏学(2016年2期)2016-10-26

推荐访问:分割 形状 场景

猜你喜欢