目前, 基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果, 但难以准确检测到小尺度文本. 本文针对此问题提出了一种基于特征融合的深度神经网络, 该网络将传统深度神经网络中的高层特征与低层特征相融合, 构建一种高级语义的神经网络. 特征融合网络利用网络高层的强语义信息来提高网络的整体性能, 并通过多个输出层直接预测不同尺度的文本. 在ICDAR2011和ICDAR2013数据集上的实验表明, 本文的方法对于小尺度的文本, 定位效果显著. 同时, 本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,
At present, scene text detection based on deep learning has achieved good performance in complex background. However, it is difficult to precisely detect text with small scale. To solve this problem, this study proposes a deep neural network based on feature fusion, and a new neural network with senior semantic is constructed by combining the high-level feature and low-level feature of traditional deep neural network. Strong semantic information of the high layer network is utilized to improve the overall performance of the neural network, and the feature fusion network directly predicts text with multiple scales through multiple output layers. Experimental results on ICDAR2011 and ICDAR2013 datasets show that proposed method is significantly effective in detecting small scale text. Meanwhile, the proposed method has high accuracy and robustness in scene text detection, and the
随着互联网和多媒体技术的发展, 越来越多的信息载体以图像的形式存在. 自然场景图像中的文字作为一种极其重要的信息来源, 捕获和识别这些文字有助于理解和分析图像, 因此, 自然场景图像中的文本检测成为当下热门的研究话题之一. 目前文本检测技术在现实生活中有着广泛的应用, 例如, 手机设备上的拍照翻译软件, 可以拍摄异国街道或路牌上的文字, 将一种语言实时翻译为另一种语言, 提供导游帮助; 公安机关的高速监控设备, 可以抓拍识别高速公路上行驶汽车的车牌号码, 智能化收集违章车辆信息[
由于自然场景图像中背景错综复杂, 以及文字所处的位置可能存在逆光、遮挡和模糊等现象, 准确检测出场景中的文字成为一项具有挑战性的工作. 同时, 自然场景中的文字具有字体多样、颜色多变、分布不一的特点, 文本检测技术需要具有较强的鲁棒性.
传统的自然场景文本检测方法主要依赖于手动创建图像的特征, 利用机器学习的方法判别出文字的位置, 此类方法存在计算量大、检测过程复杂等缺点. 近年来, 随着深度学习的发展, 基于深度学习的方法在文本检测中取得显著的效果, 这些方法简单高效, 利用单个神经网络便能检测到不同尺度的文本. 但是, 大多数的神经网络在检测小尺度的文本上不能取得很好的效果. 因此, 本文基于传统深度神经网络, 在保证网络层次结构不变的前提下, 提出将网络中的高层特征与低层特征进行融合, 构建一种高级语义的神经网络用于自然场景文本检测.
为了验证高层特征与低层特征不同融合方式对网络性能的影响, 本文提出三种特征融合网络, 分别为相邻两层特征融合网络、相邻三层特征融合网络和最高层特征融合网络. 特征融合网络在层次结构上是金字塔结构, 通过自底向上和自顶向下的连接方式将不同层的特征进行融合. 特征融合后的网络具有多个输出层, 每个输出层都具有较强的语义信息并能检测不同尺度的文字. 本文在ICDAR2011和ICDAR2013两个标准数据集上进行了实验, 实验表明本文提出的特征融合网络可以有效地检测出小尺度的文本, 并具有较高的定位准确性和鲁棒性.
自然场景文本检测是从具有复杂背景的图像中检测出文字的位置. 目前自然场景文本检测方法主要分为三类: 基于滑动窗口的文本检测方法、基于连通域的文本检测方法和基于深度学习的文本检测方法.
基于滑动窗口的文本检测方法使用多尺度的滑动窗口去扫描图像, 搜索图像中文字出现的位置. 基于文字的特征, 运用一个预训练的文字分类器, 判别窗口内是否存在文字. 其中文献[
基于连通域的文本检测方法是利用文字区域具有相同的颜色和结构等特征来生成文本连通域, 然后根据连通域的大小, 宽高比等先验知识来获得文字区域. 文献[
近年来, 随着深度学习的发展, 越来越多的研究倾向于使用深度神经网络来解决文本检测问题. 文献[
随着深度神经网络在目标检测中的发展, 先后涌现出一系列的目标检测方法, 例如, R-CNN (Regions with CNN)[
受SSD直接预测目标的边界框的启发, 文献[
TextBoxes的网络结构图
TextBoxes的网络模型可以端到端进行训练, 不仅训练过程简单, 而且检测速度快. TextBoxes可以在不同分辨率的特征图上预测文字的位置, 与以往的文本检测方法相比, 它的处理过程简单, 不需要设计启发式的规则, 使得文本检测更加高效. 但是它不能较好地预测小尺度文本. 因此, 本文将提出新的方法来提高网络对小尺度文字的定位准确率, 进一步提高网络的性能.
TextBoxes的网络模型具有金字塔特征层次结构, 网络高层的语义信息比较强, 低层语义信息比较弱. 由于网络低层特征图表达能力不足, 所以不能较好地预测小尺度的文本. 为了解决该问题, 提高低层特征图的表达能力, 使网络能在不同分辨率的特征图上都能检测到对应尺度的文本, 本文提出将网络高层的特征与低层的特征进行融合得到新的特征图, 在新的特征图上预测文字的位置.
特征融合是指提取和综合目标的两种或多种特征, 提高同一类别的目标识别率. 一般是将不同的特征向量组合起来, 组成一个新的特征向量, 然后采用分类器进行判别分类. 在神经网络中, 将网络高层特征和低层特征进行融合, 可以使用融合特征图的方式. 将特征图进行融合一般有两种方式, 分别是元素求和方式和元素点积方式.
神经网络中的特征图相当于二维矩阵, 使用元素求和方式和元素点积方式必须要求两个矩阵的大小一致. 由于高层和低层输出层对应的特征图大小不一致, 不能直接进行融合. 为了融合高层特征和低层特征, 本文对网络高层输出的特征图使用一个反卷积操作, 将网络高层特征图的尺度大小处理成与低层特征图一致. 反卷积操作类似于双线性差值, 可以有选择地对特征图进行放大. 在神经网络中, 使用反卷积层实现反卷积操作, 反卷积层输出的特征图大小的计算公式为:
其中,
假设网络高层特征图为
使用元素点积方式融合两个特征图, 即两个矩阵对应元素相乘, 融合后的特征图为
研究表明[
原始网络的输出层是网络中独立的卷积层, 网络中特征图经过卷积核计算越来越小, 特征图语义信息越来越强, 如
原始网络的网络结构与特征融合网络的网络结构对比图
特征融合网络在结构上有两种连接方式, 一种是自底向上的连接方式, 一种是自顶向下的连接方式. 自底向上是网络的前向传播过程, 特征图的大小经过卷积层后会逐渐变小, 整个网络在层次结构上是金字塔结构. 自顶向下的连接采用反卷积, 将反卷积的结果与自底向上生成的相同大小的特征图进行融合. 特征融合后的网络利用高层特征的强语义信息, 提高网络低层的语义信息. 网络通过融合不同层的特征达到预测效果, 并在每个融合后的特征层上预测文字.
以TextBoxes中Conv4_3和Conv6_2两层特征进行融合为例, 在Caffe深度学习框架下, 网络的连接方式, 如
本文提出三种特征融合网络, 选择不同的组合方式将高层特征与低层特征进行融合. 相邻两层特征融合网络是指原始网络低层的特征图与最近邻的高层特征图进行融合的网络, 如
Caffe框架下网络层的连接方式
相邻三层特征融合网络是指原始网络低层的特征图与近邻的两层特征图进行融合的网络, 如
最高层特征融合网络表示原始网络中语义信息最强的特征图分别与其他输出层的特征图进行融合的网络, 如
特征融合网络在训练时仅仅需要输入图像和图像中文本的真实标签框(ground truth). 由于网络的输出是预测文本框与默认框(default box)的偏移坐标以及文本的置信度, 因此, 网络在训练过程中, 需要建立真实标签框和默认框之间的关系, 并对默认框进行标注.
特征融合网络在每个输出层上采用滑动窗口的模式生成默认框,
本文将jaccard重叠率大于或等于0.5的默认框作为匹配的默认框, jaccard重叠率小于0.5的默认框作为不匹配的默认框. 其中, 匹配的默认框作为正样本, 不匹配的默认框作为负样本. 如
特征融合网络的特征图
通过样本标注阶段后, 默认框中会产生大量的负样本, 这会导致正负样本的数量不均衡, 进而导致模型不稳定, 预测效果差. 为了解决该问题, 本文将默认框中的负样本通过置信度损失进行排序, 选择置信度损失值较高的默认框作为网络训练的负样本, 使训练的正负样本的比例保持在1:3, 这样可以稳定网络的训练.
特征融合网络的目标函数源自于TextBoxes的目标函数, 特征融合网络能处理默认框与文本的真实标签框是否匹配. 假设一张图像中存在第
特征融合网络的目标损失函数是定位损失与置信度损失的加权和:
其中,
置信度损失
特征融合网络在层次结构上仍然是金字塔结构, 网络在新的输出层上预测文本框的位置和置信度. 在每个输出层的特征图上定义一系列固定大小的默认框, 输出层输出文本的置信度和相对于默认框的偏移坐标. 假设图像和特征图的大小分别是(
此外, 由于网络中不同的输出层对应的特征图尺度不一样, 输出层可以预测不同尺度的文字. 假设网络中有
每个默认框的宽度和高度分别为:
其中,
输出层的默认框在不同的特征图上有着不同的尺度, 在同一个特征图又有着不同的横纵比, 相应的, 整个网络可以通过多个输出层预测不同尺度和不同形状的文本. 最后, 网络使用非极大值抑制算法聚集输出层输出的所有文本框, 选择置信度较高的文本框作为文本检测结果.
非极大值抑制算法(Non-Maximum Suppression, NMS)的本质是搜索局部极值点, 抑制非极大值元素, 该算法被广泛应用在目标检测的后处理中, 主要目的是排除多余的检测结果, 得到目标的最佳位置.
文本检测中普遍使用非极大值抑制算法去除冗余文本框, 因为它简单高效, 主要步骤如下:
(1) 将文本检测结果(预测文本框)按照置信度的值从高到低排序;
(2) 将第一个文本框作为当前抑制的文本框;
(3) 非极大值抑制. 将其他文本框作为被抑制文本框, 计算当前抑制文本框与被抑制文本框的面积交叠率
(4) 如果只剩最后一个文本框, 则算法结束; 否则, 按照之前排列好的顺序, 取下一个未被抑制的文本框作为抑制文本框, 执行步骤(3).
(5) 算法结束后, 选择置信度高于阈值β的文本框作为最终文本检测结果.
其中, 两个文本框的面积交叠率的计算方法如公式(13)所示,
使用非极大值抑制算法后, 文本检测的结果, 如
使用非极大值抑制算法后文本检测结果
为验证网络的有效性, 本文在两个公开的场景文本检测数据集上评估网络的性能: ICDAR2011和ICDAR2013. 其中ICDAR2011数据集包含229张训练图像和255张测试图像, ICDAR2013数据集包含229张训练图像和233张测试图像.
本文的网络使用随机梯度下降(Stochastic Gradient, SGD)的方法训练, 其中动量(momentum)和权值衰减系数(weight decay)分别设置为0.9和5×10–4. 最大迭代次数为12万次, 学习率(learning rate)初始设置为10–3, 迭代6万次后, 学习率调整为10–4. 整个实验在深度学习框架Caffe平台上进行, 训练和测试图像的尺寸都为700×700, 每个训练模型使用一个Titan X GPU大约训练50小时.
在自然场景文本检测算法里, 涉及三个评价指标, 分别为准确率(
准确率表示检测正确的文本框数量与算法检测出的文本框数量的比值, 召回率表示检测正确的文本框数量与数据集中真实文本框数量的比值. 准确率和召回率是一对矛盾的度量. 一般来说, 准确率高时, 召回率往往偏低; 而召回率高时, 准确率往往偏低. 所以, 准确率和召回率都不能唯一的评价算法的性能. 为了综合评价算法的性能, 一般使用准确率和召回率的调和平均数(
其中,
为了确定文本检测中后处理算法(非极大值抑制算法)中交叠率和置信度选取的最佳阈值, 本文首先在ICDAR2013数据集上, 对原始网络的文本检测结果进行实验分析.
如
不同交叠率
本文提出了三个特征融合网络, 分别为相邻两层特征融合网络、相邻三层特征融合网络以及最高层特征融合网络. 本文在ICDAR2013数据集上验证提出的特征融合网络的性能, 在输入图像为单尺度的条件下, 与原始网络(Fast TextBoxes)[
如
原始网络与特征融合网络实验对比结果
方法 | 准确率 | 召回率 | 时间(s) | |
Fast TextBoxes[ |
0.86 | 0.74 | 0.80 | 0.09 |
相邻两层特征融合网络 | 0.85 | 0.80 | 0.82 | 0.10 |
相邻两层特征融合网络 | 0.82 | 0.76 | 0.79 | 0.11 |
最高层特征融合网络 | 0.86 | 0.81 | 0.83 | 0.11 |
此外, 本文的方法与Fast TextBoxes相比, 在召回率上提升较高, 三个特征融合网络在召回率上分别提升了6%、2%和7%. 这是因为特征融合后, 网络低层输出层的特征图的语义信息得到增强, 能准确预测出小尺度的文字, 总体的召回率得到提升. 如
从时间性能上比较, 本文提出的特征融合网络在时间性能上与原始网络相比存在微小的差异, 微小的差异来源于特征融合中反卷积的计算, 但并不影响现实应用.
原始网络和特征融合网络实验结果对比
相邻三层特征融合网络与相邻两层特征融合网络相比较, 在准确率和召回率上均有所下降. 此外, 在训练过程中, 多层特征进行融合存在计算量大、消耗内存的情况, 因此本文没有采用三层以三层以上的特征融合网络.
本文所提出的三种特征融合网络中, 最高层特征融合网络的性能最好. 由于最高层的语义信息比较强, 高层的语义特征融合至其他层后, 使网络在各个层级上都具有丰富的语义, 性能上取得显著的提升, 并且不牺牲速度和内存. 因此, 之后的实验中, 本文使用最高层特征融合网络作为最佳的特征融合网络, 与常用的自然场景文本检测方法进行比较.
由上述实验结果可知, 本文方法在自然场景文本检测上能够有效地检测出文字的位置.
在ICDAR2011数据集上的实验结果
方法 | 准确率 | 召回率 | |
SFT-TCD[ |
0.82 | 0.75 | 0.73 |
Yin et al.[ |
0.86 | 0.68 | 0.76 |
MSERs-CNN[ |
0.88 | 0.71 | 0.78 |
Zhang et al.[ |
0.84 | 0.76 | 0.80 |
Fast TextBoxes[ |
0.86 | 0.74 | 0.80 |
Text Flow[ |
0.86 | 0.76 | 0.81 |
最高层特征融合网络 | 0.86 | 0.80 | 0.83 |
在ICDAR2013数据集上的实验结果
方法 | 准确率 | 召回率 | |
Text Spotter[ |
0.88 | 0.65 | 0.75 |
Iwrr2014[ |
0.86 | 0.68 | 0.76 |
Text Flow[ |
0.88 | 0.71 | 0.78 |
Zhang et al.[ |
0.84 | 0.76 | 0.80 |
Fast TextBoxes[ |
0.86 | 0.74 | 0.80 |
FCN[ |
0.86 | 0.76 | 0.81 |
最高层特征融合网络 | 0.86 | 0.81 | 0.83 |
本文方法检测文本示例图
本文提出了一种基于特征融合的深度神经网络, 该网络将高层特征与低层特征相融合, 利用网络高层的强语义特征增强低层输出层的语义信息, 使整个网络的输出层都具有较强的表达能力. 特征融合后的网络能在不同的输出层上预测不同尺度以及不同形状的文字. 本文在两个公开的数据集上验证了特征融合网络的性能, 实验结果表明本文提出的特征融合网络对小尺度的文字, 定位效果显著. 其中, 本文提出的最高层特征融合网络能取得最佳的检测效果, 具有较高的定位准确性和鲁棒性, 并优于常用的自然场景文本检测方法,
陈利. 车牌识别系统设计与实现. 现代电子技术, 2012, 35(15): 142–144.
胡二雷, 冯瑞. 基于深度学习的图像检索系统. 计算机系统应用, 2017, 26(3): 8–19.
王琦, 陈临强, 梁旭. 视频中的字幕提取. 计算机工程与应用, 2012, 48(5): 177–178, 216.
易尧华, 申春辉, 刘菊华, 等. 结合MSCRs与MSERs的自然场景文本检测. 中国图象图形学报, 2017, 22(2): 154–160, doi: 10.11834/jig.20170202.
Ren SQ, He KM, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149, doi: 10.1109/TPAMI.2016.2577031.
Yin XC, Yin XW, Huang KZ, et al. Robust text detection in natural scene images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 970–983, doi: 10.1109/TPAMI.2013.182.