Catalog
  1. 1. EAST(Efficient and Accuracy Scene Text)
  2. 2. Advanced EAST
    1. 基于深度学习的视频文字检测技术
文字检测模型综述

1. EAST(Efficient and Accuracy Scene Text)

EAST由

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang. East: An efficient and accurate scene text detector, 2017. In CVPR.

实现思路:FCN全卷积网络+NMS非极大值抑制抑制算法

EAST模型结构简单,重点在于FCN全卷积神经网络和loss函数

注:原文-完全卷积网络、NMS合并阶段。 FCN直接生成文本区域,不包括冗余和耗时的中间步骤。 该算法易于生成字级或线级预测,其几何形状可以是旋转框或四边形,具体取决于具体应用。

FCN:图像被馈送到FCN,并且生成多个像素级文本得分图和几何通道。全卷积神经网络,特征提取、特征合并、输出三部分。

模型有FCN阶段(全卷积网络)、NMS阶段(非极大抑制)两个阶段,构建了三层,特征提取层、特征融合层、输出层。如图所示:

EAST模型示意图.jpg
  1. PVANet2x
  2. 定位旋转四边形

1、特征提取层

基于PVANet(一种目标检测的模型)作为网络结构的骨干,分别从stage1,stage2,stage3,stage4的卷积层抽取出特征图,卷积层的尺寸依次减半,但卷积核的数量依次增倍,这是一种“金字塔特征网络”(FPN,feature pyramid network)的思想。通过这种方式,可抽取出不同尺度的特征图,以实现对不同尺度文本行的检测(大的feature map擅长检测小物体,小的feature map擅长检测大物体)。这个思想与前面文章介绍的SegLink模型很像;

2、特征融合层

将前面抽取的特征图按一定的规则进行合并,这里的合并规则采用了U-net方法,规则如下:

  • 特征提取层中抽取的最后一层的特征图(f1)被最先送入unpooling层,将图像放大1倍
  • 接着与前一层的特征图(f2)串起来(concatenate)
  • 然后依次作卷积核大小为1x1,3x3的卷积
  • 对f3,f4重复以上过程,而卷积核的个数逐层递减,依次为128,64,32
  • 最后经过32核,3x3卷积后将结果输出到“输出层”

3、输出层

最终输出以下5部分的信息,分别是:

  • score map:检测框的置信度,1个参数;
  • text boxes:检测框的位置(x, y, w, h),4个参数;
  • text rotation angle:检测框的旋转角度,1个参数;
  • text quadrangle coordinates:任意四边形检测框的位置坐标,(x1, y1), (x2, y2), (x3, y3), (x4, y4),8个参数。

根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。

上述过程中,省略了其他模型中常见的区域建议、单词分割、子块合并等步骤,因此该模型的执行速度很快。

2. Advanced EAST

https://huoyijie.github.io/

对于视频中的敏感信息检测而言,检测的文字区域主要包括字幕,标题等之类的长文本信息,该类信息的形状一般为四边形,没有必要对文字区域形状进行弯曲处理改变,

针对上面第三点提到的EAST对于长文本检测不佳的问题,有人在参加天池 ICPR比赛的时候提出了 Advanced EAST,代码开源地址:https://github.com/huoyijie/AdvancedEAST, 该算法与EAST算法的改进如下:

该网络输出层一共7层feature map,分别是:

  • 1位score map, 表示图像中的一个pixel是否在文本框内;
  • 2位vertex code,表示一个pixel是否属于文本框边界像素以及是头还是尾;
  • 4位geo,是位于边界的pixel可以预测的2个顶点坐标,位于头部的pixel负责头部的两个顶点,位于尾部的pixel负责尾部的两个顶点。其中所有像素构成了文本框形状,然后只用边界像素去预测回归顶点坐标。边界pixel定义为黄色和绿色框内部所有像素,最后利用所有的边界pixel预测值的加权平均来预测头或尾两端的两个顶点。

https://saicoco.github.io/SNIP/

图中黄色区域表示文本的头,绿色表示文本的尾部,而红色区域表示文本区域。AdvancedEast算法在黄色区域与绿色区域分别预测到各自最近的两个角点的偏移。比如黄色区域中预测到文本上方两个点的偏移值(δxδx, δyδy), 绿色区域同理。

为什么这么做呢?原因在于原始的east中的每个像素预测到四条边的距离的时候会存在以下特殊情况:

当文本很长的时候,文本中的点预测距离值会超过网络的有效感受野的值,使得网络无法将该点与最远的边建立起关系,进而导致预测距离不准确,也就是我们常见的文本框的断裂。Advanced EAST很聪明,直接丢弃远距离的预测,近的点就预测离它近的角点。因为我们的最终目的是预测四个点,因此就把定位点的任务分配到了文本两端。

视频检测系统:

  1. 用户友好界面
  2. 视频爬取(忽略)
  3. 视频关键帧处理
  4. 文字检测
  5. 文字识别
  6. 文字情感分析(忽略)

基于深度学习的视频文字检测技术

  • 视频关键帧处理
    • 使用文字区域作为关注重点
    • 结合聚类算法与像素点等逻辑对帧画面的重复信息进行压缩筛选
  • 文字检测
    • YOLO+PixelLink:对检测性能有提升
  • 文字识别:
    • CRNN实现对中文、英文、数字等字符的识别
    • 性能指标:与图像文字识别相同,recall、precision、F-score
    • 本系统关注的指标偏重于性能方面,希望检测系统能在短时间做出迅速分析

文字识别目前较为通用于现实场景中,许多公司和实验室都对文字识别技术有较为深厚的研究,比较常见的应用有交通车辆检测,图片文字之间的转换等,但是文本识别技术已经达到了很好的效果,只是目前广泛应用的场景比较单一。

Donate
  • 微信
  • 支付寶

Comment