当前位置: 首页>> 舆情简评 >>正文

自然场景文本识别

2020-02-24 15:37 作者:蚁坊软件研究院 浏览次数:5370 标签: 深度学习算法
"速读全网"舆情,了解传播路径,把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

这次分享的是场景更丰富、情形更复杂的自然场景ocr。核心算法将分为两部分介绍——文本检测和文本识别。不同于传统ocr,自然场景ocr的特点在于“场景”,我们需将文本从复杂的图片场景中独立出来,剔除场景的干扰,才能更快、更准地实现文本识别。故文本检测和文本识别是自然场景ocr端到端系统中两个必不可少的步骤。下面将由近期的ocr学习成果展开介绍。

一、文本检测算法

1.1 PSENet简介

现阶段的文本检测算法主要分为两大类:基于矩形边界盒与基于像素实例分割。但这两类算法面临着两大挑战:

(1)基于矩形边界盒的文本检测方法,很难将文本完全封闭在矩形中,即很难处理任意形状的文本。

(2)大多数基于像素实例分割的算法很难将彼此接近的文本实例分开。

为了解决上述问题,南京大学与南京理工大学提出了PSENet(渐进尺度扩展网络),是一种改良版的实例分割的算法。下面对三个典型的文本检测算法进行对比分析,这三个算法分别是:ctpn,一种基于矩形边界盒的算法;pixel_link,一种基于像素实例分割的算法;PSENet。

如图1.1,(a)为原图,(b)、(c)、(d)依次为ctpn、pixel_link、PSENet的识别效果。由图可见,ctpn的检测框为矩形,处理矩形文本尚可,但很难将弯曲变形文本框进来,容易丢失信息;pixel_link的检测框可以将弯曲文本框进来,但相邻文本并没有区分开,从而影响了识别效果;PSENet既能处理弯曲文本,又能很好地将相邻文本区分开。可见PSENet的优势。

注:PSENet论文地址:https://arxiv.org/pdf/1806.02559.pdf

1.2 PSENet算法整体流程

在FPN的启发下,将低层特征映射与高级特征映射连接起来,从而有四个级联的特征映射。这些映射在F中进一步融合以编码各种视图的信息。然后将特征映射F投影到n个分支中,以产生多个分割结果S1 ,S2 ,…,Sn。每个Si是所有文本实例在一定范围内的一个分割掩码。不同分割掩码的尺度由超参数来决定。这些掩码中,S1 给出了具有最小标度(即最小内核)的文本实例分割结果,而Sn表示原始分割掩码(即最大内核)。在获得这些分段掩码后,使用渐进扩展算法将S1 中的所有实例“内核”逐渐扩展到Sn中的完整形状,并获得最终的结果R。

算法流程简要概括,便是:原图——>下采样——>ResNet进行特征提取——>上采样——>特征融合成——>卷积网络,分割成n个特征图——>逐级拓展,得到最终检测结果。

1.3 渐进式规模扩展算法工作过程

渐进扩展算法的过程,用到了广度优先搜索(BFS)算法的思想。例如,我们有3个分割结果S=S1 ,S2 ,S3(即图1.3的(a),(e),(f))。首先,基于最小内核特征图S1 (图1.3(a)),4个不同的连接组件c=c1,c2,c3,c4(即4个检测框)可以作为初始化分割。图1.3(b)中不同颜色的区域分别表示这些不同的连接部件。到目前为止,已经检测到了所有文本实例的中心部分(即最小内核)。然后,我们通过合并S2 中的像素,然后在S3中逐步扩展检测到的内核。最后,我们在图中提取标有不同颜色的已连接组件作为文本实例的最终预测(即图1.3(d))。
图1.3(g)中展示了尺度扩展的过程。扩展基于广度优先搜索算法,该算法从多个核的像素开始,然后迭代地合并相邻的文本像素。注意,在展开过程中可能存在冲突的像素,如图1.3(g)中的红色框所示。在实践中处理冲突的原则是,混淆的像素只能在先到先得的基础上由一个单一内核合并。由于“渐进的”扩展过程,这些边界冲突不会影响最终检测和处理速度。

1.4 标签生成

生成不同尺度的内核,就需有标签的图像来进行训练。为了生成不同尺寸内核所对应的基本实例,作者采用Vatti裁剪算法将原始多边形pn缩放di个像素来得到pi,其中每个缩放的pi都是使用0/1的二进制掩码来表示分割后的标签。

1.5 损失函数

PSENet的损失函数见式(3)。Lc、Ls分别表示完整文本实例和收缩实例的损失,λ平衡Lc和Ls之间的重要性。在自然场景中,文本实例通常只占据极小的区域,若使用二值交叉熵,网络偏向于非文本区域,故采用dice coefficient。

二、文本识别算法

2.1 aster算法简介

通过文本检测“抠出”文本域后,便可以通过文本识别算法对文本域中的文本进行识别了。常见的文本识别算法面临两大挑战:

(1)大多数是基于水平文本行进行处理的,而处理弯曲文本行效果较差。

(2)大多数易受场景的干扰,场景文字识别效果较差。

为了解决上述问题,华中科技大学白翔老师团队提出了aster——一种具有柔性矫正功能的注意力机制场景文本识别方法。下面对两个典型的文本识别算法进行对比分析,这两个算法分别是densenet和aster。

如图2.1,(a)为原图(一张倾斜文本,一张完全文本),(b)为densenet的文本识别结果,(c)为aster-矫正网络的文本矫正结果,(d)为aster-识别网络的文本识别结果。由图2.1可见,densenet处理规则的倾斜文本效果尚可(倾斜文本旋转任意角度后便是水平文本),但处理弯曲文本的效果很差;相比之下,aster分为两步,它先通过矫正网络把弯曲文本矫正为规则文本,再进行识别,这样确实取得了很好的识别效果。可见aster的优势。

矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像。它以柔性薄板样条插值变换方法作为核心,该方法负责处理各种不规则文本,预测出TPS变换的参数后,并在无人为标注的情况下进行训练。

识别网络是一个基于注意力机制的Seq2Seq模型,它直接从矫正后的图像预测文本序列。整个模型进行端到端训练,只需要图像和它们的gt文本。通过大量的实验,验证了矫正网络的有效性,展现了aster识别规则与不规则的识别能力。此外,还证明了aster在端到端网络中的强大作用,它能够很好地增强文本识别的效果,使得水平方向文本识别器得以识别多方向文字。

2.2 矫正网络

矫正网络的核心是将图片空间矫正过程构建成可学习模型,流程如图2.2.1所示。先将输入图片下采样到Id,定位网络与格点生成器生成TPS变换的参数,再通过采样器生成矫正后的图片Ir。TPS(Thin Plate Spline)可对图片进行柔性变换,对于透视和弯曲这两种典型的不规则文字的矫正效果很好。

TPS插值法是指在对薄板中的N个点An形变到对应的N个点Bn时,采用的使得薄板弯曲能量最小的插值方法。弯曲变形能量小,意味着薄板整体的变形较为平滑,凹凸的部分被抹平了很多。此原理有点像物理学中的能量守恒定理,将空间的所有点移动到势能最低的面。对于二维的图片来说,采用弯曲能量最小的原则,意味着变形后的图像更加平滑,不易出现文字的扭曲变形。

如图2.2.2所示,定位网络分别由2个含有K个基准点的坐标集合组成。K个基准点的坐标用C表示,预测出的坐标用C'表示。定位网络由一个CNN网络预测出控制点坐标,并且在训练过程中无需任何坐标标注,只依赖识别网络的文本gt,完全由反向传播的梯度监督。

2.3 识别网络

弯曲文本通过aster矫正转换成了规则文本,实际上就能作为大部分识别网络的输入了。白翔老师团队使用了双向解码器扩展的seq2seq模型来解决识别问题。由于seq2seq模型的输出是由RNN生成的,因此它获取了字符依赖关系,从而将语言建模融入识别过程。此外,双向解码器可以在两个方向上捕获字符依赖关系,从而利用更丰富的上下文并提高处理速度。图2.3描述了单向版本的结构。根据经典的Seq2Seq模型,识别网络的模型由编码器和解码器组成。

(1)编码器结构为卷积循环神经网络,通过CNN提取特征图后,可以得到输入图像中比较鲁棒的,比较高级的特征图。这里会将这些特征图转化成一个序列,序列的长度就是特征图的宽度,并通过B-LSTM在两个方向上分析一个序列的独立性,并输出另一个同样长度的序列。这样一来,我们就得到了按照从左到右的顺序排列的特征向量。

(2)解码器部分中,seq2seq模型使用注意力机制计算权重,将特征序列转换为字符序列,并通过LSTM联系上下文,将字符序列按顺序依次输出。seq2seq模型能够输入和输出任意长度的序列。这种模型的序列建模能力强,并且能够获取输出依赖关系。要注意的是seq2seq模型是一个单向递归网络。

三、实验分析

3.1 实验分析

 针对上文介绍的几种算法,这里通过实验来直观地进行分析。一方面,由于本次实验用到的数据集基本为规则文本图片,另一方面,我这缺少大量的中文弯曲文本图片来训练矫正网络,即暂时没有处理中文弯曲文本的预训练模型,故将aster中的矫正网络拿掉,仅用aster的识别网络(基于attention的seq2seq模型)进行实验,从而减少处理时间。

(1)如表3.1测试集1的处理速度及结果所示,由于syn测试集是几乎没什么背景的单行文本图片,故在处理syn时基本上是跳过了文本检测步骤,直接使用识别网络进行识别。从表中可以发现densenet和基于attention的seq2seq模型的处理速度相近,densenet稍微快一点点;识别效果方面,seq2seq模型略优于densenet。综合比较两种识别算法效果相差不大。

(2)如表3.1测试集2的处理速度及结果所示,测试集2用到的是我自己收集200张复杂场景图片,数据来源于新浪微博配图,图片具有多行、场景复杂等特点,故检测网络起到了重要的作用。可见ctpn+densenet组合的处理速度要比PSENet的两个组合慢不少,故ctpn的检测性能要低于PSENet。此外,由于测试集2中的图片我目前没有打标记,故无法计算准确率,凭视觉来看三种组合算法的识别结果相近,均良好。

综上所述,PSENet检测算法+aster识别算法这个端到端组合,在性能和识别结果上达到了较好的折中,更适合投入到实际业务中去。

参考文献

[1] https://github.com/whai362/PSENet

[2] https://github.com/bgshih/aster

[3] https://github.com/YCG09/chinese_ocr

[4] https://blog.csdn.net/weixin_43624538/article/details/88630494

[5] https://cloud.tencent.com/developer/article/1484463


(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。电话:4006770986  邮箱:zhangming [at]eefung.com  负责人:张明)

热门文章 换一换
文章推荐换一换
舆情监测关注问题换一换
舆情监测公司排名 舆情分析 舆情管理 舆情监测系统 全网舆情监测系统 舆情监测 舆论 舆情监测平台 互联网舆情监测 舆情监控系统 舆情监测服务平台 热点舆情 网络舆情分析报告 舆论聚焦 中山大学张鹏 超强台风山竹 个人所得税起征点 微博传播分析 网红直播 手机舆情监测 做好舆情监控 舆情监测报价 网络热点事件 舆情搜索 舆情预警系统 近期舆情 舆情报告 舆情 免费舆情软件 舆情监测方案 舆情监测解决方案 舆情是什么意思 网络舆情监测 舆情案例分析 专业舆情监测 媒体舆情监测 药品安全事件 长春长生疫苗事件 洁洁良 乐清女孩 新浪微舆情 网络舆情分析报告 2019网络舆情事件 山东寿光水灾 社会舆情 舆情监测哪家好 舆情监测方法 舆情监测报价 新浪舆情 手机舆情监测 近期舆情 网红直播 舆情事件 免费舆情监测软件 社会舆情 网络舆情监测系统 舆情监测报告 舆情监测软件 网络舆情监测公司 互联网舆情监测系统 舆情监测分析 舆情监控前几大公司 网络舆情监控软件 网络舆情监控系统 舆情监控是什么意思 免费舆情监控 互联网舆情监控系统 网络舆情分析 舆情 政务舆情 什么是舆情 新华网舆情在线 舆情监控系统 互联网舆情分析 社区舆情信息 网络舆情信息 网络舆情分析系统 网络舆情管理 人民舆情监控 军犬网络舆情监控系统 舆情监控 涉警舆情 鹰击 鹰眼舆情
标签云 换一换
舆情平台 舆情监测软件排名 舆情治理 网络舆情治理 舆情预警 互联网舆情监测平台 舆情监测平台 舆情态势 舆论态势 舆情事件 舆情查询 农业舆情 农村舆情 属地舆情监测 互联网舆情分析 地方舆情 民生舆情 老年人保护舆情 社会事件舆情分析 舆情报告 舆情分析 网络舆情监测 舆情热点事件 旅游舆情 舆情风险 舆论风险防范 舆情风险监测 舆论监测软件 舆情系统 在线监测软件 舆情监测软件 新闻舆情 学校舆情 高校舆情 舆情汇总 网络舆论监测 教育舆情 行业舆情 消费舆情 妇女儿童舆情 网红直播 中国食品药品安全舆情事件案例 医疗舆情 网络热点事件 校园舆情 数据监测 舆情信息分析 舆情数据分析 政务舆情 舆情舆论汇总 突发公共事件 舆情周报 近期舆情 舆情研判 市场监管 AI舆情服务 舆情服务 大数据舆情 网络安全 蚁坊软件 社会舆情 舆情应对 舆情回应 舆情监测 舆情信息收集 网上舆情 安全生产 食品舆情 信息挖掘 舆情搜索 疫情舆情 涉稳舆情 公共事件舆情 社会舆论热点 航空舆情 开源情报工具 舆情监测报价 网络传播规律 舆情传播 传播路径分析 政府舆情 网络舆情监测系统 涉法舆情 检察舆情 涉警舆情 景区舆情 网络舆情分析系统 医院舆情 蚁坊 抗击疫情 疫情舆情分析 人工智能 舆情管理 社交媒体舆情 舆论监测 网络舆情 谣言传播 全网舆情监测 金融舆情 金融监督管理局 热点监测 财经金融舆情监测 舆情监测解决方案 舆情监测方案 应急舆情 网络社会热点舆情分析系统 灾害舆情 应急管理 舆情监测系统 免费舆情监测软件 免费大数据平台有哪些 互联网舆情监测系统哪家好 互联网舆情监测 2023年舆情分析报告 电力舆情 高考舆情 互联网舆情 网络综合治理 舆情研究 网络信息生态治理 政府舆情监测 舆情监测服务商 铁路舆情 舆情分析研判 交通舆情 辖区舆情监测 舆情服务商 如何网络舆情 能源舆情 企业舆情 政策舆情 危机公关 新媒体舆情 舆情告警 假期舆情 智慧城市 舆情案例 数据分析软件有哪些 网信办信息汇总 短视频 视频舆情监测 舆情监测哪家好 网络舆情网 乡镇舆情 税务舆情 舆情处置 互联网舆情监测系统 舆情监测预警 生态环境舆情 负面舆情 消防救援舆情 舆情案例分析 地震舆情 娱乐舆情 明星舆情 新媒体舆情监测 自媒体舆情监测 舆情监控前几大公司 社交新全媒体监测系统工具平台公司 法治舆情 司法舆情 法院舆情 网红舆情 23年舆情报告 公安舆情监测分析 公安类舆情 网络意识形态 在线舆情监测 涉毒舆情 科技舆情 鹰眼速读网 鹰击早发现 监狱舆情舆论 大数据分析工具 大数据舆情监测 做好舆情监控 政府舆情监测系统 大数据舆情分析 媒体舆情 媒体舆论 网络在线教学舆情 烟草舆情舆论 会议舆情 舆情监测方法 舆情预警系统 媒体监测 环境舆情 2024年报告 舆情专报 AI舆情监测服务 AI舆情监测服务平台 次生舆情 大数据服务平台 舆情分析服务 舆论反应 信息战 舆论战 舆论趋势 新闻舆论阵地管理 自媒体传播 自媒体乱象 女权舆论 性别矛盾 民族宗教舆情 宗教舆情 银行舆情 互联网舆情治理 2022年舆情报告 未成年人舆情 舆情引导 舆情日报 两会舆情 审计局 舆论失焦 政法舆情 网络实名制 舆情监督 奥运会 疫情搜索大数据 舆论知识点 新闻传播理论 新疆棉花 社会情绪指数 正面舆情 网络暴力 社会性死亡 辟谣 涉犬舆情 事件过程 鹰眼舆情 鹰击 清博大数据舆情 舆情格式 疫情舆情分析报告 抗疫英雄事迹舆情 虚假新闻 什么是舆情 2020年舆情报告 2020年舆情 深度学习算法 机器学习 舆论分析 舆情公关 虐童事件 反转新闻 网红 微舆情 微博传播分析 舆情监测工具 手机舆情监测 新浪舆情 新华舆情 2019网络热词 网络流行语 百度舆情监测 企业危机管理 315 网络舆情危机 网络舆情监测公司 互联网舆情监控系统 舆情是什么意思 德云社 网络舆论分析 大数据舆情监测案例 网络热词 微博数据分析 舆情监测公司 2019舆情热点 犯罪舆情 股票舆情 月度舆情分析 消防舆情 微信舆情监测 民航舆情 人物舆情 公益舆情 感动中国 影视舆情 舆论监督 2019舆情 2018舆情事件盘点 2018舆情报告 免费舆情监测系统 雾霾舆情 港澳台舆情 涉军舆情 拆迁舆情 舆情反转 反腐舆情 海外舆情 信息惠民 体育舆情 强拆舆情 舆情指数 环保舆情