订阅
纠错
加入自媒体

什么是NLP?NLP的两个核心任务是什么?

2021-01-06 10:31
金翅创客
关注


如上图所示,左边的图是直接使用Faster RCNN中的RPN来进行候选框提取,可以看出,这种候选框太粗糙了,效果并不好。而右图是使用CTPN+RNN进行候选框提取,利用许多小候选框来合并成一个大文本预测框,可以看出这个算法的效果非常不错。

当然,CTPN也有一个很明显的缺点:对于非水平的文本的检测效果并不好。

3、SegLink

SegLink(CTPN+SSD):通常用于自然场景下,检测多角度文本。

【文献】Detecting Oriented Text in Natural Images by Linking Segments

上图的绿色框的检测效果才是我们的终极目标。那么怎么基于原来经典的目标检测算法做相应的优化以适应这种检测效果的要求呢?

SegLink采取了一个思路那就是:让模型再学习一个参数θ,这个θ表示文本框的旋转角度,也就是我们最终要回归的参数从原来的(x,y,w,h)变成(x,y,w,h,θ)。除此之外,SegLink还提出了Segment和Linking两个重要概念。

Segment可理解为文本行的任意一部分,一个完整的文本行中包含多个segment(上图黄色框)。每个segment用link(上图绿色线)连接组合起来。

4、EAST

EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS阶段完成检测。网络的简洁使得检测准确率和速度都有进一步提升。(针对自然场景下使用较多)。

【文献】EAST: An Efficient and Accurate Scene Text Detector

通过上图我们知道,一个文本检测有多个阶段,EAST的作者认为,一个文本检测算法被拆分成多个阶段其实并没有太多好处,实现真正端到端的文本检测网络才是正确之举。所以EAST的pipeline相当优雅,只分为FCN生成文本行参数阶段和局部感知NMS阶段,网络的简洁是的检测的准确性和速度都有了进一步的提高。

EAST网络分为特征提取层+特征融合层+输出层三大部分。EAST就是借助FCN架构直接回归出文本行的(x,y,w,h,θ)+置信度+四边形的四个坐标!非常简洁!当然还有其他检测算法,这里就不一一介绍啦。

学习链接:

https://www.cnblogs.com/skyfsm/p/9776611.html

04

自然场景文本识别

1、CNN+RNN+CTC(如CRNN):使用目前最为广泛的一种文本识别框架。需要自己构建字词库(包含常用字、各类字符等)。

【文献】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

【讲解及优化】

https://blog.csdn.net/qq_14845119/article/details/78934334

【开源代码】

https://github.com/solivr/tf-crnn

学习链接:

https://www.jianshu.com/p/5b4791189583

2、CNN(如Densenet)+CTC:资料不多,效果一般,泛化能力较差。没有加入了RNN的效果好。

【文献】暂未找到,可参考GitHub

3、Tesserocr(Tesseract):使用比较广泛的一种开源识别框架,支持多语言多平台。Tesseract在识别清晰的标准中文字体效果还行,稍微复杂的情况就很糟糕(多字体等),而且花费的时间也很多。

【文献】暂未找到,可参考GitHub

4、FOTS(EAST+CRNN):端到端OCR模型,检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别。

【文献】

FOTS: Fast Oriented Text Spotting with a Unified Network

【讲解】

https://blog.csdn.net/qq_14845119/article/details/84635847

5、ASTER:模型主要分为两个部分,一个是矫正模型,一个是识别模型。文本矫正模型,不需要任何矫正标注信息,对弯曲文本、透视文本有着很好的矫正效果。识别模型中的CNN使用了ResNet的结构,最后的解码部分使用的是Sequence2Sequence机制来进行解码,不同于CRNN的CTCLoss。

【文献】

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

在NLP的产品体系中,OCR是关于文档、文件处理的基础步骤,是无法回避和绕开的。

关于OCR的基础知识,也就成了NLP产品经理必不可少的知识储备了——只有详细地了解了关于OCR的处理原理和步骤,才能充分发挥现有技术的优势,规避其弱点,创造出更大的价值。

声明

欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号