什么是NLP？NLP的两个核心任务是什么？

2021-01-06 10:31

如上图所示，左边的图是直接使用Faster RCNN中的RPN来进行候选框提取，可以看出，这种候选框太粗糙了，效果并不好。而右图是使用CTPN＋RNN进行候选框提取，利用许多小候选框来合并成一个大文本预测框，可以看出这个算法的效果非常不错。

当然，CTPN也有一个很明显的缺点：对于非水平的文本的检测效果并不好。

3、SegLink

SegLink（CTPN＋SSD）：通常用于自然场景下，检测多角度文本。

【文献】Detecting Oriented Text in Natural Images by Linking Segments

上图的绿色框的检测效果才是我们的终极目标。那么怎么基于原来经典的目标检测算法做相应的优化以适应这种检测效果的要求呢？

SegLink采取了一个思路那就是：让模型再学习一个参数θ，这个θ表示文本框的旋转角度，也就是我们最终要回归的参数从原来的（x，y，w，h）变成（x，y，w，h，θ）。除此之外，SegLink还提出了Segment和Linking两个重要概念。

Segment可理解为文本行的任意一部分，一个完整的文本行中包含多个segment（上图黄色框）。每个segment用link（上图绿色线）连接组合起来。

4、EAST

EAST：采取FCN思路，做特征提取和特征融合，局部感知NMS阶段完成检测。网络的简洁使得检测准确率和速度都有进一步提升。（针对自然场景下使用较多）。

【文献】EAST： An Efficient and Accurate Scene Text Detector

通过上图我们知道，一个文本检测有多个阶段，EAST的作者认为，一个文本检测算法被拆分成多个阶段其实并没有太多好处，实现真正端到端的文本检测网络才是正确之举。所以EAST的pipeline相当优雅，只分为FCN生成文本行参数阶段和局部感知NMS阶段，网络的简洁是的检测的准确性和速度都有了进一步的提高。

EAST网络分为特征提取层＋特征融合层＋输出层三大部分。EAST就是借助FCN架构直接回归出文本行的（x，y，w，h，θ）＋置信度＋四边形的四个坐标！非常简洁！当然还有其他检测算法，这里就不一一介绍啦。

学习链接：

https：／／www．cnblogs．com／skyfsm／p／9776611．html

自然场景文本识别

1、CNN＋RNN＋CTC（如CRNN）：使用目前最为广泛的一种文本识别框架。需要自己构建字词库（包含常用字、各类字符等）。

【文献】An End－to－End Trainable Neural Network for Image－based Sequence Recognition and Its Application to Scene Text Recognition

【讲解及优化】

https：／／blog．csdn．net／qq＿14845119／article／details／78934334

【开源代码】

https：／／github．com／solivr／tf－crnn

学习链接：

https：／／www．jianshu．com／p／5b4791189583