使用Google的Tesseract和OpenCV构建光学字符识别（OCR）系统

2020-06-04 10:02

EAST具有U形网络。网络的第一部分包括在ImageNet数据集上训练的卷积层。下一部分是特征合并分支，该分支将当前特征图与上一阶段的未合并特征图连接在一起。然后是卷积层，以减少计算并生成输出特征图。最后，使用卷积层，输出是显示文本存在的得分图和几何图，几何图可以是旋转的框或覆盖文本的四边形，这可以从研究论文中包含的结构图像中直观地理解：

我强烈建议你亲自阅读本文（https：／／arxiv．org／abs／1704．03155），以更好地了解EAST模型。OpenCV从版本3．4开始包含EAST文本检测器模型，这使得实现自己的文本检测器变得超级方便。生成的本地化文本框可以通过Tesseract OCR传递以提取文本，这样你将拥有一个完整的OCR端到端模型。

使用TensorFlow对象的API进行文本检测的自定义模型TensorFlow Object API：https：／／github．com／tensorflow／models／tree／master／research／object＿detection构建文本检测器的最后一种方法是用使用了TensorFlow Object API的自定义文本检测器模型。它是一个开放源代码框架，用于为目标检测任务构建深度学习模型。要详细了解它，我建议先阅读下面这篇详细的文章。https：／／www．analyticsvidhya．com／blog／2020／04／build－your－own－object－detection－model－using－tensorflow－api／要构建你的自定义文本检测器，你显然需要一个包含很多图像的数据集，至少要多于100个；然后你需要对这些图像进行注释，以便模型可以知道目标对象在哪里并了解有关它的一切；最后，你可以从TensorFlow’s detection model zoo（https：／／github．com／tensorflow／models／blob／master／research／object＿detection／g3doc／detection＿model＿zoo．md）中根据性能和速度之间的权衡选择一种预训练的模型。你可以参考这个综合性的博客来构建你的自定义模型。博客：https：／／tensorflow－object－detection－api－tutorial．readthedocs．io／en／latest／training．html＃configuring－a－training－pipeline现在。训练可能需要一些计算，但是如果你真的没有足够的计算能力，请不要担心！你可以使用Google合作实验室满足所有要求！这篇文章（https：／／www．analyticsvidhya．com／blog／2020／03／google－colab－machine－learning－deep－learning）将教你如何有效地使用它。最后，如果你想往前走了一步，并建立一个最先进的YOLO文本探测器模型，该文章（https：／／www．analyticsvidhya．com／blog／2018／12／practical－guide－object－detection－yolo－framewor－python／）将是一个了解它的所有细节的敲门砖，是一个很好的入门教程！

尾注：在这篇文章中，我们讨论了OCR中存在的问题以及可以用来解决这项任务的各种方法。我们还讨论了这些方法的各种缺点，以及为什么OCR不像看起来那么容易！

<上一页 1 2 3