光学字符识别(OCR)是指一种软件技术和流程,涉及到计算机检索的文本印刷文字翻译。
正确完成,OCR允许用户搜索和检索文件或网页内所载的个人说了算。另外,当一组文件的索引,用户可以搜索在整个文档库检索关键字和准确精度每一页。 OCR使用户能够在几秒钟内执行搜索,搜索,一旦可能需要几个小时或几天才能完成。
但是,这种技术并不能很好的工作在较旧的或质量差的文件,其中包含混合字体或文本和图形的组合。到现在为止!
由于最近的一些技术的进步,现在可以取得这些类型的文档集合六西格玛级人物的准确度。
虽然它是重要的是要记住,在质量和纸质文件的情况仍然在成功的OCR转换的关键因素,显着改善的结果可以得到增强扫描的图像质量的前处理。
边界噪声,去除斑点和倾斜,现在常见的较先进的文档扫描仪。
此外,先进的色彩过滤器技术,可用于降低多光图像采集技术的结合任何网页背景颜色,以消除任何页面折痕投下阴影,可能影响图像质量或识别的准确性。
一旦文档扫描和处理是完整的,一个OCR文字层实际上可以增加和每幅图像的背后隐藏的。另外一个方向过滤器可用于确保最佳的影像呈现给OCR引擎。
为了达到尽可能最高的转换精度,在图像处理中的字符可以使用多引擎排名技术,OCR投票每个字符以确定最佳的文本识别合适。然后,一旦一个词产生时,它会通过一个专有词汇过滤,以确保最高质量的结果。
更先进的文档扫描仪。此外,先进的色彩过滤器技术,可用于降低多光图像采集技术的结合任何网页背景颜色,以消除任何页面折痕投下阴影,可能影响图像质量或识别的准确性。
一旦文档扫描和处理是完整的,一个OCR文字层实际上可以增加和每幅图像的背后隐藏的。另外一个方向过滤器可用于确保最佳的影像呈现给OCR引擎。
为了达到尽可能最高的转换精度,在图像处理中的字符可以使用多引擎排名技术,OCR投票每个字符以确定最佳的文本识别合适。然后,一旦一个词产生时,它会通过一个专有词汇过滤,以确保最高质量的结果。
No comments:
Post a Comment