OCR通用识别能力及场景识别能力的训练和服务

发布日期：2024/2/3 15:27:19 浏览量：

基于百度大规模图片语料数据训练的通用OCR基础模型，通过对用户扫描文档数据的调优训练，得到高精度文档OCR模型。OCR模型支持中英文两种语言，适配纯手写、纯印刷和手写印刷混排等多种场景。采用百度飞桨识别模型套件PaddleOCR，目标是打造丰富、领先、实用的文本识别模型/工具库。 PaddleOCR是基于飞桨开发的OCR（Optical Character Recognition，光学字符识别）系统，基于人工标注、机器自动标注等手段得到的大规模版面标注数据，来训练目标检测模型，从而识别和定位印章、图表、段落、标题等元素信息，再使用百度知识增强的持续学习语义理解框架，借鉴文档理解预训练模型（Layout LM）的设计思想，在训练数据扩增、预训练任务设计、位置向量编码、模型结构等方面深入探索，充分结合文本内容、图像、空间位置等信息，实现文档智能分析，可以实现包括文字检测、文字识别、文本方向检测和图像处理等模块，具有高精度、多语种支持、高效性、易用性、鲁棒性等优点。

针对采购寻源、合同管理及履约等场景，项目一个完整的定制化OCR训练流程步骤如下：

（1）原始数据准备：根据项目需求场景准备需要OCR训练的原始资料。例如：身份证、营业执照、发票等原始资料的扫描电子文件等。

（2）打标工具标注：逐个检查每个图像的标注框是否正常，识别内容是否准确。如果发现标注框异常的，自行调整至正常，或者删除掉，重新手动标注，手动标注确认，重新识别后检测识别结果是否准确，如果错误，需要手动更正。确保标注框和识别结果准确无误后确认完成一个图像的标注。

（3）准备标注完成的数据集：首先，准备一个完成标注的数据集，该数据集包含了需要建模的序列数据。

（4）定义模型：在百度飞桨中，使用自定义一个 Transformer 模型。或者使用飞桨提供的 PaddleNLP 库中的 Transformer 模型，或者自定义 Transformer 模型。

（5）配置训练参数：在训练模型之前，定义训练参数，如学习率、批次大小、迭代次数等。

（6）训练模型：在训练参数配置好之后，使用百度飞桨提供的 Trainer 类来训练模型。在每次迭代中，Trainer 类将从数据集中获取一批数据，并使用定义的优化器和损失函数计算模型参数的梯度。最后，Trainer 类将使用反向传播算法更新模型参数。

（7）测试模型：训练结束后，使用测试数据集来评估模型的性能，计算模型的准确率、精度等指标。

（8）搭建API框架支撑项目前端应用自训练模型。选择FastAPI框架创建和部署API服务，FastAPI可以简单而快速构建精细和高性能API。

业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询： 如果您有业务方面的问题或者需求，欢迎您咨询！我们带来的不仅仅是技术，还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人：石先生/雷先生