OCR通用识别能力及场景识别能力的训练和服务
发布日期:2024/2/3 15:27:19 浏览量:
基于百度大规模图片语料数据训练的通用OCR基础模型,通过对用户扫描文档数据的调优训练,得到高精度文档OCR模型。OCR模型支持中英文两种语言,适配纯手写、纯印刷和手写印刷混排等多种场景。采用百度飞桨识别模型套件PaddleOCR,目标是打造丰富、领先、实用的文本识别模型/工具库。 PaddleOCR是基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统,基于人工标注、机器自动标注等手段得到的大规模版面标注数据,来训练目标检测模型,从而识别和定位印章、图表、段落、标题等元素信息,再使用百度知识增强的持续学习语义理解框架,借鉴文档理解预训练模型(Layout LM)的设计思想,在训练数据扩增、预训练任务设计、位置向量编码、模型结构等方面深入探索,充分结合文本内容、图像、空间位置等信息,实现文档智能分析,可以实现包括文字检测、文字识别、文本方向检测和图像处理等模块,具有高精度、多语种支持、高效性、易用性、鲁棒性等优点。
针对采购寻源、合同管理及履约等场景,项目一个完整的定制化OCR训练流程步骤如下:
(1)原始数据准备:根据项目需求场景准备需要OCR训练的原始资料。例如:身份证、营业执照、发票等原始资料的扫描电子文件等。
(2)打标工具标注:逐个检查每个图像的标注框是否正常,识别内容是否准确。如果发现标注框异常的,自行调整至正常,或者删除掉,重新手动标注,手动标注确认,重新识别后检测识别结果是否准确,如果错误,需要手动更正。确保标注框和识别结果准确无误后确认完成一个图像的标注。
(3)准备标注完成的数据集:首先,准备一个完成标注的数据集,该数据集包含了需要建模的序列数据。
(4)定义模型:在百度飞桨中,使用自定义一个 Transformer 模型。或者使用飞桨提供的 PaddleNLP 库中的 Transformer 模型,或者自定义 Transformer 模型。
(5)配置训练参数:在训练模型之前,定义训练参数,如学习率、批次大小、迭代次数等。
(6)训练模型:在训练参数配置好之后,使用百度飞桨提供的 Trainer 类来训练模型。在每次迭代中,Trainer 类将从数据集中获取一批数据,并使用定义的优化器和损失函数计算模型参数的梯度。最后,Trainer 类将使用反向传播算法更新模型参数。
(7)测试模型:训练结束后,使用测试数据集来评估模型的性能,计算模型的准确率、精度等指标。
(8)搭建API框架支撑项目前端应用自训练模型。选择FastAPI框架创建和部署API服务,FastAPI可以简单而快速构建精细和高性能API。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生