文字识别(Optical Character Recognition,OCR)作为 AI 领域发展较成熟的一种技术方向,已经在各种产业场景得到落地应用。除了文档电子化、卡证识别等典型的应用场景,还存在大量长尾场景,如工业场景的 PCB 文字识别、电表识别等。
然而在传统的图像关键信息抽取技术方案中,主要思路是先经过 OCR 文字识别,然后根据业务需求,设计一整套规则来提取若干关键信息。这样的做法有一些明显的缺点:
泛化能力差。图像中文字编排略有调整,可能就需要修改提取规则。
扩展能力差。新增规则复杂,关键信息字段与规则数量成正比,成本较高。
针对以上问题,飞桨推出基于文心大模型的全新解决方案 PP-ChatOCR——融合飞桨 PP-OCRv4和文心大模型,解决了传统方案泛化能力差,规则复杂等问题,实现从图片到关键信息抽取的端到端体验。目前,PP-ChatOCR 已正式上线飞桨 AI 套件 PaddleX!源码全部开放!您可以在 AI Studio 云端或者 PaddleX 本地端尽情探索!一方面可以发挥您的想象力修改 Prompt,另一方面您也可以在 PaddleX 中对 PP-ChatOCR 做训练微调。同时 PaddleX 还支持 PP-ChatOCR 的高性能部署,赶快尝试与真实业务场景结合,体验大模型时代下,PP-ChatOCR 所带来的生产力变革吧!
01
精彩直播预告
为了让广大开发者和企业更详细了解以及便捷地应用 PP-ChatOCR,百度高级研发工程师殷晓婷将于10月11日(今晚)20:30为大家带来一期精品课程,深度解析 PP-ChatOCR 相关特性及代码逻辑,更有基于 PP-ChatOCR 完成信息抽取应用二次开发的场景范例讲解。未来,我们也将持续为广大开发者和企业带来飞桨 AI 套件 PaddleX 中精选模型技术详解与场景范例,敬请期待!
扫描海报下方二维码,进群获取更多直播最新动态~
02
PP-ChatOCR 整体介绍
PP-ChatOCR 将 LLM(Large Language Model)与经典的 PP-OCR 模型结合,达到了通用场景下的图片关键信息抽取效果,支持身份证、银行卡、户口本、火车票等多种场景的关键信息提取。而图像关键信息提取的关键点在于对 OCR 识别结果的规则化处理。
▎产品优势
泛化能力强:只要 OCR 能顺利识别出来关键文字,PP-ChatOCR 理论上就能提取出关键信息,甚至少量的文字识别错误也能被 LLM 自动纠正!
扩展能力强:如果业务中需要额外提取新的字段信息,只需要修改一下 Prompt,就搞定了全部工作!
降低开发成本:基于强大的泛化、扩展能力,搭建一套通用图像关键信息抽取系统的开发成本大大降低。
▎技术原理
PP-ChatOCR 背后的工作原理仅仅是一套 OCR 模型和针对 LLM 的 Prompt 模板!
如上图所示,基于 PP-ChatOCR 的技术框架来完成一个范例的完整流程一般包含以下4个部分,具体来说:
OCR 推理。使用 OCR 模型对输入图像进行文字检测识别处理,这里 PP-ChatOCR 默认使用了 PP-OCR 系列的最高精度模型--PP-OCRv4_server,保证在速度不敏感的服务器端提供最准确的 OCR 识别结果。
场景判别。当前图像的场景属于以下场景列表的哪一种:【火车票】【身份证】【营业执照】...文心大模型基本可以做到100%的场景判别准确率。
Prompt 构造。在 Prompt 构造环节,由于我们要使用 few-shot learning 或者所谓的 in-context learning 的技巧,需要知道当前图像所属于的场景,所以正好用上第二步场景判别的结果。除了 few-shot learning 之外,通用的 PP-ChatOCR 暂时没有使用其它特别的技巧,仅仅是将任务要求描述清楚,让大模型输出 json 格式的结果,方便我们解析。
后处理。理想情况下大模型的输出结果应当是符合预期的 json。PP-ChatOCR 目前实现了 json 格式检查等后处理操作,在真实业务场景下,可以设置更多的后处理规则,以保证系统的可靠性。
注:如果您在一个明确的场景中使用 PP-ChatOCR,上述第二步场景判别过程是可以省略的,第三步的 few-shot learning 直接提供该场景下的例子即可。
▎应用效果
■ 体验链接
【PaddleX】PP-ChatOCR_AI应用-飞桨AI Studio星河社区
就这一套通用场景下的 PP-ChatOCR 技术方案,基于一个通用的 PP-OCRv4模型、一套共用的 Prompt 模板,没有增加复杂的前后处理逻辑,目前在12种图像场景中,已经达到了平均80%以上的精度。在一些相对简单的场景(例如身份证)中,精度可达97%。
▎经典案例
数链科技基于飞桨研发的 PP-ChatOCR,通过微调文字识别模型、优化信息提取指令、组合成适当的 prompt 等优化策略,实现了多页 PDF 合同扫描件的关键信息抽取,关键字段高精度识别抽取准确率稳定超越98%。当前,该技术已经赋能数链科技的核心客户,辅助风控提效80%,节省人力5人。
更多经典案例,持续沉淀中......
■ 详情请戳:
PP-ChatOCR:基于文心大模型的通用图像关键信息抽取利器,开发提效50%!
数链科技基于 PP-ChatOCR 实现合同信息抽取,准确率达98%
■ 相关地址直达:
PP-ChatOCR 所使用的 PP-OCRv4模型,目前已发布在 PaddleOCR 2.7新版本中,欢迎大家使用!
AI Studio 应用中心体验 PP-ChatOCR:【PaddleX】PP-ChatOCR_AI应用-飞桨AI Studio星河社区
飞桨 AI 套件 PaddleX 中的 PP-ChatOCR:PP-ChatOCR - 飞桨AI Studio星河社区
03
关于 PaddleX & 星河共创计划
除了可以更便捷地开发 AI 模型和应用外,PaddleX 还为企业提供了获取商业收益的机会。共创伙伴基于 PaddleX 开发出产业应用后,可以拟定应用价格,开放给其他用户购买,伙伴可获得相应收入分成。其他用户无需重新训练模型,可以直接通过接口完成数据输入和获取处理结果,避免重复开发,提升效率。
目前已有多个伙伴开放并上线相关应用。例如:数链科技加入星河共创计划,基于 PP-ChatOCR 将自研的合同信息抽取模型上线飞桨 AI Studio 星河社区,赋能更多有相同业务场景的客户和伙伴,上线一周内实现万元收入。通过星河共创计划,数链科技实现了行业痛点解决、业务落地、客户拓展和商业收入。如果您也有意愿共创基于 PaddleX 的产业应用,可以添加小助手,回复“共创”即可。
■ 相关地址直达:
1、【PaddleX 云端/本地端下载链接】:
https://aistudio.baidu.com/intro/paddlex
2、【PaddleX 官方频道】:
飞桨AI Studio星河社区-人工智能学习与实训社区
3、【PaddleX 共创方案】:
https://ai.baidu.com/ai-doc/AISTUDIO/pll1ysj35
4、【PaddleX 使用文档】:
https://ai.baidu.com/ai-doc/AISTUDIO/Zlisojzjs