文档抽取-自定义
文档抽取API支持在线调用:上传图片或PDF后,系统自动完成文字识别、版面分析与字段抽取, 返回结构化结果(文本内容与可选位置信息),便于检索归档与业务系统对接。
- 全文文本、标题章节与目录识别
- 关键字段提取(金额 / 日期 / 编号等)
- 多页PDF批量处理与多语种支持
面向文档数字化、医疗票据处理与报销对账等业务,支持多类型文档/单据结构化抽取,可按场景快速接入 API 或在线工具。
文档抽取API支持在线调用:上传图片或PDF后,系统自动完成文字识别、版面分析与字段抽取, 返回结构化结果(文本内容与可选位置信息),便于检索归档与业务系统对接。
针对表格文档与名片场景进行结构化抽取,支持字段映射与可编辑输出,方便线索管理、客户录入与资料归档。
面向 CT、MRI、超声、内镜等检查报告,提取检查所见、诊断结论、患者与就诊信息。
面向血常规、生化、免疫等检验单,重点还原检验项目表格与异常提示。
面向发票式、清单式收费票据,提取费用明细、金额与收费机构信息。
面向银行业务凭证场景,自动抽取账户、交易、金额与时间等关键信息,支持对账与财务归档。
面向出差报销与费用结算等场景,对各类交通发票进行结构化识别,统一提取金额、税额与出行信息,方便后续统计与对账。
面向非标准版式凭证场景,对消费小票、收款收据、送货单、费用清单与报销截图等进行通用结构化抽取, 保留票面原字段名并支持表格明细与多单据分组。




文档抽取是基于OCR识别技术之上的智能文档解析能力。传统OCR主要解决“图片转文字”问题, 而文档抽取API不仅可以完成PDF转文字,还可以自动识别标题、章节、表格结构、 关键字段(如金额、日期、编号)并输出结构化数据。
通过HTTP接口提交Base64或PDF文件,系统返回JSON格式结构化结果, 支持字段坐标与版面信息,方便企业系统对接。
通过文档抽取API接口上传PDF文件,系统自动完成OCR识别与结构化解析, 返回JSON格式文本内容及字段信息,支持多页批量解析。
支持合同编号、签署日期、金额、甲乙方信息等所有关键字段自动提取,可以自定义调整,适用于法务归档与合同管理系统对接。
支持JPG、PNG、WEBP等所有图片格式,以及多页PDF。建议图片清晰完整,分辨率不低于300DPI。
在线工具支持批量上传;API接口可按套餐支持更高并发与更大批量。
可选返回文本位置坐标(用于高亮/还原版面/定位字段)。
采用HTTPS加密传输,支持敏感信息脱敏处理,保障企业数据安全与合规。