快速回答
Quick Answer
AI测试证书提取使用大型语言模型和计算机视觉来解析PDF或扫描的轧厂测试证书,将化学成分、机械性能、热号和标准参考提取到结构化字段中——通常在每份文件10秒内完成,人工审查前的字段级准确性为92-97%。
轧厂测试证书(MTC)、符合性证书(CoC)和NDE报告以数十种布局从数百个供应商到达。没有两家钢厂以相同的方式格式化热号或拉伸结果。几十年来,质量控制团队手动复制了这些值。AI提取改变了这个方程式——但理解它如何工作决定了你是否可以在合规背景下信任输出。
本指南涵盖完整的管道:从原始PDF到经过验证的结构化记录。
AI证书提取实际做什么
术语"AI提取"涵盖至少三个不同的技术步骤,大多数平台都沉默地捆绑在一起:
1. 文档分类 在读取任何字段之前,系统会识别文档类型——MTC、CoC、焊接程序鉴定、静水压试验报告。分类驱动应用哪个提取架构。应用于焊接PQR的通用提取架构会遗漏目标架构捕获的关键字段。
2. 布局分析和字段检测 现代视觉语言模型(VLM)处理渲染的页面,识别表格结构、多列布局和自由文本部分。这是AI与传统OCR分歧的地方:OCR按阅读顺序返回字符;VLM理解化学表中"C%"列标题下的"0.18"是碳百分比,而不是随机数。
3. 结构化字段映射
检测到的值映射到规范架构——heat_number、chemical_composition.carbon、tensile_strength_mpa、yield_strength_mpa、elongation_pct、applicable_standard、certifying_mill等。TestCert等平台维护一个标准感知架构,以便提取的值可以立即针对ASTM、EN或ASME限制进行验证,而无需单独步骤。
提取管道详解
摄入
PDF通过电子邮件附件、API推送或供应商门户上传到达。第一个挑战是文件质量:150 DPI扫描的文档产生的结果明显不如本机PDF。大多数生产管道都运行自动质量检查,并在提取开始前标记低分辨率扫描以供手动处理。
预处理
预处理包括:
- 扫描图像的歪斜校正和对比度归一化
- 页面分割以将证书页从封面信或包装清单中分离
- 语言检测(与发出EN 10204证书的欧洲轧厂以德语或法语相关)
提取模型选择
大多数企业级管道使用双模型架构:
- 用于结构良好的机器生成PDF(原生PDF文本层完整)的快速、轻量级模型
- 用于扫描或复杂布局的更重型视觉模型
基于PDF类型在模型之间路由可降低成本和延迟,而不会牺牲准确性。
置信度评分
每个提取的字段都会获得置信度分数。低置信度字段被标记用于人工审查,而不是无声地写入记录。阈值是可配置的——压力容器部件的收货检验团队可能会设置较低的置信度阈值(更多人工审查),而不是接收商品结构钢的团队。
人在回路审查
标记的字段呈现给审查者并排视图:左边是原始文档,右边是提取的字段。审查者纠正、确认或拒绝单个值。更正反馈到模型改进中。这一步对于合规关键应用来说并非可选的——它是使AI提取可审计的机制。
准确性:数字的含义
AI证书提取的已发布准确性数字通常在字段级别上从90%到98%不等。背景很重要:
| 文档类型 | 典型字段准确性 |
|---|---|
| 本机PDF MTC(单热) | 95–98% |
| 扫描的MTC(良好质量) | 91–95% |
| 扫描的MTC(质量差/手写笔记) | 80–90% |
| 多热捆绑证书 | 88–94% |
| NDE报告(复杂布局) | 85–92% |
"字段准确性"表示提取的值与真实值完全匹配。在40字段MTC上的96%字段准确性意味着每个证书大约有1.6个字段需要更正。通过人在回路审查步骤,到达数据库的有效错误率接近零——前提是审查者被培训对每个标记的字段进行关键处理。
AI提取目前无法可靠做什么(仍然)
诚实评估当前限制:
- 手写修订:手写在打印证书上的值甚至会让强大的视觉模型感到困惑。这些应该始终路由到人工审查。
- 极度降级的扫描:重压缩工件、低对比度或传真质量文件大大降低准确性。
- 没有明确标签的非标准单位:如果轧厂报告的伸长率为英寸每英寸而没有标签,模型可能会误分类该单位。
- 跨页化学表:某些轧厂将化学表分割到两页;独立处理页面的模型可能会错过延续。
- 认证签名验证:AI可以提取签署人的名字,但无法验证潮湿或数字签名是否真实。
集成架构
对于生产部署,AI证书提取与以下集成:
- 文档摄入 ——电子邮件解析、供应商门户、EDI或API
- ERP / MES ——提取的记录通过REST webhooks推送到SAP、Oracle或自定义系统
- 标准验证引擎 ——提取的化学/机械值与存储的ASTM/ASME/EN限制进行比较
- 审计日志 ——每个提取事件、审查者操作和字段更正都使用时间戳和用户身份记录
- 证书管理存储 ——原始PDF与提取记录的不可变存储
何时自动化在经济上有意义?
盈亏平衡点取决于文件量和当前劳动力成本。大致模型:
- 每个MTC的平均手动输入时间:8-15分钟(包括查找、验证、存档)
- 平均AI提取+审查时间:每个MTC 1-3分钟
- 在200 MTCs/月,这是每月恢复25-35小时的劳动力
- 在2,000 MTCs/月,数学强烈支持自动化,即使有每份文件处理成本
不太明显的成本是错误更正。产生强度值中的小数点遗漏可能导致不合格材料通过检查。返工事件或现场故障的成本远超提取软件的成本。
常见问题
AI提取可以处理来自较旧轧厂的扫描证书吗?
是的,但准确性因扫描质量而异。本机PDF(完整的文本层)产生最佳结果。对于扫描的文档,预处理步骤(如歪斜校正和对比度归一化)会显著改善模型性能。非常降级的扫描(低于~150 DPI有效)应标记为进行完整人工审查。
AI提取如何处理多热证书?
多热证书——其中一份文件涵盖多个热号——要求模型在提取前将证书分割为每个热部分。这是更难的布局问题之一。处理得好的平台维护显式的多热提取架构,并将每个热呈现为单独的审查记录。
提取的数据可用于监管合规提交吗?
通过正确实现的人在回路审查步骤和完整的审计跟踪,可以。原始PDF和提取事件日志构成证据链。某些监管框架(例如PED、ASME Section IX)无论如何都需要保留原始文件,所以提取记录补充而不是取代源文档。
AI提取中的置信度分数是什么?
置信度分数是模型自我报告的概率,即提取的值是正确的。分数通常表示为0–1或0–100%。低于配置的阈值(通常为0.85)的值被标记用于人工审查。高风险应用使用较低的阈值将更多字段路由到审查者;高容量、低风险工作流可能使用更高的阈值。
每份文件的AI提取需要多长时间?
对于具有标准布局的本机PDF MTC,提取通常在5–15秒内完成。复杂的扫描文档可能需要20–40秒。人工审查增加1–4分钟,具体取决于标记字段的数量和审查者对格式的熟悉程度。
Ready to automate your certificate workflow?
Try TestCert free