Skip to main content
指南·11 分钟阅读·

AI磨试证数据提取:方法和权衡

快速答案

Quick Answer

AI MTC数据提取存在三种实用方法:基于规则的模板匹配(精度高,对新布局脆弱)、OCR加后处理(覆盖范围广,在表格上容易出错)和基于LLM的视觉提取(灵活、与布局无关、需要置信度评分和人工审查以确保合规)。

磨试证包含钢铁、管道或钢板的热件的完整物料身份:热号、化学成分、机械试验结果、所测试物料所符合的标准以及认证磨坊的声明。在不进行手动重新输入的情况下将这些数据输入到您的ERP或质量系统是AI MTC提取所解决的核心问题。

本指南分解了三种主要提取方法、每种方法的最佳适用场景以及生产级MTC分析器实际需要的内容。


方法1:基于规则的模板匹配

基于规则的分析器使用预定义的坐标映射或与特定磨坊布局绑定的正则表达式。如果您知道磨坊X总是将碳百分比放在第一页的坐标(412, 318),您可以确定性地提取它。

工作良好的情况:

  • 与单一供应商的关系且文档格式稳定
  • 高容量、相同格式的证书流
  • 需要100%确定性提取且布局变化罕见的环境

限制:

  • 每个新磨坊或新模板版本都需要一套新规则
  • 任何布局变化都会导致提取静默失败(无置信信号)
  • 维护负担随供应商数量线性增长
  • 在扫描的文档上完全失败

对于从十个或更少的磨坊接收MTC且格式稳定的组织来说,基于规则的提取是一个合理的低成本选择。对于与数十个供应商合作的组织来说,维护开销变得令人望而却步。


方法2:OCR加后处理

传统OCR将文档图像转换为文本,然后后处理脚本应用命名实体识别来查找字段值。这种方法比基于规则的解析更灵活,因为它通过自然语言处理而不是坐标查找来处理不同的布局。

管道通常看起来像:

  1. PDF渲染为图像
  2. OCR(Tesseract、AWS Textract、Azure Form Recognizer)
  3. 文本规范化
  4. 命名实体识别以识别字段标签
  5. 值关联逻辑以将标签链接到值
  6. 模式映射

精度特性:

  • 自由文本字段(磨坊名称、标准参考):90–95%
  • 简单键值对:88–94%
  • 化学成分表:75–88%(OCR经常丢失表格结构)
  • 多列机械属性表:70–85%

根本弱点是OCR在字符级别工作并丢失空间上下文。一个包含八个元素的化学成分表需要后处理器从原始文本重建列关联——这是一个脆弱的操作,对于非标准布局会显著降低精度。


方法3:基于LLM的视觉提取

具有视觉能力的大型语言模型(视觉语言模型或VLM)将渲染的页面作为图像或作为混合图像+文本表示处理。与OCR管道不同,该模型在视觉上理解表格结构——它看到一列数字位于"C%"标题下方并推断关系,无需要求OCR层保留它。

提取在实践中的工作方式:

  1. PDF页面被渲染为高分辨率图像
  2. VLM接收带有结构化提示的图像,指定目标模式(heat_number、化学元素、机械性能、适用标准等)
  3. 模型返回一个JSON对象,包含提取的值和每个字段的置信度分数
  4. 低置信度字段被标记为人工审查
  5. 确认的值被写入数据库并带有源文档引用

精度特性(本机PDF):

  • 化学成分表字段:93–97%
  • 机械属性字段:94–98%
  • 热号/批号:96–99%
  • 标准和等级参考:95–98%

精度特性(扫描MTC,高质量):

  • 化学成分表字段:89–94%
  • 机械属性字段:90–95%

TestCert等平台以标准感知模式实现这种方法,因此提取的化学成分值立即与存储的ASTM或EN限制进行比较,而不是需要单独的验证步骤。


处理困难情况

多热证书

一些钢铁服务中心发布涵盖多个热件的单个PDF。提取器必须在应用提取模式之前将文档分割成每热部分。这需要一个初始分割步骤来识别热边界——通常基于热号出现或表格行分隔符。

补充试验数据

压力容器材料的MTC通常在附加页面上带有补充试验(夏比冲击、PWHT记录、腐蚀试验结果)。一个强大的提取器将这些映射到一个可扩展的补充数据模式,而不是丢弃它们。

多语言证书

来自欧洲磨坊的EN 10204证书通常以德语、法语或意大利语到达。基于LLM的提取器可以处理这些,无需单独的语言模型——底层模型理解跨语言的字段语义——尽管在较少常见的语言上精度会略微降低。

手写注释

打印的MTC上的任何手写值(检查员印章或现场更正常见)应被转送进行人工审查。当前模型可靠地处理打字和机器打印的文本;手写是一个已知的降低点。


生产级MTC分析器需要什么

除了原始提取能力外,生产部署还需要:

  • 每个字段的置信度评分 — 不是单一的文档级分数
  • 拒绝路由 — 低于质量阈值的文档用于完整手动输入,而不是部分提取
  • 审计跟踪 — 谁提取、何时提取、标记了什么、纠正了什么
  • 不可变源文档存储 — 原始PDF与结构化记录一起保留
  • 标准验证集成 — 提取的值在提取时检查限制,而不是在下游检查
  • Webhook或API输出 — 提取的记录推送到ERP/MES,无需手动导出步骤

常见问题

AI能否从多次传真过的扫描MTC中提取数据?

质量随着每个传真代数显著降低。传真的传真文档通常低于150 DPI有效分辨率阈值,这是视觉模型可靠运行的地方。这些文档应自动标记并转送进行手动输入。尽可能从磨坊直接请求新PDF总是更可取的。

AI如何处理具有自定义或非标准字段的证书?

基于LLM的提取器可以将无法识别的字段作为"附加数据"桶中的键值对出现,而不是丢弃它们。审查者随后可以决定是将值映射到现有模式字段还是将其记录为补充元数据。基于规则的分析器只是丢弃无法识别的字段。

提取精度是否随时间改进?

是的,如果系统设计为此。审查者的修正应被记录并定期用于微调提取模型或更新特定磨坊格式的置信度阈值。将每个文档视为新提取而不从修正中学习的系统会快速达到平台。

AI MTC提取除PDF外还支持哪些文件格式?

本机PDF和栅格化PDF图像是主要格式。大多数生产管道也处理TIFF、JPEG和PNG以处理扫描的文档。Excel格式的MTC(来自亚洲某些磨坊的常见)需要一个单独的提取路径,直接读取电子表格结构而不是将其渲染为图像。

我如何验证提取的化学成分与报告的标准相匹配?

提取器应输出原始提取值和针对适用标准的通过/失败标志。这需要一个存储的、版本化的标准数据库(ASTM、EN、API、ASME按等级的限制)与提取管道集成。如果提取器仅输出原始值,验证是一个单独的手动步骤——否定了许多自动化好处。

Ready to automate your certificate workflow?

Try TestCert free

相关指南