中等规模结构加工厂的来料检验流程是这样的:一辆卡车到达,驾驶员卸下一个包裹,其中包含物理工厂试验证书或一堆打印的PDF。收货员打开每份证书,找到炉号,将其输入到共享电子表格的单元格中,记下采购单号,然后继续下一个。在繁忙的收货日,这是40–60个炉号输入。这个过程需要大约90分钟。
这90分钟产生一个电子表格,其中的炉号可能正确也可能不正确。字母数字炉号的转录错误(例如,将"A2B347"打成"AB2347")是常见的,通常在几个月后炉号可追溯性查询失败时才被发现。有些证书是质量差的副本的副本。有些到达时旋转了90度。有些使用"Melt No."而其他使用"Heat No."或"Cast No."——相同的数据,不同的标签。
然后电子表格由其他人手动输入ERP系统,引入了第二个出错机会。原始PDF存档在按日期排列的文件夹中。如果以后有人需要查找特定的炉号,他们首先搜索电子表格,如果电子表格条目错误,则挖掘文件夹。
是什么让炉号提取困难(以及什么不是)
自动化炉号提取中的技术挑战是众所周知的:
字段标签变化。 不同的工厂对同一字段使用不同的标签。"Heat No."、"Heat Number"、"Melt No."、"Cast No."、"Charge No."和"HT#"都指代同一个东西。简单的OCR加关键词方法在它没有见过的变体上失败。基于AI的提取了解到这些标签在语义上是等价的,并提取相关的值,无论出现哪个标签。
文件布局变化。 工厂证书格式没有标准化。一些工厂使用带有标记单元格的表格布局。其他使用自由文本段落("来自炉号8A3291的材料被测试...")。有些按测试类型组织(化学部分、机械部分)。在一个工厂格式上训练的提取模型如果依赖于位置规则而不是语义理解,可能在另一个工厂的格式上完全失败。
扫描质量问题。 旋转的文件、低对比度的复印件和打印文本上的手写注释会产生OCR挑战。现代文档AI自动处理旋转,并在提取前应用图像预处理以改善对比度。清晰数字PDF和第三代复印扫描之间的准确性差距是真实的但可管理的——清晰文件上通常为95–97%的提取准确性,而降级扫描上为85–90%。
多炉号证书。 一些证书涵盖多个炉号——一种从线圈到板材的转换,其中证书引用原始线圈炉和板材生产炉,或涵盖多个采购单行项的组合证书。提取需要识别哪个炉号对应哪个行项目或产品,不仅仅是从文件中提取号码列表。
这些都不是未解决的问题。提取模型存在。OCR引擎处理扫描质量。问题是实施是否足够准确以用于生产。
实践中的准确率如何
对于来自大型工厂的高质量数字PDF,基于AI的炉号提取在炉号字段特别上达到97–99%的准确性。这比手动输入更好,手动输入在时间压力下输入字母数字代码的记录错误率为2–5%。
对于较低质量的扫描(复印传真传输、第三代副本),准确性下降到88–93%。在这个级别,对标记的低置信度提取进行人工审查步骤是合适的。系统提取它能有信心提取的内容,标记它不能提取的内容,并将标记的文件排队进行人工审查——这比整个到达量小得多。
人类加AI的组合工作流以更高的吞吐量实现比全手工更好的准确性:AI无需人工干预处理90–95%的文件,人工审查集中在AI不确定的5–10%。
下游对可追溯性和ERP链接的影响
炉号准确性不仅是数据质量问题。它是制造金属产品中材料可追溯性的基础。
当发生质量事件时——现场故障、客户投诉、召回——第一个问题是"这种材料来自哪个炉号?"如果ERP记录中的炉号错误,可追溯性查询失败。您无法识别从同一炉号制造的其他零件。您无法拉取原始证书来验证材料特性。您无法追溯到供应商或工厂进行纠正措施。
在压力容器、结构和管道制造中,炉号可追溯性不是可选的。ASME Section VIII、AWS D1.1和许多客户质量计划要求炉号被记录并通过制造记录可追溯到成品。基于手动输入的工厂证书存档系统产生可追溯性记录的可变准确性。错误是无声的——直到有人试图使用记录才会出现。
具有验证的自动化提取(提取的炉号在提取后针对证书PDF进行确认)创建与证书本身一样准确的记录。ERP记录和原始证书文件之间的链接是自动的,而不是依赖于某人将正确的PDF存档在正确的文件夹中。
每天90分钟的数据输入流程也变成了近实时的摄入:证书可以在收到后数分钟内处理,炉号在材料到达车间前进入ERP,可追溯性记录在制造开始前完成,而不是在事实之后组装。