Процесс входящего контроля на среднем заводе по производству конструкционного проката выглядит так: приезжает грузовик, водитель выгружает пакет с физическими сертификатами завода или стопкой напечатанных PDF-файлов. Приёмщик открывает каждый сертификат, находит номер плавки, вводит его в ячейку общей электронной таблицы, записывает номер заказа и переходит к следующему. В оживленный день может быть 40–60 записей номеров плавки. Этот процесс занимает около 90 минут.
Эти 90 минут создают электронную таблицу с номерами плавки, которые могут быть правильными или нет. Ошибки перенесения в буквенно-цифровых кодах плавок (например, введение "A2B347" как "AB2347") — обычное дело и часто остаются незамеченными до месяцев спустя, когда запрос отслеживаемости плавки не удаётся. Некоторые сертификаты — копии копий с проблемами контрастности. Некоторые приходят повёрнутыми на 90 градусов. Одни используют "Melt No.", другие — "Heat No." или "Cast No." — одни и те же данные, разные обозначения.
Затем таблица вручную вводится в систему ERP другим человеком, создавая вторую возможность для ошибки. Оригинальные PDF-файлы архивируются в папке по датам. Если позже кому-то нужно найти конкретный номер плавки, он сначала ищет в таблице, а затем копается в папке, если запись в таблице неверна.
Что затрудняет извлечение номера плавки (и что нет)
Технические проблемы автоматизированного извлечения номера плавки хорошо понятны:
Вариативность обозначений полей. Разные заводы используют разные обозначения для одного поля. "Heat No.", "Heat Number", "Melt No.", "Cast No.", "Charge No." и "HT#" — всё это обозначает одно и то же. Простой подход OCR плюс ключевые слова не работает с вариантами, которые он не видел. ИИ-ориентированное извлечение узнаёт, что эти обозначения семантически эквивалентны, и извлекает связанное значение независимо от того, какое обозначение появляется.
Вариативность макета документа. Форматы сертификатов завода не стандартизированы. Одни заводы используют табличные макеты с помеченными ячейками. Другие используют произвольный текст ("Материал из плавки 8A3291 был протестирован..."). Некоторые организуют по типам испытаний (раздел химии, раздел механических свойств). Модель извлечения, обученная на одном формате завода, может полностью не работать на формате другого завода, если опирается на позиционные правила, а не на семантическое понимание.
Проблемы качества сканирования. Повёрнутые документы, копии с низким контрастом и рукописные примечания поверх печатного текста создают проблемы для OCR. Современный ИИ обработки документов автоматически работает с поворотом и применяет предварительную обработку изображения для улучшения контрастности перед извлечением. Разница в точности между чистым цифровым PDF и третьегопоколением сканированной копии реальна, но управляема — обычно 95–97% точности извлечения на чистых документах против 85–90% на деградированных сканах.
Многоплавочные сертификаты. Некоторые сертификаты охватывают несколько номеров плавок — преобразование от рулона к листу, где сертификат ссылается как на исходную плавку рулона, так и на плавку производства листа, или объединённый сертификат, охватывающий несколько позиций заказа. Извлечение должно определить, какой номер плавки соответствует какой позиции или продукту, а не просто извлечь список номеров из документа.
Ни одна из этих проблем не остаётся нерешённой. Модели извлечения существуют. Двигатели OCR работают с качеством сканирования. Вопрос в том, достаточно ли точна реализация для использования в промышленности.
Как выглядят уровни точности на практике
Для высококачественных цифровых PDF от крупных заводов извлечение номера плавки на основе ИИ достигает 97–99% точности в самом поле номера плавки. Это лучше, чем ручной ввод, который имеет задокументированный уровень ошибок 2–5% при вводе буквенно-цифровых кодов под давлением времени.
Для сканов более низкого качества (копировальные факсимильные передачи, копии третьего поколения) точность снижается до 88–93%. На этом уровне надлежащий этап проверки человеком для помеченных выборок с низкой уверенностью. Система извлекает то, что она может с уверенностью извлечь, помечает то, что не может, и ставит в очередь помеченные документы для ручной проверки — значительно меньшее множество, чем весь входящий объём.
Комбинированный рабочий процесс человека плюс ИИ достигает лучшей точности, чем полностью ручной, при большей пропускной способности: ИИ обрабатывает 90–95% документов без человеческого вмешательства, а проверка человеком сосредоточена на 5–10%, где ИИ не уверен.
Влияние на отслеживаемость и связь с ERP ниже по потоку
Точность номера плавки — это не просто вопрос качества данных. Это основание отслеживаемости материалов в обрабатываемых металлических изделиях.
Когда возникает событие качества — отказ в поле, жалоба клиента, отзыв — первый вопрос: "из какой плавки поступил этот материал?" Если номер плавки в записи ERP неправильный, запрос отслеживаемости не удаётся. Вы не можете определить, какие другие части были изготовлены из той же плавки. Вы не можете извлечь исходный сертификат для проверки свойств материала. Вы не можете отследить поставщика или завод для принятия корректирующих мер.
При производстве сосудов под давлением, конструкций и трубопроводов отслеживаемость плавки не является опциональной. ASME Section VIII, AWS D1.1 и множество планов качества клиентов требуют, чтобы номера плавок были задокументированы и отслеживаемы через запись о производстве к готовому продукту. Система архивирования сертификатов, основанная на ручном вводе, создаёт записи отслеживаемости с переменной точностью. Ошибки безмолвны — они не объявляют о себе до тех пор, пока кто-то не попытается использовать запись.
Автоматизированное извлечение с проверкой (извлечённый номер плавки подтверждается в отношении PDF-сертификата после извлечения) создаёт запись столь же точную, как сам сертификат. Связь между записью ERP и исходным документом сертификата автоматична, а не зависит от того, чтобы кто-то архивировал правильный PDF в правильной папке.
90-минутный процесс ввода данных в день также становится близко к реальному времени: сертификаты могут обрабатываться в течение минут после поступления, номера плавок находятся в ERP до того, как материал достигнет цеха, и запись отслеживаемости завершена до начала производства, а не собирается после факта.