중형 구조용 제작 회사의 입고 검사 프로세스는 이렇게 보입니다: 트럭이 도착하고, 운전자는 물리적 공장 증명서 또는 인쇄된 PDF 묶음을 포함하는 패키지를 내립니다. 수령 사원은 각 증명서를 열고, 열번호를 찾아서, 공유 스프레드시트의 셀에 입력하고, 구매주문 번호를 메모한 다음 다음 항목으로 넘어갑니다. 바쁜 수령 날에는 열번호 항목이 40–60개입니다. 이 프로세스는 약 90분이 걸립니다.

그 90분은 맞을 수도 있고 틀릴 수도 있는 열번호를 포함하는 스프레드시트를 생성합니다. 영숫자 열 코드의 필기 오류(예: "A2B347"을 "AB2347"로 입력)는 흔하고, 수개월 후 열번호 추적성 쿼리가 실패할 때까지 종종 발견되지 않습니다. 일부 증명서는 대비 문제가 있는 복사본의 복사본입니다. 일부는 90도 회전되어 도착합니다. 일부는 "Melt No."를 사용하고 다른 일부는 "Heat No." 또는 "Cast No."를 사용합니다 — 같은 데이터, 다른 라벨입니다.

그런 다음 스프레드시트는 다른 사람에 의해 수동으로 ERP 시스템에 입력되어 오류의 두 번째 기회를 만듭니다. 원본 PDF는 날짜별로 폴더에 보관됩니다. 나중에 누군가 특정 열번호를 찾아야 할 경우, 먼저 스프레드시트를 검색한 다음 스프레드시트 항목이 틀렸다면 폴더를 파고듭니다.

열번호 추출을 어렵게 만드는 것 (그리고 무엇은 아닌가)

자동화된 열번호 추출의 기술적 과제는 잘 이해되고 있습니다:

필드 라벨 변형. 다른 공장은 같은 필드에 다른 라벨을 사용합니다. "Heat No.", "Heat Number", "Melt No.", "Cast No.", "Charge No." 및 "HT#"은 모두 같은 것을 나타냅니다. 간단한 OCR 플러스 키워드 접근은 보지 못한 변형에서 실패합니다. AI 기반 추출은 이 라벨들이 의미론적으로 동등하다는 것을 배우고, 어느 라벨이 나타나든 상관없이 관련 값을 추출합니다.

문서 레이아웃 변형. 공장 증명서 형식은 표준화되지 않습니다. 일부 공장은 라벨이 있는 셀을 포함한 표 형식 레이아웃을 사용합니다. 다른 공장은 자유 텍스트 단락을 사용합니다 ("열번호 8A3291의 재료가 테스트되었습니다..."). 일부는 테스트 유형별로 구성합니다 (화학 섹션, 기계 섹션). 한 공장의 형식에서 훈련된 추출 모델이 위치 규칙이 아닌 의미 이해를 사용하지 않으면 다른 공장의 형식에서 완전히 실패할 수 있습니다.

스캔 품질 문제. 회전된 문서, 낮은 대비의 복사본, 인쇄 텍스트 위의 손글씨 주석은 OCR 과제를 만듭니다. 현대 문서 AI는 회전을 자동으로 처리하고, 추출 전에 이미지 전처리를 적용하여 대비를 개선합니다. 깨끗한 디지털 PDF와 3세대 복사본 스캔 간의 정확도 격차는 실제이지만 관리 가능합니다 — 깨끗한 문서에서는 일반적으로 95–97%의 추출 정확도, 열화된 스캔에서는 85–90%입니다.

다중 열번호 증명서. 일부 증명서는 여러 열번호를 다룹니다 — 원본 코일 열과 판 생산 열을 모두 참조하는 증명서인 코일에서 판으로의 변환, 또는 여러 구매주문 라인 항목을 다루는 결합 증명서. 추출은 어느 열번호가 어떤 라인 항목 또는 제품에 해당하는지 식별해야 하며, 문서에서 숫자 목록을 추출하는 것이 아닙니다.

이 중 어느 것도 해결되지 않은 문제가 아닙니다. 추출 모델이 존재합니다. OCR 엔진은 스캔 품질을 처리합니다. 문제는 구현이 프로덕션 사용에 충분히 정확한지 여부입니다.

실제로 정확도 비율은 어떤가

주요 공장의 고품질 디지털 PDF의 경우, AI 기반 열번호 추출은 열번호 필드에서 특별히 97–99%의 정확도를 달성합니다. 이는 시간 압력 아래 입력된 영숫자 코드에서 기록된 오류율이 2–5%인 수동 입력보다 낫습니다.

낮은 품질 스캔 (복사된 팩스 전송, 3세대 사본)의 경우 정확도는 88–93%로 떨어집니다. 이 수준에서 표시된 낮은 신뢰도 추출에 대한 인간 검토 단계가 적절합니다. 시스템은 자신감 있게 추출할 수 있는 것을 추출하고, 할 수 없는 것을 표시하고, 표시된 문서를 수동 검토를 위해 대기열에 넣습니다 — 이는 전체 도착 량보다 훨씬 작은 집합입니다.

인간 플러스 AI 결합 워크플로우는 더 높은 처리량으로 전체 수동보다 더 나은 정확도를 달성합니다: AI는 인간 개입 없이 90–95%의 문서를 처리하고, 인간 검토는 AI가 불확실한 5–10%에 집중됩니다.

추적성 및 ERP 연결에 대한 다운스트림 영향

열번호 정확도는 단순한 데이터 품질 문제가 아닙니다. 그것은 제조 금속 제품의 재료 추적성의 기초입니다.

품질 이벤트가 발생할 때 — 현장 장애, 고객 불만, 리콜 — 첫 번째 질문은 "이 재료는 어떤 열번호에서 나왔는가?"입니다 ERP 레코드의 열번호가 잘못되었다면 추적성 쿼리가 실패합니다. 같은 열번호에서 만든 다른 부품을 식별할 수 없습니다. 원본 증명서를 가져와 재료 특성을 확인할 수 없습니다. 공급업체 또는 공장으로 다시 추적하여 시정 조치를 취할 수 없습니다.

압력 용기, 구조 및 파이프라인 제작에서 열번호 추적성은 선택 사항이 아닙니다. ASME Section VIII, AWS D1.1 및 많은 고객 품질 계획은 열번호가 문서화되고 제작 레코드를 통해 완성된 제품까지 추적 가능해야 합니다. 수동 입력 기반의 공장 증명서 보관 시스템은 가변 정확도의 추적성 레코드를 생성합니다. 오류는 무음입니다 — 누군가 레코드를 사용하려고 할 때까지 나타나지 않습니다.

검증을 통한 자동화 추출 (추출된 열번호는 추출 후 증명서 PDF에 대해 확인됨)은 증명서 자체만큼 정확한 레코드를 만듭니다. ERP 레코드와 원본 증명서 문서 간의 링크는 올바른 폴더에 올바른 PDF를 보관할 누군가에 의존하기보다는 자동입니다.

일일 90분 데이터 입력 프로세스는 또한 거의 실시간 수섭으로 변합니다: 증명서는 수령 후 몇 분 내에 처리될 수 있고, 열번호는 재료가 작업장에 도달하기 전에 ERP에 있으며, 추적성 레코드는 제작이 시작되기 전에 완성되고 사실 이후에 조립되지 않습니다.

PDF에서 열번호 추출은 해결된 문제입니다. 당신의 팀만 아직 모를 뿐입니다.

열번호 추출을 어렵게 만드는 것 (그리고 무엇은 아닌가)

실제로 정확도 비율은 어떤가

추적성 및 ERP 연결에 대한 다운스트림 영향

다음에 읽을 내용