다중 라인 항목 인증서 추출: 과제 및 솔루션

빠른 답변

Quick Answer

다중 라인 항목 인증서 추출은 파서가 테이블 경계를 감지하고, 행 간에 열 헤더를 값과 연결하고, 여러 열 또는 라인 항목을 별개의 레코드로 분할하고, 테이블 중간의 페이지 나누기를 처리해야 합니다. 이는 단순 OCR 파이프라인을 격파하는 과제이지만 비전 언어 모델 및 테이블 인식 추출 스키마로 해결할 수 있습니다.

단일 열의 밀 테스트 인증서는 가장 간단한 추출 사례입니다: 화학 값 한 세트, 기계 테스트 결과 한 세트, 열 번호 하나. 실제 문서 흐름은 거의 그렇게 깨끗하지 않습니다. 강철 서비스 센터는 수십 개의 열을 포함하는 통합 인증서를 발급합니다. 판금 제조소는 단일 열에 여러 테스트 위치를 표로 작성합니다. 파이프 제조업체는 본체와 용접 화학을 나란히 배치한 열에 포함합니다.

다중 라인 항목 추출은 단순 파서가 실패하고 강력한 추출 아키텍처가 그 가치를 입증하는 곳입니다.

다중 라인 항목 문서의 유형

고장 모드를 이해하려면 문서 구조를 구분해야 합니다:

유형 1: 다중 열 통합 인증서 하나의 PDF가 여러 열 번호를 포함하며, 각각은 자체 화학 및 기계 테스트 데이터를 가집니다. 강철 서비스 센터 및 공급자 MTC를 통합 형식으로 재발급하는 유통업체에서 일반적입니다. 전형적인 구조: 각 행이 별개의 열인 테이블.

유형 2: 다중 샘플 기계 테스트 표 여러 테스트 샘플 결과가 있는 단일 열(예: 판 전체의 5개 위치에서 -20°C의 Charpy 충격 테스트). 열 데이터는 단수입니다; 기계 테스트 표만 여러 행을 가집니다.

유형 3: 주석이 있는 다중 요소 화학 표 표준 화학 표 + 보충 요소(붕소, 질소, 잔류물)가 동일하거나 다음 페이지의 보조 표에 포함됩니다. 두 표 모두 동일한 열에 속합니다.

유형 4: 다중 열, 다중 페이지 인증서 테이블이 여러 페이지에 걸쳐 있고 열 헤더 행이 첫 페이지에만 나타나는 통합 인증서입니다.

유형 5: 라인 항목 구매 주문 조정 인증서 여러 PO 라인 항목을 포함하는 인증서로, 각각 다른 재료 등급, 크기 및 관련 열 참조를 가집니다. EPC 프로젝트 설명서 패키지에서 일반적입니다.

이러한 각 구조는 다른 추출 전략이 필요합니다.

OCR 파이프라인이 다중 라인 표에서 실패하는 이유

기존 OCR은 페이지를 읽기 순서의 문자 스트림으로 처리합니다. 8개의 열 행에 걸쳐 12개의 요소가 있는 화학 표의 경우 OCR은 다음과 같은 결과를 반환합니다:

C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...

헤더 행은 보존되고 값이 순서대로 나타납니다. 하지만 후처리 파이프라인은 이제 다음을 수행해야 합니다:

어느 행이 헤더인지 식별
각 데이터 행의 각 값을 해당 열 헤더와 연결
각 행을 식별하는 열 번호 감지
열 번호가 별도의 이전 열에 있거나 병합된 셀에 있는 경우 처리

이 열 연결 로직은 다음에서 중단됩니다:

병합된 헤더 셀(여러 열에 걸친)이 있는 표
계층적 헤더(기본 그룹 + 하위 요소)가 있는 표
열 너비가 크게 다른 표
빈 셀이 있는 표(해당 요소에 대해 수행된 테스트 없음)
셀에 포함된 각주 참조가 있는 표

비전 언어 모델이 표 구조를 처리하는 방법

VLM은 페이지를 이미지로 처리하고 시각적으로 표 구조를 이해합니다. 열 헤더가 특정 너비에 걸쳐 있고 그 아래의 값이 읽기 순서의 문자 시퀀스와 관계없이 해당 열에 속한다는 것을 알 수 있습니다. 모델은 다음을 수행할 수 있습니다:

병합된 헤더 셀을 식별하고 모든 하위 열에 헤더 적용
빈 셀을 잘못된 읽기 값이 아닌 명시적 "테스트되지 않음"으로 감지
계층적 헤더 인식(예: "화학 %", 각 요소에 대한 부제목)
맨 왼쪽 열의 열 번호를 각 값 행과 연결

다중 페이지 표의 경우 모델은 페이지 나누기 케이스의 명시적 처리가 필요합니다: 페이지 1의 열 헤더는 페이지 2의 데이터 행으로 전파되어야 합니다(헤더가 나타나지 않는 곳). 이를 위해서는 페이지를 독립적으로 아닌 순서대로 처리하는 문서 수준의 컨텍스트가 필요합니다.

분할: 표에서 레코드로

표 추출 후 시스템은 표를 개별 레코드로 분할해야 합니다. 각 열 또는 라인 항목마다 하나. 이 분할 단계는 논리적으로 필드 추출 단계와 분리되어 있으며 자체 로직이 필요합니다:

행 기반 분할: 표의 각 행이 레코드입니다. 첫 번째 열의 열 번호가 기본 키입니다. 이는 다중 열 통합 인증서의 일반적인 경우입니다.

그룹 기반 분할: 여러 행이 동일한 열에 속합니다(여러 샘플 결과). 시스템은 그룹 경계(일반적으로 병합된 셀 또는 반복된 열 번호)를 감지하고 행을 단일 열 레코드로 집계하고 다중 샘플 데이터에 대한 중첩 배열을 포함해야 합니다.

교차 참조 분할: 라인 항목이 문서의 다른 곳에 나타나는 열 번호를 참조합니다(예: 포장 목록 표가 별개의 화학 섹션에서 표로 작성된 열 번호를 참조). 추출은 완전한 레코드를 작성하기 위해 문서 내에서 교차 참조를 필요로 합니다.

TestCert와 같은 플랫폼은 스키마 기반 추출 파이프라인을 통해 세 가지 분할 패턴을 모두 처리하며, 적용 가능한 분할 패턴은 섭취 시 문서 분류에 따라 선택됩니다.

다중 페이지 표의 페이지 나누기 처리

다중 페이지 표 사례는 대규모 프로젝트 설명서 패키지에서 일반적입니다. 올바른 방법:

페이지 1의 표 감지(열 헤더 및 해당 위치 포함)
표 계속 감지(일반적으로 "계속" 레이블, 일치하는 열 구조 또는 폐쇄 테두리 부재를 통해)
페이지 1의 열 헤더 매핑 저장
후속 페이지의 데이터 행에 해당 매핑 적용
레코드로 분할하기 전에 완전한 표 재구성

독립적으로 페이지를 처리하는 추출기는 비용 이유로 인한 일반적인 설계이며 이 경우 조용히 실패합니다. 페이지 1을 올바르게 추출하고 계속 페이지에 대해 불완전하거나 형식이 잘못된 레코드를 생성합니다.

다중 라인 추출 후 검증

추출된 각 라인 항목 레코드는 독립적으로 검증되어야 합니다:

화학 합계 확인이 통과합니까? (탄소 + 망간 + 규소 + ... 지정된 등급에 대해 타당해야 함)
기계 값이 지정된 표준의 한계 내에 있습니까?
열 번호가 존재하고 배치 내에서 고유합니까?
필수 필드가 입력되었습니까? (일부 다중 열 표는 간결함을 위해 반복된 값을 생략합니다; 누락된 값은 표시되어야 하며 조용히 0으로 수락되지 않아야 합니다)

문서 수준이 아닌 레코드 수준에서의 검증은 하나의 유효한 열이 동일 인증서의 다른 열의 문제를 숨기지 않도록 방지합니다.

FAQ

인증서 추출기가 안정적으로 처리할 수 있는 최대 라인 항목 수는 몇 개입니까?

고정 최대값은 없지만 누적 레이아웃 추론 오류로 인해 매우 큰 표(50+ 행)의 정확도가 감소하는 경향이 있습니다. 매우 큰 통합 인증서의 경우 추출 전에 페이지 또는 섹션별로 문서를 분할하고 나중에 결과를 병합하면 안정성이 향상됩니다. 실제로 대부분의 프로덕션 MTC는 문서당 1-20개의 열을 가집니다.

시스템이 일부 요소에 대한 화학이 누락된 라인 항목을 어떻게 처리해야 합니까?

빈 셀은 0이 아닌 null(테스트되지 않음)로 기록되어야 합니다. 0의 탄소 값은 화학적으로 무의미합니다; null은 요소가 사양에서 요구되지 않았거나 테스트되지 않았음을 의미합니다. 레코드가 표준 검증에 사용될 때 구분이 중요합니다. null은 "최소값 이하" 실패를 트리거하지 않아야 합니다.

각 열이 다른 적용 가능한 등급을 가진 인증서를 추출이 처리할 수 있습니까?

예, 추출 스키마가 행별 표준/등급 필드를 지원하는 경우. 일부 통합 인증서는 모든 열에 단일 등급을 지정합니다(더 간단함); 다른 것은 열별로 다른 등급을 나열합니다(더 복잡함). 추출기는 적용되는 패턴을 감지하고 그에 따라 매핑해야 합니다. 다운스트림 검증은 문서 수준 등급이 아닌 각 열을 자신의 지정된 등급에 대해 확인해야 합니다.

표 헤더 행이 표 중간에 반복되는 경우(일부 도구가 페이지 매김을 위해 삽입하는 경우)는 어떻게 됩니까?

반복된 헤더 행은 알려진 PDF 아티팩트입니다. 강력한 추출기는 데이터 행으로 취급하지 않고 데이터 본문의 반복된 헤더 행을 감지하고 무시합니다. 열 헤더 패턴과 정확히 일치하는 행 콘텐츠는 헤더로 분류되고 데이터 추출에서 제외되어야 합니다.

일부 열에는 보충 테스트 데이터가 있고 다른 열에는 없는 인증서를 어떻게 처리합니까?

추출 스키마는 보충 테스트 필드를 선택 사항으로 정의해야 합니다. 보충 데이터가 있는 열이 해당 필드를 채웁니다; 없는 열은 null을 남깁니다. 검토자 인터페이스는 보충 데이터의 존재 또는 부재를 표시해야 하므로 검토자는 누락된 보충 데이터가 추출 누락이 아닌 실제 문서 콘텐츠를 반영함을 확인할 수 있습니다.

Ready to automate your certificate workflow?

Try TestCert free