빠른 답변
Quick Answer
AI MTC 데이터 추출을 위한 세 가지 실용적인 방법이 있습니다: 규칙 기반 템플릿 매칭(높은 정확도, 새로운 레이아웃에 취약), OCR 플러스 후처리(광범위한 적용 범위, 테이블에서 오류 발생하기 쉬움) 및 LLM 기반 비전 추출(유연함, 레이아웃 무관, 신뢰도 점수 및 규정 준수 사용 사례에 대한 인간 검토 필요).
밀 시험 인증서는 강철, 파이프 또는 플레이트의 열 배치의 완전한 물질 정체성을 포함합니다: 열 번호, 화학 성분, 기계 시험 결과, 물질을 시험한 표준, 및 인증 밀의 명시. 수동 재입력 없이 이 데이터를 ERP 또는 품질 시스템에 입력하는 것이 AI MTC 추출이 다루는 핵심 문제입니다.
이 가이드는 세 가지 주요 추출 방법, 각각이 잘 작동하는 경우 및 생산 수준의 MTC 파서가 실제로 필요한 것을 분석합니다.
방법 1: 규칙 기반 템플릿 매칭
규칙 기반 파서는 특정 밀 레이아웃에 연결된 미리 정의된 좌표 맵 또는 정규표현식 패턴을 사용합니다. 밀 X가 항상 첫 번째 페이지의 좌표(412, 318)에 탄소 백분율을 배치한다는 것을 알고 있다면 결정론적으로 추출할 수 있습니다.
잘 작동하는 경우:
- 안정적인 문서 형식의 단일 공급업체 관계
- 높은 볼륨, 동일 형식의 인증서 흐름
- 100% 결정론적 추출이 필요하고 레이아웃 변경이 드문 환경
제한 사항:
- 각각의 새로운 밀 또는 새로운 템플릿 버전에는 새로운 규칙 세트가 필요합니다
- 레이아웃 변경은 자동으로 추출을 실패시킵니다(신뢰도 신호 없음)
- 유지 관리 부담은 공급업체 수에 따라 선형적으로 확장됩니다
- 스캔된 문서에서 완전히 실패합니다
10개 이하의 밀에서 안정적인 형식의 MTC를 받는 조직의 경우, 규칙 기반 추출은 합리적인 저비용 선택입니다. 수십 개의 공급업체와 거래하는 조직의 경우, 유지 관리 오버헤드가 금지적이 됩니다.
방법 2: OCR 플러스 후처리
전통적인 OCR은 문서 이미지를 텍스트로 변환하고 후처리 스크립트는 명명된 엔티티 인식을 적용하여 필드 값을 찾습니다. 이 접근 방식은 좌표 조회보다는 NLP를 통해 다양한 레이아웃을 처리하기 때문에 규칙 기반 파싱보다 더 유연합니다.
파이프라인은 일반적으로 다음과 같이 보입니다:
- PDF를 이미지로 렌더링
- OCR(Tesseract, AWS Textract, Azure Form Recognizer)
- 텍스트 정규화
- 필드 레이블을 식별하기 위한 명명된 엔티티 인식
- 레이블을 값에 연결하기 위한 값 관련성 논리
- 스키마 매핑
정확도 특성:
- 자유 텍스트 필드(밀 이름, 표준 참조): 90–95%
- 간단한 키-값 쌍: 88–94%
- 화학 성분 테이블: 75–88%(OCR은 종종 테이블 구조를 손실함)
- 다중 열 기계 특성 테이블: 70–85%
근본적인 약점은 OCR이 문자에서 작동하고 공간 컨텍스트를 손실한다는 것입니다. 행에 걸쳐 8개 요소가 있는 화학 성분 테이블은 후처리자가 원본 텍스트에서 열 관계를 재구성하도록 요구합니다. 이는 비표준 레이아웃에서 크게 저하되는 취약한 작업입니다.
방법 3: LLM 기반 비전 추출
비전 기능이 있는 대규모 언어 모델(비전 언어 모델 또는 VLM)은 렌더링된 페이지를 이미지 또는 하이브리드 이미지+텍스트 표현으로 처리합니다. OCR 파이프라인과 달리, 모델은 시각적으로 테이블 구조를 이해합니다. 숫자 열이 "C%" 헤더 아래에 있고 OCR 계층이 보존할 필요 없이 관계를 추론합니다.
실제로 추출이 작동하는 방식:
- PDF 페이지는 고해상도 이미지로 렌더링됩니다
- VLM은 대상 스키마(heat_number, 화학 원소, 기계 특성, 적용 가능한 표준 등)를 지정하는 구조화된 프롬프트가 있는 이미지를 받습니다
- 모델은 추출된 값과 필드별 신뢰도 점수가 있는 JSON 객체를 반환합니다
- 낮은 신뢰도 필드는 인간 검토용으로 표시됩니다
- 확인된 값은 원본 문서 참조와 함께 데이터베이스에 기록됩니다
정확도 특성(기본 PDF):
- 화학 성분 테이블 필드: 93–97%
- 기계 특성 필드: 94–98%
- 열/배치 번호: 96–99%
- 표준 및 등급 참조: 95–98%
정확도 특성(스캔된 MTC, 우수한 품질):
- 화학 성분 테이블 필드: 89–94%
- 기계 특성 필드: 90–95%
TestCert와 같은 플랫폼은 표준 인식 스키마로 이 접근 방식을 구현하므로 추출된 화학 값은 즉시 저장된 ASTM 또는 EN 제한과 비교됩니다. 별도의 검증 단계가 필요하지 않습니다.
어려운 경우 처리
다중 열 인증서
일부 강철 서비스 센터는 여러 배치를 포함하는 단일 PDF를 발행합니다. 추출기는 추출 스키마를 적용하기 전에 문서를 배치별 섹션으로 분할해야 합니다. 이는 열 경계를 식별하는 초기 분할 단계가 필요합니다. 일반적으로 열 번호 발생 또는 테이블 행 구분자를 기반으로 합니다.
보충 시험 데이터
압력 용기 재료의 MTC는 종종 추가 페이지에 보충 시험(Charpy 충격, PWHT 기록, 부식 시험 결과)을 포함합니다. 견고한 추출기는 이를 폐기하지 않고 확장 가능한 보충 데이터 스키마에 매핑합니다.
다국어 인증서
유럽 밀의 EN 10204 인증서는 독일어, 프랑스어 또는 이탈리아어로 도착합니다. LLM 기반 추출기는 별도의 언어 모델 없이 이를 처리합니다. 기본 모델은 언어 간 필드 의미론을 이해합니다. 덜 일반적인 언어에서는 정확도가 약간 저하됩니다.
필기 주석
인쇄된 MTC의 모든 필기 값(검사자 스탬프 또는 현장 수정이 일반적)은 인간 검토로 라우팅되어야 합니다. 현재 모델은 타이핑되고 기계 인쇄된 텍스트를 안정적으로 처리합니다. 필기는 알려진 저하 지점입니다.
생산 수준 MTC 파서가 필요한 것
원본 추출 기능 이상으로, 생산 배포에는 다음이 필요합니다:
- 필드별 신뢰도 점수 — 단일 문서 수준 점수가 아님
- 거부 라우팅 — 품질 임계값 이하의 문서는 전체 수동 입력용으로 보류, 부분 추출 아님
- 감사 추적 — 누가 추출했는지, 언제, 무엇이 표시되었는지, 무엇이 수정되었는지
- 불변 원본 문서 저장 — 원본 PDF는 구조화된 기록과 함께 보존
- 표준 검증 통합 — 추출된 값은 추출 시점에 제한에 대해 검사되고, 다운스트림에서 아님
- Webhook 또는 API 출력 — 추출된 기록은 수동 내보내기 단계 없이 ERP/MES로 푸시됩니다
자주 묻는 질문
AI가 여러 번 팩스된 스캔된 MTC에서 데이터를 추출할 수 있습니까?
팩스 세대마다 품질이 크게 저하됩니다. 팩스의 팩스 문서는 종종 비전 모델이 안정적으로 수행하는 150 DPI 유효 해상도 임계값 이하로 떨어집니다. 이러한 문서는 자동으로 표시되고 수동 입력으로 라우팅되어야 합니다. 가능한 경우 항상 밀에서 직접 신선한 PDF를 요청하는 것이 바람직합니다.
AI가 사용자 정의 또는 비표준 필드가 있는 인증서를 어떻게 처리합니까?
LLM 기반 추출기는 인식되지 않는 필드를 폐기하지 않고 "추가 데이터" 버킷의 키-값 쌍으로 표시할 수 있습니다. 검토자는 값을 기존 스키마 필드에 매핑할지 또는 보충 메타데이터로 기록할지를 결정할 수 있습니다. 규칙 기반 파서는 단순히 인식되지 않는 필드를 폐기합니다.
추출 정확도가 시간이 지남에 따라 개선됩니까?
예, 시스템이 이를 위해 설계된 경우입니다. 검토자 수정은 기록되어야 하며 추출 모델을 미세 조정하거나 특정 밀 형식에 대한 신뢰도 임계값을 업데이트하는 데 정기적으로 사용되어야 합니다. 수정에서 배우지 않고 모든 문서를 새로운 추출로 취급하는 시스템은 빠르게 정체됩니다.
AI MTC 추출은 PDF 외에 어떤 파일 형식을 지원합니까?
네이티브 PDF 및 래스터화된 PDF 이미지는 기본 형식입니다. 대부분의 생산 파이프라인은 스캔된 문서용으로 TIFF, JPEG 및 PNG도 처리합니다. Excel 형식의 MTC(아시아의 일부 밀에서 일반적)는 이를 이미지로 렌더링하기 보다는 스프레드시트 구조를 직접 읽는 별도의 추출 경로가 필요합니다.
추출된 화학이 보고된 표준과 일치하는지 확인하려면 어떻게 해야 합니까?
추출기는 원본 추출 값과 적용 가능한 표준에 대한 통과/실패 플래그를 출력해야 합니다. 이는 추출 파이프라인과 통합된 저장되고 버전이 지정된 표준 데이터베이스(등급별 ASTM, EN, API, ASME 제한)가 필요합니다. 추출기가 원본 값만 출력하는 경우, 검증은 별도의 수동 단계입니다. 이는 자동화 혜택의 대부분을 무효화합니다.
Ready to automate your certificate workflow?
Try TestCert free