빠른 답변
Quick Answer
AI 시험 인증서 추출은 대규모 언어 모델과 컴퓨터 비전을 사용하여 PDF 또는 스캔된 제강 시험 인증서를 구문 분석하고, 화학 성분, 기계적 특성, 열 번호 및 표준 참조를 구조화된 필드로 추출합니다 — 일반적으로 인간 검토 전 필드 수준 정확도 92–97%로 문서당 10초 이내에 완료됩니다.
제강 시험 인증서(MTC), 적합성 인증서(CoC) 및 NDE 보고서는 수백 개의 공급업체로부터 수십 가지 레이아웃으로 도착합니다. 두 제강소가 열 번호나 인장 결과를 같은 방식으로 형식화하지 않습니다. 수십 년 동안 QC 팀은 값을 수동으로 복사했습니다. AI 추출은 이 방정식을 바꾸지만 작동 방식을 이해하는 것이 준수 상황에서 출력을 신뢰할 수 있는지를 결정합니다.
이 가이드는 전체 파이프라인을 다룹니다: 원시 PDF에서 검증된 구조화된 레코드까지.
AI 인증서 추출이 실제로 하는 일
"AI 추출" 용어는 대부분의 플랫폼이 조용히 묶는 최소한 세 가지 고유한 기술 단계를 포함합니다:
1. 문서 분류 필드를 읽기 전에 시스템은 문서 유형을 식별합니다 — MTC, CoC, 용접 절차 적격성, 정수압 시험 보고서. 분류는 적용되는 추출 스키마를 결정합니다. 용접 PQR에 적용되는 일반 추출 스키마는 목표 스키마가 캡처하는 중요한 필드를 놓칩니다.
2. 레이아웃 분석 및 필드 감지 현대적 시각 언어 모델(VLM)은 렌더링된 페이지를 처리하여 테이블 구조, 다중 열 레이아웃 및 자유 텍스트 섹션을 식별합니다. 이것은 AI가 전통적인 OCR과 분기되는 지점입니다: OCR은 읽기 순서로 문자를 반환합니다; VLM은 화학 테이블의 "C%" 열 제목 아래 "0.18"이 무작위 숫자가 아닌 탄소 백분율임을 이해합니다.
3. 구조화된 필드 매핑
감지된 값은 정규 스키마로 매핑됩니다 — heat_number, chemical_composition.carbon, tensile_strength_mpa, yield_strength_mpa, elongation_pct, applicable_standard, certifying_mill 등. TestCert 같은 플랫폼은 표준 인식 스키마를 유지하므로 추출된 값을 별도의 단계 없이 즉시 ASTM, EN 또는 ASME 제한에 대해 검증할 수 있습니다.
추출 파이프라인 상세 설명
수집
PDF는 이메일 첨부, API 푸시 또는 공급업체 포털 업로드를 통해 도착합니다. 첫 번째 과제는 파일 품질입니다: 150 DPI로 스캔한 문서는 기본 PDF보다 눈에 띄게 나쁜 결과를 생성합니다. 대부분의 생산 파이프라인은 자동 품질 검사를 실행하고 추출이 시작되기 전에 저해상도 스캔에 플래그를 지워 수동 처리를 위해 남깁니다.
전처리
전처리에는 다음이 포함됩니다:
- 스캔 이미지의 기울기 바로잡기 및 명도 정규화
- 인증서 페이지를 표지 편지 또는 포장 목록과 분리하기 위한 페이지 분할
- 언어 감지(독일어 또는 프랑스어로 EN 10204 인증서를 발급하는 유럽 제강소와 관련)
추출 모델 선택
대부분의 엔터프라이즈급 파이프라인은 이중 모델 아키텍처를 사용합니다:
- 잘 구조화된 머신 생성 PDF(기본 PDF 텍스트 레이어 손상)를 위한 빠르고 가벼운 모델
- 스캔되거나 복잡한 레이아웃을 위한 더 무거운 비전 모델
PDF 유형에 따라 모델 간 라우팅은 정확도를 희생하지 않으면서 비용과 대기 시간을 줄입니다.
신뢰도 점수
추출된 모든 필드는 신뢰도 점수를 받습니다. 낮은 신뢰도 필드는 레코드에 조용히 기록되는 대신 인간 검토용으로 표시됩니다. 임계값은 구성 가능합니다 — 압력 용기 부품에 대한 수령 검사 팀은 상품 구조 강철을 수신하는 팀보다 낮은 신뢰도 임계값(더 많은 인간 검토)을 설정할 수 있습니다.
인간-in-the-loop 검토
표시된 필드는 나란히 보기에서 검토자에게 표시됩니다: 왼쪽에 원본 문서, 오른쪽에 추출된 필드. 검토자는 개별 값을 수정, 확인 또는 거부합니다. 수정 사항은 시간 경과에 따른 모델 개선으로 다시 피드됩니다. 이 단계는 규정 준수 관점 애플리케이션의 경우 선택 사항이 아닙니다 — AI 추출을 감사 가능하게 만드는 메커니즘입니다.
정확도: 숫자의 의미
AI 인증서 추출에 대한 공개 정확도 수치는 일반적으로 필드 수준에서 90%에서 98% 범위입니다. 컨텍스트는 중요합니다:
| 문서 유형 | 일반적인 필드 정확도 |
|---|---|
| 네이티브 PDF MTC(단일 열) | 95–98% |
| 스캔한 MTC(좋은 품질) | 91–95% |
| 스캔한 MTC(저품질/손으로 쓴 메모) | 80–90% |
| 다중 열 번들 인증서 | 88–94% |
| NDE 보고서(복잡한 레이아웃) | 85–92% |
"필드 정확도"는 추출된 값이 정답 값과 정확히 일치함을 의미합니다. 40필드 MTC에서 96% 필드 정확도는 인증서당 약 1.6개 필드가 수정 필요를 의미합니다. 인간-in-the-loop 검토 단계를 통해 데이터베이스에 도달하는 유효 오류율은 0에 가까워집니다 — 검토자가 표시된 모든 필드를 비판적으로 처리하도록 교육받은 경우.
AI 추출이 안정적으로 할 수 없는 것(아직도)
현재 제한 사항의 정직한 평가:
- 손으로 쓴 수정 사항: 인쇄된 인증서 위에 손으로 쓴 값도 강력한 시각 모델을 혼란스럽게 합니다. 이들은 항상 인간 검토로 라우팅되어야 합니다.
- 극도로 열화된 스캔: 심한 압축 아티팩트, 낮은 명도 또는 팩스 품질 문서는 정확도를 크게 낮춥니다.
- 명확한 레이블이 없는 비표준 단위: 제강소가 레이블 없이 인치당 인치로 신장을 보고하면 모델이 단위를 잘못 분류할 수 있습니다.
- 여러 페이지에 걸친 화학 테이블: 일부 제강소는 화학 테이블을 두 페이지로 나눕니다; 페이지를 독립적으로 처리하는 모델은 계속을 놓칠 수 있습니다.
- 인증 서명 검증: AI는 서명자 이름을 추출할 수 있지만 습식 또는 디지털 서명이 진정한지 확인할 수 없습니다.
통합 아키텍처
생산 배포의 경우 AI 인증서 추출은 다음과 통합됩니다:
- 문서 수집 — 이메일 구문 분석, 공급업체 포털, EDI 또는 API
- ERP / MES — 추출된 레코드를 REST webhook을 통해 SAP, Oracle 또는 사용자 정의 시스템으로 푸시
- 표준 검증 엔진 — 추출된 화학/기계 값을 저장된 ASTM/ASME/EN 제한과 비교
- 감사 로그 — 타임스탬프 및 사용자 신원과 함께 모든 추출 이벤트, 검토자 작업 및 필드 수정 기록
- 인증서 관리 저장소 — 추출된 레코드와 함께 원본 PDF의 불변 저장소
자동화가 경제적으로 타당할 때?
손익분기점은 문서 볼륨과 현재 노동 비용에 따라 달라집니다. 대략적인 모델:
- MTC당 평균 수동 입력 시간: 8–15분(조회, 검증, 파일링 포함)
- 평균 AI 추출 + 검토 시간: MTC당 1–3분
- 200 MTC/월에서, 이는 매월 복구된 25–35시간의 노동
- 2,000 MTC/월에서, 수학은 문서당 처리 비용이 있어도 자동화를 강력히 지지합니다
덜 명백한 비용은 오류 수정입니다. 수율 강도 값에서 소수점 누락은 규정 위반 자재가 검사를 통과하도록 할 수 있습니다. 재작업 이벤트 또는 현장 장애의 비용은 추출 소프트웨어 비용을 훨씬 초과합니다.
자주 묻는 질문
AI 추출은 구식 제강소의 스캔된 인증서에서 작동합니까?
예, 하지만 정확도는 스캔 품질에 따라 다릅니다. 기본 PDF(텍스트 레이어 손상)는 최상의 결과를 제공합니다. 스캔된 문서의 경우 기울기 바로잡기 및 명도 정규화와 같은 전처리 단계는 모델 성능을 크게 개선합니다. 매우 열화된 스캔(약 150 DPI 유효 이하)은 완전한 수동 검토로 표시되어야 합니다.
AI 추출은 다중 열 인증서를 어떻게 처리합니까?
다중 열 인증서 — 하나의 문서가 여러 열 번호를 다루는 — 추출하기 전에 인증서를 열별 섹션으로 분할하도록 모델을 요구합니다. 이는 더 어려운 레이아웃 문제 중 하나입니다. 이를 잘 처리하는 플랫폼은 명확한 다중 열 추출 스키마를 유지하고 각 열을 검토용 별도 레코드로 표시합니다.
추출된 데이터를 규제 준수 제출에 사용할 수 있습니까?
적절히 구현된 인간-in-the-loop 검토 단계 및 완전한 감사 추적을 통해 예. 원본 PDF 및 추출 이벤트 로그는 증거 체인을 구성합니다. 일부 규제 프레임워크(예: PED, ASME Section IX)는 어쨌든 원본 문서의 보존을 요구하므로 추출 레코드는 소스 문서를 대체하지 않고 보충합니다.
AI 추출에서 신뢰도 점수는 무엇입니까?
신뢰도 점수는 추출된 값이 올바를 확률에 대한 모델의 자체 보고된 확률입니다. 점수는 일반적으로 0–1 또는 0–100%로 표현됩니다. 구성된 임계값(일반적으로 0.85) 이하의 값은 인간 검토용으로 표시됩니다. 고위험 애플리케이션은 더 많은 필드를 검토자에게 라우팅하기 위해 낮은 임계값을 사용합니다; 고량, 낮은 위험 워크플로우는 더 높은 임계값을 사용할 수 있습니다.
문서당 AI 추출은 얼마나 오래 걸립니까?
표준 레이아웃의 기본 PDF MTC의 경우 추출은 일반적으로 5–15초 내에 완료됩니다. 복잡한 스캔 문서는 20–40초가 걸릴 수 있습니다. 인간 검토는 표시된 필드의 수와 형식에 대한 검토자의 친숙성에 따라 1–4분을 추가합니다.
Ready to automate your certificate workflow?
Try TestCert free