Câu trả lời nhanh
Quick Answer
Có ba phương pháp thực tế để trích xuất dữ liệu MTC bằng AI: khớp mẫu dựa trên quy tắc (độ chính xác cao, yếu với bố cục mới), OCR cộng với xử lý hậu kỳ (phạm vi rộng, dễ bị lỗi trong bảng) và trích xuất dựa trên tầm nhìn LLM (linh hoạt, không phụ thuộc bố cục, yêu cầu điểm tin cậy và xem xét con người cho các trường hợp tuân thủ).
Chứng chỉ kiểm tra nhà máy mang đầy đủ bản sắc vật liệu của một lô thép, ống hoặc tấm: số lô, hóa học, kết quả kiểm tra cơ học, tiêu chuẩn được kiểm tra vật liệu, và tuyên bố chứng nhận của nhà máy. Nhập dữ liệu này vào ERP hoặc hệ thống chất lượng của bạn mà không cần nhập lại thủ công là vấn đề cốt lõi mà trích xuất MTC bằng AI giải quyết.
Hướng dẫn này phân tích ba phương pháp trích xuất chính, nơi mỗi phương pháp hoạt động tốt, và những gì trình phân tích cú pháp MTC cấp độ sản xuất thực sự yêu cầu.
Phương pháp 1: Khớp mẫu dựa trên quy tắc
Các trình phân tích cú pháp dựa trên quy tắc sử dụng các bản đồ tọa độ được xác định trước hoặc các mẫu regex được liên kết với bố cục nhà máy cụ thể. Nếu bạn biết nhà máy X luôn đặt tỷ lệ phần trăm carbon tại tọa độ (412, 318) trên trang một, bạn có thể trích xuất nó một cách xác định.
Khi hoạt động tốt:
- Mối quan hệ với một nhà cung cấp duy nhất với các định dạng tài liệu ổn định
- Luồng chứng chỉ khối lượng cao, định dạng giống hệt
- Môi trường nơi cần trích xuất 100% xác định và thay đổi bố cục là hiếm
Hạn chế:
- Mỗi nhà máy mới hoặc phiên bản mẫu mới yêu cầu bộ quy tắc mới
- Bất kỳ thay đổi bố cục nào cũng khiến trích xuất thất bại im lặng (không có tín hiệu tin cậy)
- Gánh nặng bảo trì tăng tuyến tính theo số lượng nhà cung cấp
- Thất bại hoàn toàn trên các tài liệu được quét
Đối với các tổ chức nhận MTC từ mười hoặc ít hơn nhà máy có định dạng ổn định, trích xuất dựa trên quy tắc là lựa chọn hợp lý chi phí thấp. Đối với các tổ chức có hàng chục nhà cung cấp, gánh nặng bảo trì trở nên cấm kỵ.
Phương pháp 2: OCR cộng với xử lý hậu kỳ
OCR truyền thống chuyển đổi hình ảnh tài liệu thành văn bản, sau đó các tập lệnh xử lý hậu kỳ áp dụng nhận dạng thực thể được đặt tên để tìm giá trị trường. Phương pháp này linh hoạt hơn phân tích dựa trên quy tắc vì nó xử lý các bố cục khác nhau thông qua NLP thay vì tìm kiếm tọa độ.
Đường ống thường trông như:
- Kết xuất PDF thành hình ảnh
- OCR (Tesseract, AWS Textract, Azure Form Recognizer)
- Chuẩn hóa văn bản
- Nhận dạng thực thể được đặt tên để xác định nhãn trường
- Logic liên kết giá trị để liên kết nhãn với giá trị
- Ánh xạ lược đồ
Đặc điểm độ chính xác:
- Các trường văn bản tự do (tên nhà máy, tham chiếu tiêu chuẩn): 90–95%
- Các cặp khóa-giá trị đơn giản: 88–94%
- Bảng thành phần hóa học: 75–88% (OCR thường mất cấu trúc bảng)
- Bảng tính chất cơ học nhiều cột: 70–85%
Điểm yếu cơ bản là OCR hoạt động trên các ký tự và mất ngữ cảnh không gian. Bảng thành phần hóa học có tám phần tử trên một hàng yêu cầu bộ xử lý hậu kỳ xây dựng lại các liên kết cột từ văn bản thô — một hoạt động dễ vỡ mà giảm đáng kể với các bố cục không chuẩn.
Phương pháp 3: Trích xuất dựa trên tầm nhìn LLM
Các mô hình ngôn ngữ lớn có khả năng nhìn thấy (mô hình vision-language, hay VLM) xử lý trang được kết xuất dưới dạng hình ảnh hoặc dưới dạng biểu diễn hình ảnh+văn bản hybrid. Không giống như các đường ống OCR, mô hình hiểu cấu trúc bảng từ trực quan — nó nhìn thấy rằng một cột các số rơi bên dưới tiêu đề "C%" và suy ra mối quan hệ mà không yêu cầu lớp OCR bảo tồn nó.
Cách trích xuất hoạt động trong thực tế:
- Trang PDF được kết xuất thành hình ảnh độ phân giải cao
- VLM nhận hình ảnh có lời nhắc có cấu trúc chỉ định lược đồ mục tiêu (heat_number, các phần tử hóa học, tính chất cơ học, tiêu chuẩn áp dụng, v.v.)
- Mô hình trả về một đối tượng JSON với các giá trị được trích xuất và điểm tin cậy từng trường
- Các trường tin cậy thấp được đánh dấu để xem xét con người
- Các giá trị được xác nhận được viết vào cơ sở dữ liệu cùng với tham chiếu tài liệu nguồn
Đặc điểm độ chính xác (PDF gốc):
- Các trường bảng thành phần hóa học: 93–97%
- Các trường tính chất cơ học: 94–98%
- Số lô/lô: 96–99%
- Tham chiếu tiêu chuẩn và cấp: 95–98%
Đặc điểm độ chính xác (MTC được quét, chất lượng tốt):
- Các trường bảng thành phần hóa học: 89–94%
- Các trường tính chất cơ học: 90–95%
Các nền tảng như TestCert triển khai phương pháp này với lược đồ nhận thức tiêu chuẩn, vì vậy các giá trị thành phần được trích xuất được so sánh ngay với các giới hạn ASTM hoặc EN được lưu trữ thay vì yêu cầu bước xác thực riêng biệt.
Xử lý các trường hợp khó
Chứng chỉ nhiều lô
Một số trung tâm dịch vụ thép phát hành một PDF duy nhất bao gồm nhiều lô. Trích xuất phải chia nhỏ tài liệu thành các phần theo lô trước khi áp dụng lược đồ trích xuất. Điều này yêu cầu một bước phân đoạn ban đầu xác định ranh giới lô — thường dựa trên sự xuất hiện của số lô hoặc các dấu phân cách hàng bảng.
Dữ liệu kiểm tra bổ sung
MTC cho các vật liệu thùng chứa áp suất thường mang các bài kiểm tra bổ sung (Charpy impact, hồ sơ PWHT, kết quả kiểm tra ăn mòn) trên các trang bổ sung. Trích xuất mạnh mẽ ánh xạ những điều này thành lược đồ dữ liệu bổ sung mở rộng thay vì loại bỏ chúng.
Chứng chỉ đa ngôn ngữ
Chứng chỉ EN 10204 từ các nhà máy châu Âu thường đến bằng tiếng Đức, Pháp hoặc Ý. Các trích xuất dựa trên LLM xử lý những điều này mà không có các mô hình ngôn ngữ riêng — mô hình cơ bản hiểu ngữ nghĩa trường trên các ngôn ngữ — mặc dù độ chính xác trên các ngôn ngữ ít phổ biến hơn giảm nhẹ.
Chú thích viết tay
Bất kỳ giá trị viết tay nào trên MTC in (phổ biến cho dấu kiểm tra viên hoặc sửa chữa trường) sẽ được chuyển hướng để xem xét con người. Các mô hình hiện tại xử lý văn bản được gõ và in bằng máy một cách đáng tin cậy; viết tay là một điểm suy giảm đã biết.
Những gì trình phân tích cú pháp MTC cấp độ sản xuất yêu cầu
Ngoài khả năng trích xuất thô, triển khai sản xuất yêu cầu:
- Điểm tin cậy từng trường — không phải là một điểm số cấp tài liệu duy nhất
- Định tuyến từ chối — tài liệu bên dưới ngưỡng chất lượng được giữ lại để nhập toàn bộ thủ công, không trích xuất từng phần
- Dấu vết kiểm toán — ai đã trích xuất, khi nào, những gì được đánh dấu, những gì đã sửa
- Lưu trữ tài liệu nguồn không thay đổi — PDF gốc được giữ lại cùng với bản ghi có cấu trúc
- Tích hợp xác thực tiêu chuẩn — các giá trị được trích xuất được kiểm tra so với các giới hạn tại thời điểm trích xuất, không phải hạ lưu
- Đầu ra Webhook hoặc API — các bản ghi được trích xuất được đẩy đến ERP/MES mà không có các bước xuất khẩu thủ công
Câu hỏi thường gặp
AI có thể trích xuất dữ liệu từ MTC được quét đã bị fax nhiều lần không?
Chất lượng giảm đáng kể với mỗi thế hệ fax. Tài liệu fax-of-a-fax thường rơi bên dưới ngưỡng độ phân giải hiệu quả 150 DPI nơi các mô hình nhìn thấy hoạt động một cách đáng tin cậy. Những tài liệu này sẽ được đánh dấu tự động và chuyển hướng để nhập thủ công. Yêu cầu PDF mới trực tiếp từ nhà máy luôn được ưu tiên nếu có thể.
AI xử lý các chứng chỉ có các trường tùy chỉnh hoặc không chuẩn như thế nào?
Các trích xuất dựa trên LLM có thể hiển thị các trường không được nhận dạng dưới dạng các cặp khóa-giá trị trong một thùng "dữ liệu bổ sung" thay vì loại bỏ chúng. Người xem xét sau đó có thể quyết định xem có ánh xạ giá trị vào trường lược đồ hiện có hay ghi lại nó dưới dạng siêu dữ liệu bổ sung. Các trình phân tích cú pháp dựa trên quy tắc chỉ loại bỏ các trường không được nhận dạng.
Độ chính xác trích xuất có cải thiện theo thời gian không?
Có, nếu hệ thống được thiết kế cho điều đó. Các sửa chữa của người xem xét sẽ được ghi lại và sử dụng định kỳ để tinh chỉnh mô hình trích xuất hoặc cập nhật ngưỡng tin cậy cho các định dạng nhà máy cụ thể. Các hệ thống xử lý mỗi tài liệu dưới dạng trích xuất mới mà không học từ các sửa chữa sẽ nhanh chóng đạt đến bảng.
Trích xuất MTC bằng AI hỗ trợ những định dạng tệp nào ngoài PDF?
PDF gốc và hình ảnh PDF được rasterized là những định dạng chính. Hầu hết các đường ống sản xuất cũng xử lý TIFF, JPEG và PNG cho các tài liệu được quét. MTC ở định dạng Excel (phổ biến từ một số nhà máy ở Châu Á) yêu cầu một con đường trích xuất riêng biệt đọc cấu trúc bảng tính trực tiếp thay vì kết xuất nó dưới dạng hình ảnh.
Làm cách nào tôi có thể xác thực rằng hóa học được trích xuất phù hợp với tiêu chuẩn báo cáo?
Trích xuất sẽ xuất ra cả giá trị được trích xuất thô và cờ vượt qua/thất bại so với tiêu chuẩn áp dụng. Điều này yêu cầu cơ sở dữ liệu tiêu chuẩn được lưu trữ và định phiên bản (giới hạn ASTM, EN, API, ASME theo cấp) được tích hợp với đường ống trích xuất. Nếu trích xuất chỉ xuất các giá trị thô, xác thực là một bước thủ công riêng biệt — phủ định hầu hết lợi ích tự động hóa.
Ready to automate your certificate workflow?
Try TestCert free