Skip to main content
Hướng dẫn·11 phút đọc·

Trích xuất chứng chỉ mục đơn hàng: Thách thức và giải pháp

Câu Trả Lời Nhanh

Quick Answer

Trích xuất chứng chỉ mục đơn hàng yêu cầu trình phân tích cú pháp phát hiện ranh giới bảng, liên kết tiêu đề cột với giá trị trên các hàng, phân đoạn nhiều lò hoặc mục dòng thành các bản ghi riêng biệt và xử lý ngắt trang giữa bảng—những thách thức làm hỏng các đường ống OCR đơn giản nhưng có thể giải quyết bằng các mô hình vision-language và lược đồ trích xuất có nhận thức về bảng.

Chứng chỉ kiểm tra nhà máy của một lò duy nhất là trường hợp trích xuất đơn giản nhất: một bộ giá trị hóa học, một bộ kết quả thử nghiệm cơ học, một số lò. Các luồng tài liệu trong thế giới thực hiếm khi sạch như vậy. Các trung tâm dịch vụ thép phát hành các chứng chỉ được hợp nhất bao gồm hàng chục lò. Các nhà máy cán thớt tính toán nhiều vị trí thử nghiệm trên một lò duy nhất. Các nhà sản xuất ống bao gồm cả hóa học thân và hàn trong các cột liền kề.

Trích xuất mục dòng đa hàng là nơi các trình phân tích cú pháp đơn giản thất bại và các kiến trúc trích xuất mạnh mẽ chứng minh giá trị của chúng.


Loại Tài Liệu Mục Dòng Đa Hàng

Hiểu các chế độ lỗi yêu cầu phân biệt giữa các cấu trúc tài liệu:

Loại 1: Chứng chỉ được hợp nhất đa lò Một PDF bao gồm nhiều số lò, mỗi cái có dữ liệu hóa học và thử nghiệm cơ học của riêng nó. Phổ biến từ các trung tâm dịch vụ thép và nhà phân phối phát hành lại chứng chỉ MTC của nhà cung cấp ở định dạng được hợp nhất. Cấu trúc điển hình: một bảng trong đó mỗi hàng là một lò riêng biệt.

Loại 2: Bảng thử nghiệm cơ học đa mẫu Một lò duy nhất có kết quả thử nghiệm mẫu nhiều (ví dụ: thử nghiệm tác động Charpy ở -20°C từ năm vị trí trên một tấm). Dữ liệu lò là số ít; chỉ bảng thử nghiệm cơ học có nhiều hàng.

Loại 3: Bảng hóa học đa phần tử có ghi chú Bảng hóa học tiêu chuẩn cộng với các phần tử bổ sung (boron, nitơ, dư lượng) trong bảng phụ trên cùng hoặc trang tiếp theo. Cả hai bảng đều thuộc về cùng một lò.

Loại 4: Chứng chỉ đa lò, đa trang Chứng chỉ được hợp nhất trong đó bảng kéo dài trên nhiều trang, với hàng tiêu đề cột chỉ xuất hiện trên trang đầu tiên.

Loại 5: Chứng chỉ đối sánh mục dòng đơn hàng mua Chứng chỉ bao gồm nhiều mục dòng PO, mỗi cái có các lớp vật liệu khác nhau, kích thước và các tham chiếu lò liên kết của chúng. Phổ biến trong các gói tài liệu dự án EPC.

Mỗi cấu trúc này yêu cầu một chiến lược trích xuất khác nhau.


Tại Sao Đường Ống OCR Thất Bại Trên Bảng Đa Hàng

Các quá trình OCR truyền thống xử lý một trang thành một luồng ký tự theo thứ tự đọc. Đối với bảng hóa học có 12 phần tử trên 8 hàng lò, OCR trả về một cái gì đó như:

C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...

Hàng tiêu đề được bảo toàn và các giá trị xuất hiện theo thứ tự. Nhưng đường ống xử lý hậu kỳ bây giờ phải:

  1. Xác định hàng nào là tiêu đề
  2. Liên kết mỗi giá trị trong mỗi hàng dữ liệu với tiêu đề cột của nó
  3. Phát hiện số lò xác định mỗi hàng
  4. Xử lý các trường hợp mà số lò nằm trong một cột trước riêng biệt hoặc trong một ô được hợp nhất

Lôgic liên kết cột này bị hỏng:

  • Bảng có các ô tiêu đề được hợp nhất (trải dài trên nhiều cột)
  • Bảng có tiêu đề phân cấp (nhóm chính + phần tử con)
  • Bảng trong đó chiều rộng cột thay đổi đáng kể
  • Bảng có các ô trống (không có bài kiểm tra nào được thực hiện cho phần tử đó)
  • Bảng có tham chiếu chú thích được nhúng trong các ô

Cách Các Mô Hình Vision-Language Xử Lý Cấu Trúc Bảng

Một VLM xử lý trang như một hình ảnh và hiểu cấu trúc bảng một cách trực quan. Nó thấy rằng tiêu đề cột trải dài trên độ rộng nhất định và các giá trị bên dưới chúng thuộc về các cột đó bất kể chuỗi ký tự theo thứ tự đọc. Mô hình có thể:

  • Xác định các ô tiêu đề được hợp nhất và áp dụng tiêu đề cho tất cả các cột phụ
  • Phát hiện các ô trống là "chưa được thử nghiệm" một cách rõ ràng thay vì các giá trị bị đọc sai
  • Nhận ra tiêu đề phân cấp (ví dụ: "Hóa học %" với tiêu đề phụ cho mỗi phần tử)
  • Liên kết các số lò trong cột ngoài cùng bên trái với mỗi hàng giá trị

Đối với bảng đa trang, mô hình cần xử lý rõ ràng của trường hợp ngắt trang: tiêu đề cột từ trang 1 phải được truyền lan đến các hàng dữ liệu trên trang 2 nơi chúng không xuất hiện. Điều này yêu cầu bối cảnh ở cấp độ tài liệu xử lý các trang theo chuỗi thay vì độc lập.


Phân Đoạn: Từ Bảng Đến Bản Ghi

Sau khi trích xuất bảng, hệ thống phải chia bảng thành các bản ghi riêng lẻ—một cho mỗi lò hoặc mục dòng. Bước phân đoạn này tách biệt về mặt logic với bước trích xuất trường và yêu cầu logic riêng của nó:

Phân đoạn dựa trên hàng: Mỗi hàng trong bảng là một bản ghi. Số lò trong cột đầu tiên là khóa chính. Đây là trường hợp phổ biến cho các chứng chỉ được hợp nhất đa lò.

Phân đoạn dựa trên nhóm: Nhiều hàng thuộc về cùng một lò (kết quả mẫu nhiều). Hệ thống phải phát hiện ranh giới nhóm—thường là một ô được hợp nhất hoặc số lò lặp lại—và tổng hợp các hàng thành một bản ghi lò duy nhất với một mảng lồng nhau cho dữ liệu đa mẫu.

Phân đoạn tham chiếu chéo: Các mục dòng tham chiếu đến các số lò xuất hiện ở nơi khác trong tài liệu (ví dụ: bảng danh sách đóng gói tham chiếu đến các số lò được tính toán trong phần hóa học riêng). Trích xuất yêu cầu tham chiếu chéo trong tài liệu để xây dựng các bản ghi hoàn chỉnh.

Các nền tảng như TestCert xử lý cả ba mẫu phân đoạn thông qua một đường ống trích xuất được điều khiển bởi lược đồ, trong đó mẫu phân đoạn có thể áp dụng được chọn dựa trên phân loại tài liệu khi tiếp nhận.


Xử Lý Ngắt Trang Trong Bảng Đa Trang

Trường hợp bảng đa trang phổ biến đối với các gói tài liệu dự án lớn. Cách tiếp cận chính xác:

  1. Phát hiện bảng trên trang 1, bao gồm tiêu đề cột và vị trí của chúng
  2. Phát hiện rằng bảng tiếp tục (thường thông qua nhãn "tiếp tục", cấu trúc cột khớp hoặc không có đường viền đóng)
  3. Lưu trữ ánh xạ tiêu đề cột từ trang 1
  4. Áp dụng ánh xạ đó cho các hàng dữ liệu trên các trang tiếp theo
  5. Xây dựng lại bảng hoàn chỉnh trước khi phân đoạn thành bản ghi

Các trích xuất xử lý các trang độc lập—một thiết kế phổ biến vì lý do chi phí—không thành công trong trường hợp này. Họ trích xuất trang 1 một cách chính xác và tạo ra các bản ghi không hoàn chỉnh hoặc hình thức sai cho các trang tiếp tục.


Xác Thực Sau Trích Xuất Đa Hàng

Mỗi bản ghi mục dòng được trích xuất phải được xác thực độc lập:

  • Kiểm tra tổng hóa học có vượt qua không? (Cacbon + Mangan + Silicon + ... phải hợp lý cho lớp được chỉ định)
  • Các giá trị cơ học có nằm trong giới hạn của tiêu chuẩn được chỉ định không?
  • Có số lò hiện diện và duy nhất trong lô không?
  • Các trường bắt buộc có được điền đầy đủ không? (Một số bảng đa lò bỏ qua các giá trị lặp lại để tóm tắt; các giá trị bị thiếu phải được gắn cờ, không phải được chấp nhận im lặng là không)

Xác thực ở cấp độ bản ghi, thay vì ở cấp độ tài liệu, ngăn chặn một lò hợp lệ che giấu các vấn đề ở các lò khác trên cùng một chứng chỉ.


Câu Hỏi Thường Gặp

Số lượng mục dòng tối đa mà công cụ trích xuất chứng chỉ có thể xử lý một cách đáng tin cậy là bao nhiêu?

Không có tối đa cố định, nhưng độ chính xác có xu hướng giảm với các bảng rất lớn (50+ hàng) do lỗi suy luận bố cục cộng dồn. Đối với các chứng chỉ được hợp nhất rất lớn, chia tài liệu theo trang hoặc phần trước khi trích xuất và hợp nhất kết quả sau đó sẽ cải thiện độ tin cậy. Thực tế, hầu hết các chứng chỉ MTC sản xuất có 1–20 lò trên mỗi tài liệu.

Hệ thống nên xử lý một mục dòng có hóa học bị thiếu cho một số phần tử như thế nào?

Các ô trống phải được ghi lại là null (không được thử nghiệm), không phải số không. Giá trị cacbon bằng không là vô nghĩa về mặt hóa học; null có nghĩa là phần tử không được yêu cầu bởi đặc tả hoặc chưa được thử nghiệm. Sự khác biệt này quan trọng khi bản ghi được sử dụng để xác thực tiêu chuẩn—null không nên kích hoạt lỗi "dưới mức tối thiểu".

Có thể trích xuất xử lý một chứng chỉ trong đó mỗi lò có một lớp áp dụng khác không?

Có, nếu lược đồ trích xuất hỗ trợ các trường tiêu chuẩn/lớp cho mỗi hàng. Một số chứng chỉ được hợp nhất chỉ định một lớp duy nhất cho tất cả các lò (đơn giản hơn); những chứng chỉ khác liệt kê các lớp khác nhau cho mỗi lò (phức tạp hơn). Công cụ trích xuất phải phát hiện mẫu nào áp dụng và ánh xạ tương ứng. Xác thực hạ lưu sau đó phải kiểm tra mỗi lò dựa trên lớp được chỉ định của nó, không phải lớp ở cấp độ tài liệu.

Điều gì xảy ra khi hàng tiêu đề bảng lặp lại giữa bảng (như một số công cụ chèn để phân trang)?

Các hàng tiêu đề lặp lại là một tạo tác PDF đã biết. Một công cụ trích xuất mạnh mẽ phát hiện và bỏ qua các hàng tiêu đề lặp lại trong phần thân dữ liệu thay vì coi chúng là hàng dữ liệu. Nội dung hàng khớp chính xác với mẫu tiêu đề cột phải được phân loại là tiêu đề và loại trừ khỏi trích xuất dữ liệu.

Tôi xử lý một chứng chỉ trong đó một số lò có dữ liệu thử nghiệm bổ sung và những lò khác không như thế nào?

Lược đồ trích xuất phải định nghĩa các trường thử nghiệm bổ sung là tùy chọn. Các lò có dữ liệu bổ sung điền vào các trường đó; các lò không có dữ liệu để trống null. Giao diện người xem xét phải làm cho sự hiện diện hoặc vắng mặt của dữ liệu bổ sung có thể nhìn thấy, để người xem xét có thể xác nhận rằng dữ liệu bổ sung bị thiếu phản ánh nội dung tài liệu thực tế thay vì bỏ qua trích xuất.

Ready to automate your certificate workflow?

Try TestCert free

Hướng Dẫn Liên Quan