Jawaban Cepat
Quick Answer
Ekstraksi sertifikat multi-item memerlukan parser untuk mendeteksi batas tabel, mengaitkan header kolom dengan nilai di seluruh baris, membagi beberapa batch atau item baris menjadi catatan yang berbeda, dan menangani jeda halaman di tengah tabel—tantangan yang mengalahkan pipeline OCR sederhana tetapi dapat ditangani dengan model vision-language dan skema ekstraksi yang menyadari tabel.
Sertifikat uji pabrik batch tunggal adalah kasus ekstraksi paling sederhana: satu set nilai kimia, satu set hasil uji mekanik, satu nomor batch. Aliran dokumen dunia nyata jarang sedemikian bersih. Pusat layanan baja mengeluarkan sertifikat terkonsolidasi yang mencakup puluhan batch. Pabrik pelat menentukan tabel beberapa lokasi pengujian pada satu batch. Produsen pipa menyertakan kimia badan dan las dalam kolom berdampingan.
Ekstraksi item multi-baris adalah tempat parser sederhana gagal dan arsitektur ekstraksi yang kuat membuktikan nilainya.
Jenis Dokumen Item Multi-Baris
Memahami mode kegagalan memerlukan membedakan antara struktur dokumen:
Tipe 1: Sertifikat terkonsolidasi multi-batch Satu PDF mencakup beberapa nomor batch, masing-masing dengan data kimia dan uji mekanik mereka sendiri. Umum dari pusat layanan baja dan distributor yang menerbitkan kembali sertifikat MTC pemasok dalam format terkonsolidasi. Struktur tipikal: tabel di mana setiap baris adalah batch terpisah.
Tipe 2: Tabel uji mekanik multi-sampel Satu batch dengan hasil uji sampel beberapa (misalnya, uji dampak Charpy pada -20°C dari lima lokasi di piring). Data batch adalah tunggal; hanya tabel uji mekanik yang memiliki beberapa baris.
Tipe 3: Tabel kimia multi-elemen dengan catatan Tabel kimia standar plus elemen tambahan (boron, nitrogen, residu) dalam tabel sekunder di halaman yang sama atau berikutnya. Kedua tabel termasuk batch yang sama.
Tipe 4: Sertifikat multi-batch, multi-halaman Sertifikat terkonsolidasi di mana tabel membentang beberapa halaman, dengan baris header kolom hanya muncul di halaman pertama.
Tipe 5: Sertifikat rekonsiliasi item baris pesanan pembelian Sertifikat mencakup beberapa item baris PO, masing-masing dengan lembaran material yang berbeda, ukuran, dan referensi batch terkait mereka. Umum dalam paket dokumentasi proyek EPC.
Setiap struktur ini memerlukan strategi ekstraksi yang berbeda.
Mengapa Pipeline OCR Gagal di Tabel Multi-Baris
Proses OCR tradisional memproses halaman menjadi aliran karakter dalam urutan pembacaan. Untuk tabel kimia dengan 12 elemen di atas 8 baris batch, OCR mengembalikan sesuatu seperti:
C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...
Baris header dipertahankan dan nilai muncul dalam urutan. Tetapi pipeline pasca-pemrosesan sekarang harus:
- Identifikasi baris mana yang merupakan header
- Kaitkan setiap nilai di setiap baris data dengan header kolom-nya
- Deteksi nomor batch yang mengidentifikasi setiap baris
- Tangani kasus di mana nomor batch berada di kolom sebelumnya yang terpisah atau di sel yang digabungkan
Logika asosiasi kolom ini putus pada:
- Tabel dengan sel header yang digabungkan (mencakup beberapa kolom)
- Tabel dengan header hierarki (grup utama + subelemen)
- Tabel di mana lebar kolom bervariasi secara signifikan
- Tabel dengan sel kosong (tidak ada pengujian yang dilakukan untuk elemen itu)
- Tabel dengan referensi catatan kaki yang disematkan dalam sel
Cara Model Vision-Language Menangani Struktur Tabel
VLM memproses halaman sebagai gambar dan secara visual memahami struktur tabel. Ia melihat bahwa header kolom mencakup lebar tertentu dan nilai di bawahnya termasuk dalam kolom tersebut terlepas dari urutan karakter dalam urutan pembacaan. Model dapat:
- Identifikasi sel header yang digabungkan dan terapkan header ke semua subkolom
- Deteksi sel kosong sebagai "tidak diuji" secara eksplisit daripada nilai yang salah dibaca
- Kenali header hierarki (misalnya, "Kimia %" dengan sub-header untuk setiap elemen)
- Kaitkan nomor batch di kolom paling kiri dengan setiap baris nilai
Untuk tabel multi-halaman, model memerlukan penanganan eksplisit dari kasus jeda halaman: header kolom dari halaman 1 harus disebarkan ke baris data pada halaman 2 di mana mereka tidak muncul. Ini memerlukan konteks tingkat dokumen yang memproses halaman secara berurutan daripada independen.
Segmentasi: Dari Tabel ke Catatan
Setelah ekstraksi tabel, sistem harus membagi tabel menjadi catatan individual—satu per batch atau item baris. Langkah segmentasi ini secara logis terpisah dari langkah ekstraksi bidang dan memerlukan logika-nya sendiri:
Segmentasi berbasis baris: Setiap baris dalam tabel adalah catatan. Nomor batch di kolom pertama adalah kunci primer. Ini adalah kasus umum untuk sertifikat terkonsolidasi multi-batch.
Segmentasi berbasis grup: Beberapa baris milik batch yang sama (hasil sampel beberapa). Sistem harus mendeteksi batas grup—biasanya sel yang digabungkan atau nomor batch berulang—dan mengagregasi baris menjadi catatan batch tunggal dengan array bersarang untuk data multi-sampel.
Segmentasi referensi silang: Item baris mereferensikan nomor batch yang muncul di tempat lain dalam dokumen (misalnya, tabel daftar kemasan mereferensikan nomor batch yang ditabelkan di bagian kimia terpisah). Ekstraksi memerlukan referensi silang dalam dokumen untuk membangun catatan lengkap.
Platform seperti TestCert menangani ketiga pola segmentasi melalui pipeline ekstraksi yang didorong skema, di mana pola segmentasi yang berlaku dipilih berdasarkan klasifikasi dokumen saat masuk.
Penanganan Jeda Halaman dalam Tabel Multi-Halaman
Kasus tabel multi-halaman umum untuk paket dokumentasi proyek besar. Pendekatan yang benar:
- Deteksi tabel di halaman 1, termasuk header kolom dan posisinya
- Deteksi bahwa tabel berlanjut (biasanya melalui label "lanjutan", struktur kolom yang cocok, atau tidak adanya perbatasan penutupan)
- Simpan pemetaan header kolom dari halaman 1
- Terapkan pemetaan itu ke baris data di halaman berikutnya
- Bangun kembali tabel lengkap sebelum segmentasi menjadi catatan
Ekstraktor yang memproses halaman secara independen—desain umum karena alasan biaya—gagal secara diam dalam kasus ini. Mereka mengekstrak halaman 1 dengan benar dan menghasilkan catatan yang tidak lengkap atau salah format untuk halaman kelanjutan.
Validasi Setelah Ekstraksi Multi-Baris
Setiap catatan item baris yang diekstrak harus divalidasi secara independen:
- Apakah pemeriksaan jumlah kimia lulus? (Karbon + Mangan + Silikon + ... harus masuk akal untuk mutu yang ditentukan)
- Apakah nilai mekanik berada dalam batas standar yang ditentukan?
- Apakah nomor batch hadir dan unik dalam batch?
- Apakah bidang yang diperlukan diisi? (Beberapa tabel multi-batch menghilangkan nilai yang diulang untuk singkatnya; nilai yang hilang harus ditandai, bukan diam-diam diterima sebagai nol)
Validasi pada tingkat catatan, bukan tingkat dokumen, mencegah satu batch yang valid menyembunyikan masalah di batch lain pada sertifikat yang sama.
Pertanyaan yang Sering Diajukan
Berapa jumlah maksimal item baris yang dapat ditangani oleh ekstraktor sertifikat dengan andal?
Tidak ada maksimal yang ditetapkan, tetapi akurasi cenderung menurun dengan tabel yang sangat besar (50+ baris) karena kesalahan kesimpulan tata letak kumulatif. Untuk sertifikat terkonsolidasi yang sangat besar, membagi dokumen menurut halaman atau bagian sebelum ekstraksi dan menggabungkan hasil setelahnya meningkatkan keandalan. Secara praktis, sebagian besar MTC produksi memiliki 1–20 batch per dokumen.
Bagaimana sistem harus menangani item baris dengan kimia yang hilang untuk beberapa elemen?
Sel kosong harus dicatat sebagai null (tidak diuji), bukan nol. Nilai karbon sama dengan nol tidak masuk akal secara kimia; null berarti elemen tidak diperlukan oleh spesifikasi atau tidak diuji. Perbedaan penting ketika catatan digunakan untuk validasi standar—null tidak boleh memicu kegagalan "di bawah minimum".
Dapat ekstraksi menangani sertifikat di mana setiap batch memiliki mutu yang berlaku berbeda?
Ya, jika skema ekstraksi mendukung bidang standar/mutu per baris. Beberapa sertifikat terkonsolidasi menentukan satu mutu untuk semua batch (lebih sederhana); yang lain mencantumkan mutu berbeda per batch (lebih kompleks). Ekstraktor harus mendeteksi pola mana yang berlaku dan peta sesuai. Validasi hilir kemudian harus memeriksa setiap batch terhadap mutu yang ditentukan sendiri, bukan mutu tingkat dokumen.
Apa yang terjadi ketika baris header tabel berulang di tengah tabel (seperti beberapa alat sisipkan untuk paginasi)?
Baris header yang diulang adalah artefak PDF yang dikenal. Ekstraktor yang kuat mendeteksi dan mengabaikan baris header yang diulang dalam badan data daripada memperlakukannya sebagai baris data. Konten baris yang cocok persis dengan pola header kolom harus diklasifikasikan sebagai header dan dikecualikan dari ekstraksi data.
Bagaimana cara saya menangani sertifikat di mana beberapa batch memiliki data pengujian tambahan dan yang lain tidak?
Skema ekstraksi harus menentukan bidang pengujian tambahan sebagai opsional. Batch dengan data tambahan mengisi bidang tersebut; batch tanpa meninggalkan null. Antarmuka pengulas harus membuat kehadiran atau ketidakhadiran data tambahan terlihat, sehingga pengulas dapat mengkonfirmasi bahwa data tambahan yang hilang mencerminkan konten dokumen aktual daripada pengabaian ekstraksi.
Ready to automate your certificate workflow?
Try TestCert free