Skip to main content
Kılavuzlar·7 dk okuma·

Çok Satırlı Öğe Sertifikası Çıkarma: Zorluklar ve Çözümler

Hızlı Cevap

Quick Answer

Çok satırlı öğe sertifikası çıkarma, ayrıştırıcının tablo sınırlarını algılaması, sütun başlıklarını satırlar genelinde değerlerle ilişkilendirmesi, birden fazla ısıyı veya satır öğesini ayrı kayıtlara bölmesi ve tablonun ortasında sayfa sonlarını işlemesi gerektirir—basit OCR ardışık düzenlerini yok eden zorluklar, ancak vizyon-dil modelleri ve tablo farkında çıkarma şemaları ile çözülebilir.

Tek ısılı değirmen test sertifikası en basit çıkarma durumudur: bir kimya değerleri seti, bir mekanik test sonuçları seti, bir ısı numarası. Gerçek dünya belge akışları nadiren bu kadar temizdir. Çelik hizmet merkezleri düzinelerce ısıyı kapsayan konsolidasyonlu sertifikalar çıkarır. Levha değirmenleri, tek bir ısı genelinde birden fazla test yerini tablolama. Boru üreticileri, gövde ve kaynak kimyasını yan yana sütunlara dahil eder.

Çok satırlı öğe çıkarma, basit ayrıştırıcıların başarısız olduğu ve güçlü çıkarma mimarisinin değerini kanıtladığı yerdir.


Çok Satırlı Öğe Belgelerin Türleri

Arıza modlarını anlamak, belge yapılarını ayırt etmeyi gerektirir:

Tür 1: Çok ısılı konsolidasyonlu sertifika Bir PDF, kendi kimya ve mekanik test verileri ile birden fazla ısı numarasını kapsar. Çelik hizmet merkezleri ve tedarikçi MTC'lerini konsolidasyonlu biçimde yeniden yayınlayan distribütörler tarafından yaygındır. Tipik yapı: her satırın ayrı bir ısı olduğu tablo.

Tür 2: Çok numune mekanik test tablosu Birden fazla test örneği sonucu olan tek ısı (örneğin, plakanın beş konumundan -20°C'de Charpy darbe testleri). Isı verisi tekil; yalnızca mekanik test tablosu birden fazla satıra sahiptir.

Tür 3: Notlarla çok elementli kimya tablosu Standart kimya tablosu artı ek elementler (bor, azot, kalıntılar) aynı veya sonraki sayfadaki ikincil bir tabloda. Her iki tablo da aynı ısıya aittir.

Tür 4: Çok ısılı, çok sayfalı sertifika Tablonun birden fazla sayfaya yayıldığı ve sütun başlığı satırının yalnızca ilk sayfada göründüğü konsolidasyonlu sertifika.

Tür 5: Satır öğesi satın alma siparişi uzlaştırma sertifikası Birden fazla PO satır öğesini kapsayan sertifika; her birinin farklı malzeme dereceleri, boyutları ve ilgili ısı referansları. EPC proje dokümantasyon paketlerinde yaygındır.

Bu yapıların her biri farklı bir çıkarma stratejisi gerektirir.


OCR Ardışık Düzenleri Çok Satırlı Tablolarda Neden Başarısız Olur?

Geleneksel OCR, sayfayı okuma sırasında bir karakter akışında işler. Sekiz ısı satırı genelinde 12 elementli kimya tablosu için OCR şuna benzer bir şey döndürür:

C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...

Başlık satırı korunur ve değerler sırasıyla görünür. Ancak ön işleme ardışık düzeni şimdi:

  1. Hangi satırın başlık olduğunu belirle
  2. Her veri satırındaki her değeri karşılık gelen sütun başlığı ile ilişkilendir
  3. Her satırı tanımlayan ısı numarasını algıla
  4. Isı numarasının ayrı bir önceki sütunda veya birleştirilmiş hücrede olduğu durumları işle

Bu sütun ilişkilendirme mantığı şu durumlarda kırılır:

  • Birleştirilmiş başlık hücreleri (birden fazla sütuna yayılan) olan tablolar
  • Hiyerarşik başlıkları (ana grup + alt öğe) olan tablolar
  • Sütun genişlikleri önemli ölçüde değişen tablolar
  • Boş hücreler (o öğe için test yapılmadı) olan tablolar
  • Hücrelere gömülü dipnot referansları olan tablolar

Vizyon-Dil Modelleri Tablo Yapısını Nasıl İşler

Bir VLM sayfayı bir görüntü olarak işler ve tablo yapısını görsel olarak anlar. Sütun başlıklarının belirli genişliklere yayıldığını ve altlarındaki değerlerin, okuma sırasındaki karakter dizisine bakılmaksızın bu sütunlara ait olduğunu görür. Model şunları yapabilir:

  • Birleştirilmiş başlık hücrelerini belirle ve başlığı tüm alt sütunlara uygula
  • Boş hücreleri yanlış okunan değerler yerine açık "test edilmedi" olarak algıla
  • Hiyerarşik başlıkları tanı (örneğin, "Kimya%" her öğe için alt başlıklar ile)
  • En sol sütundaki ısı numaralarını değer satırlarının her birine bağla

Çok sayfalı tablolar için modelin sayfa sonu durumunun açık işlemesi gerekir: sayfa 1'deki sütun başlıkları, sayfa 2'deki veri satırlarına yayılmalıdır (başlıkların göründüğü yer değil). Bu, sayfaları bağımsız olarak değil sırasıyla işleyen belge düzeyinde bağlam gerektirir.


Segmentasyon: Tablodan Kayıtlara

Tablo çıkarma sonrası, sistem tabloyu bireysel kayıtlara bölmelidir—her ısı veya satır öğesi için bir. Bu segmentasyon adımı mantıksal olarak alan çıkarma adımından ayrıdır ve kendi mantığını gerektirir:

Satır tabanlı segmentasyon: Tablodaki her satır bir kayıttır. İlk sütundaki ısı numarası birincil anahtardır. Bu çok ısılı konsolidasyonlu sertifikalar için yaygın durumdur.

Grup tabanlı segmentasyon: Birden fazla satır aynı ısıya aittir (birden fazla örnek sonucu). Sistem grup sınırlarını algılamalıdır—genellikle birleştirilmiş hücre veya tekrarlanan ısı numarası—ve satırları çok örnek verisi için iç içe dizi içeren tek ısı kaydında birleştir.

Çapraz referans segmentasyonu: Satır öğeleri belgenin başka yerinde görünen ısı numaralarına başvurur (örneğin, ambalaj listesi tablosu ayrı kimya bölümünde tablolanan ısı numaralarına başvurur). Çıkarma, tam kayıtlar oluşturmak için belge içinde çapraz referans gerektirir.

TestCert gibi platformlar şema tarafından yönlendirilen çıkarma ardışık düzeni aracılığıyla üç segmentasyon modelinin tümünü işler; ilgili segmentasyon modeli alındı sırasında belge sınıflandırmasına dayalı olarak seçilir.


Çok Sayfalı Tablolarda Sayfa Sonlarını İşleme

Çok sayfalı tablo durumu büyük proje dokümantasyon paketleri için yaygındır. Doğru yaklaşım:

  1. Sayfa 1'deki tabloyu algıla; sütun başlıkları ve konumları dahil
  2. Tablonun devam ettiğini algıla (tipik olarak "devam" etiketi, eşleşen sütun yapısı veya kapanış sınırı yokluğu aracılığıyla)
  3. Sayfa 1'deki sütun başlığı eşlemesini sakla
  4. Bu eşlemesi sonraki sayfalardaki veri satırlarına uygula
  5. Kayıtlara segmentleme öncesinde tam tabloyu yeniden oluştur

Sayfaları bağımsız olarak işleyen çıkartıcılar—maliyet nedenleriyle yaygın tasarım—bu durumda sessizce başarısız olur. Sayfa 1'i doğru şekilde çıkarır ve devam sayfaları için eksik veya hatalı biçimlendirilmiş kayıtlar üretir.


Çok Satırlı Çıkarma Sonrası Doğrulama

Çıkarılan her satır öğesi kaydı bağımsız olarak doğrulanmalıdır:

  • Kimya toplamı kontrolü geçiş yapar mı? (Karbon + Mangan + Silisyum + ... belirtilen not için makul olmalıdır)
  • Mekanik değerler belirtilen standardın sınırları içinde midir?
  • Isı numarası var mı ve partinin içinde benzersiz midir?
  • Gerekli alanlar doldurulmuş mu? (Bazı çok ısılı tablolar kısalık için tekrarlanan değerleri atlar; eksik değerler işaretlenmelidir, sıfır olarak sessizce kabul edilmemelir)

Belge düzeyinde değil, kayıt düzeyinde doğrulama, bir geçerli ısının aynı sertifika üzerindeki diğer ısılardaki sorunları gizlemesini engeller.


Sık Sorulan Sorular

Sertifika çıkartıcı güvenilir bir şekilde kaç tane satır öğesini işleyebilir?

Sabit bir maksimum yoktur, ancak birikmiş düzen çıkarım hataları nedeniyle çok büyük tablolar (50+ satır) ile doğruluk düşme eğilimindedir. Çok büyük konsolidasyonlu sertifikalar için, çıkarmadan önce belgeyi sayfaya veya bölüme göre bölme ve sonra sonuçları birleştirme güvenilirliği iyileştirir. Pratik olarak, çoğu üretim MTC'si belge başına 1–20 ısıya sahiptir.

Sistem bazı elementler için eksik kimya ile bir satır öğesini nasıl işlemelidir?

Boş hücreler sıfır olarak değil null (test edilmedi) olarak kaydedilmelidir. Sıfıra eşit karbon değeri kimyasal olarak anlamsızdır; null, öğenin belirtim tarafından gerekli olmadığı veya test edilmediği anlamına gelir. Kayıt standart doğrulama için kullanıldığında fark önemlidir—null "minimum altında" hatasını tetiklememelidir.

Çıkarma, her ısının farklı geçerli derecesi olan bir sertifikayı işleyebilir mi?

Evet, çıkarma şeması satır başına standart/derece alanlarını destekliyorsa. Bazı konsolidasyonlu sertifikalar tüm ısılar için tek bir derece belirtir (daha basit); diğerleri ısı başına farklı dereceler listeler (daha karmaşık). Çıkartıcı, geçerli modeli algılamalı ve buna göre eşlemeli. Aşağı akış doğrulaması daha sonra belge düzeyi derecesine değil, her ısıyı kendi belirtilen derecesine karşı kontrol etmelidir.

Tablo başlığı satırı tablo ortasında tekrarlandığında ne olur (bazı araçlar sayfalandırma için eklendikçe)?

Tekrarlanan başlık satırları bilinen PDF yapıtıdır. Güçlü bir çıkartıcı, veri satırları olarak ele almak yerine veri gövdesindeki tekrarlanan başlık satırlarını algılar ve göz ardı eder. Sütun başlığı modeline tam olarak uyan satır içeriği başlık olarak sınıflandırılmalı ve veri çıkarmadan hariç tutulmalıdır.

Bazı ısılara ek test verisi olan ve diğerlerine olmayan bir sertifikayı nasıl işlem yaparım?

Çıkarma şeması ek test alanlarını isteğe bağlı olarak tanımlamalıdır. Ek verilere sahip ısılar bu alanları doldurur; olmayan ısılar null bırakır. Gözden geçirici arayüzü ek verilerin varlığını veya yokluğunu görünür kılmalıdır; böylece gözden geçirenler eksik ek verilerin çıkarma kaçırması yerine gerçek belge içeriğini yansıttığını doğrulayabilir.

Ready to automate your certificate workflow?

Try TestCert free

İlgili Kılavuzlar