الإجابة السريعة
Quick Answer
يتطلب استخلاص الشهادات متعددة البنود من المحلل اكتشاف حدود الجدول وربط رؤوس الأعمدة بالقيم عبر الصفوف وتقسيم الحرارات أو البنود المتعددة إلى سجلات مستقلة والتعامل مع فواصل الصفحات في وسط الجدول — تحديات تُخفق أمامها خطوط OCR البسيطة لكنها قابلة للمعالجة بنماذج الرؤية-اللغة ومخططات استخلاص مدركة للجداول.
شهادة اختبار المصنع أحادية الحرارة هي أبسط حالات الاستخلاص: مجموعة قيم كيميائية واحدة، مجموعة نتائج اختبار ميكانيكي واحدة، رقم حرارة واحد. تدفقات المستندات الواقعية نادراً ما تكون بهذا الوضوح. تُصدر مراكز الخدمة شهادات موحّدة تغطي عشرات الحرارات. تُجدول مصانع الصفائح مواقع اختبار متعددة عبر حرارة واحدة. يُدرج مصنّعو الأنابيب كيمياء الجسم والوصلة اللحامية في أعمدة جنباً إلى جنب.
استخلاص البنود المتعددة هو المكان الذي تُخفق فيه المحللات البسيطة وتُثبت فيه معماريات الاستخلاص المتينة قيمتها.
أنواع المستندات متعددة البنود
يستلزم فهم أوضاع الفشل التمييز بين هياكل المستندات:
النوع 1: شهادة موحّدة متعددة الحرارات ملف PDF واحد يغطي أرقام حرارات متعددة، لكل منها بيانات كيميائية وميكانيكية خاصة بها. شائع من مراكز خدمة الفولاذ والموزعين الذين يُعيدون إصدار MTCs الموردين بتنسيق موحّد. هيكل نموذجي: جدول يمثل كل صف فيه حرارة مستقلة.
النوع 2: جدول اختبار ميكانيكي متعدد العينات حرارة واحدة مع نتائج عينات اختبار متعددة (مثل اختبارات صدمة Charpy عند −20°C من خمسة مواقع عبر صفيحة). بيانات الحرارة مفردة؛ فقط جدول الاختبار الميكانيكي متعدد الصفوف.
النوع 3: جدول عناصر كيميائية متعددة مع ملاحظات جدول كيميائي معياري مع عناصر تكميلية (البورون، النيتروجين، بقايا) في جدول ثانوي في نفس الصفحة أو الصفحة التالية. كلا الجدولين ينتميان إلى الحرارة ذاتها.
النوع 4: شهادة متعددة الحرارات متعددة الصفحات شهادة موحّدة يمتد فيها الجدول عبر صفحات متعددة مع ظهور صف رأس العمود فقط في الصفحة الأولى.
النوع 5: شهادة تسوية بنود أمر الشراء شهادة تغطي بنود أمر شراء متعددة، لكل منها درجات مواد وأحجام مختلفة ومراجع حرارة مرتبطة. شائع في حزم وثائق مشاريع EPC.
كل من هذه الهياكل يستلزم استراتيجية استخلاص مختلفة.
لماذا تُخفق خطوط OCR في الجداول متعددة الصفوف
تعالج OCR التقليدية الصفحة إلى تيار من الأحرف بترتيب القراءة. لجدول كيميائي بـ 12 عنصراً عبر 8 صفوف حرارة، تُعيد OCR شيئاً كهذا:
C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...
يُحفظ صف الرأس وتظهر القيم بالترتيب. لكن خط المعالجة اللاحقة يجب الآن:
- تحديد أي صف هو الرأس
- ربط كل قيمة في كل صف بيانات برأس عمودها
- اكتشاف رقم الحرارة الذي يُعرّف كل صف
- التعامل مع الحالات التي يكون فيها رقم الحرارة في عمود سابق منفصل أو في خلية مدموجة
ينهار منطق ربط الأعمدة هذا في:
- الجداول ذات خلايا رأس مدموجة (تمتد عبر أعمدة متعددة)
- الجداول ذات رؤوس هرمية (مجموعة رئيسية + عنصر فرعي)
- الجداول التي تتفاوت فيها عروض الأعمدة بشكل كبير
- الجداول ذات الخلايا الفارغة (لم يُجرَ اختبار لذلك العنصر)
- الجداول ذات مراجع الحواشي المضمّنة في الخلايا
كيف تتعامل نماذج الرؤية-اللغة مع هيكل الجدول
يعالج نموذج VLM الصفحة كصورة ويفهم هيكل الجدول بصرياً. يرى أن رؤوس الأعمدة تمتد بعرض معين وأن القيم الواقعة تحتها تنتمي إلى تلك الأعمدة بصرف النظر عن تسلسل الأحرف في ترتيب القراءة. يمكن للنموذج:
- تحديد خلايا الرأس المدموجة وتطبيق الرأس على جميع الأعمدة الفرعية
- اكتشاف الخلايا الفارغة كـ "غير مُختبَر" صريحة بدلاً من قيم مقروءة خاطئة
- التعرف على الرؤوس الهرمية (مثل "Chemistry %" مع رؤوس فرعية لكل عنصر)
- ربط أرقام الحرارة في العمود الأيسر بكل صف قيم
للجداول متعددة الصفحات، يحتاج النموذج إلى معالجة صريحة لحالة فاصل الصفحة: يجب نقل رؤوس الأعمدة من الصفحة 1 إلى صفوف البيانات في الصفحة 2 حيث لا تظهر. يستلزم ذلك سياقاً على مستوى المستند يعالج الصفحات بالتسلسل لا باستقلالية.
التقسيم: من الجدول إلى السجلات
بعد استخلاص الجدول، يجب على النظام تقسيمه إلى سجلات فردية — واحد لكل حرارة أو بند. خطوة التقسيم هذه منفصلة منطقياً عن خطوة استخلاص الحقول وتستلزم منطقها الخاص:
التقسيم القائم على الصفوف: كل صف في الجدول سجل. رقم الحرارة في العمود الأول هو المفتاح الأساسي. هذه الحالة الشائعة للشهادات الموحّدة متعددة الحرارات.
التقسيم القائم على المجموعات: صفوف متعددة تنتمي إلى الحرارة ذاتها (نتائج عينات متعددة). يجب على النظام اكتشاف حدود المجموعة — عادةً خلية مدموجة أو رقم حرارة مُكرَّر — وتجميع الصفوف في سجل حرارة واحد مع مصفوفة متداخلة لبيانات متعددة العينات.
التقسيم بالإسناد المتقاطع: البنود تشير إلى أرقام حرارات تظهر في مكان آخر من المستند (مثل جدول قائمة التعبئة يشير إلى أرقام حرارات مجدولة في قسم كيمياء منفصل). يستلزم الاستخلاص الإسناد المتقاطع داخل المستند لبناء سجلات كاملة.
تتعامل منصات مثل TestCert مع أنماط التقسيم الثلاثة من خلال خط استخلاص يعتمد على المخطط، حيث يُختار نمط التقسيم المطبّق بناءً على تصنيف المستند عند الاستقبال.
التعامل مع فواصل الصفحات في الجداول متعددة الصفحات
حالة الجدول متعدد الصفحات شائعة في حزم وثائق المشاريع الكبيرة. المقاربة الصحيحة:
- اكتشاف الجدول في الصفحة 1 بما فيه رؤوس الأعمدة ومواضعها
- اكتشاف أن الجدول مستمر (عادةً عبر تسمية "تابع"، أو هيكل أعمدة متطابق، أو غياب حد إغلاق)
- تخزين تعيين رأس العمود من الصفحة 1
- تطبيق ذلك التعيين على صفوف البيانات في الصفحات التالية
- إعادة بناء الجدول الكامل قبل التقسيم إلى سجلات
المحللات التي تعالج الصفحات باستقلالية — تصميم شائع لأسباب تكلفة — تُخفق في هذه الحالة بصمت. تستخلص الصفحة 1 بشكل صحيح وتُنتج سجلات ناقصة أو مشوّهة لصفحات الاستمرار.
التحقق بعد الاستخلاص متعدد البنود
يجب التحقق من كل سجل بند مُستخلَص باستقلالية:
- هل يجتاز فحص مجموع الكيمياء؟ (الكربون + المنغنيز + السيليكون + ... يجب أن يكون منطقياً للدرجة المحددة)
- هل تقع القيم الميكانيكية ضمن حدود المعيار المحدد؟
- هل رقم الحرارة موجود وفريد داخل الدفعة؟
- هل الحقول المطلوبة مأهولة؟ (بعض الجداول متعددة الحرارات تحذف القيم المتكررة للإيجاز؛ القيم المفقودة يجب الإبلاغ عنها لا قبولها بصمت كأصفار)
التحقق على مستوى السجل لا على مستوى المستند يمنع حرارة صحيحة واحدة من إخفاء مشاكل في حرارات أخرى على الشهادة ذاتها.
الأسئلة الشائعة
ما الحد الأقصى لعدد البنود التي يمكن لمحلل الشهادات التعامل معها بشكل موثوق؟
لا يوجد حد أقصى ثابت، لكن الدقة تميل إلى الانخفاض مع الجداول الكبيرة جداً (+50 صفاً) بسبب أخطاء استنتاج التخطيط المتراكمة. للشهادات الموحّدة الكبيرة جداً، يُحسّن تقسيم المستند بالصفحة أو القسم قبل الاستخلاص ودمج النتائج بعده الموثوقية. عملياً، معظم MTCs الإنتاجية تحتوي 1–20 حرارة لكل مستند.
كيف يجب على النظام التعامل مع بند كيمياء مفقودة لبعض العناصر؟
يجب تسجيل الخلايا الفارغة كـ null (غير مُختبَر)، لا كأصفار. قيمة كربون صفرية غير منطقية كيميائياً؛ null تعني أن العنصر لم يُطلَب في المواصفة أو لم يُختبَر. يهم الفرق عند استخدام السجل للتحقق من المعايير — null لا يجب أن يُطلق فشلاً "دون الحد الأدنى".
هل يمكن للاستخلاص التعامل مع شهادة حيث لكل حرارة درجة مطبّقة مختلفة؟
نعم، إذا كان مخطط الاستخلاص يدعم حقول المعيار/الدرجة لكل صف. بعض الشهادات الموحّدة تحدد درجة واحدة لجميع الحرارات (أبسط)؛ وبعضها يُدرج درجات مختلفة لكل حرارة (أكثر تعقيداً). يجب أن يكتشف المحلل أي النمطين ينطبق ويُعيّن وفقاً لذلك. التحقق التنازلي يجب أن يفحص كل حرارة مقابل درجتها المحددة الخاصة لا درجة على مستوى المستند.
ماذا يحدث عندما يتكرر صف رأس الجدول في منتصفه (كما تُدرجه بعض الأدوات للترقيم)؟
صفوف الرأس المتكررة مشكلة معروفة في PDF. المحلل المتين يكتشف صفوف الرأس المتكررة ويتجاهلها في جسم البيانات بدلاً من معاملتها كصفوف بيانات. المحتوى الذي يتطابق تماماً مع نمط رأس العمود يجب تصنيفه كرأس واستبعاده من استخلاص البيانات.
كيف أتعامل مع شهادة حيث بعض الحرارات تحتوي بيانات اختبار تكميلية والأخرى لا؟
يجب أن يُعرّف مخطط الاستخلاص حقول الاختبار التكميلية كاختيارية. الحرارات ذات البيانات التكميلية تملأ تلك الحقول؛ الحرارات بدونها تتركها null. يجب أن تجعل واجهة المراجع وجود أو غياب البيانات التكميلية مرئياً، حتى يتمكن المراجعون من تأكيد أن البيانات التكميلية الغائبة تعكس محتوى المستند الفعلي لا إغفالاً في الاستخلاص.
Ready to automate your certificate workflow?
Try TestCert free