الإجابة السريعة
Quick Answer
يتطلب استخراج شهادات العناصر متعددة الأسطر من محلل اكتشاف حدود الجدول، وربط رؤوس الأعمدة بالقيم عبر الصفوف، وتقسيم الحرارات أو العناصر المتعددة إلى سجلات منفصلة، ومعالجة فواصل الصفحات داخل الجدول—تحديات تفشل في البرامج البسيطة للتعرف الضوئي على الأحرف ولكن يمكن معالجتها باستخدام نماذج اللغات الرؤية والمخططات المستخرجة الموجهة للجداول.
شهادة اختبار المطحنة ذات الحرارة الواحدة هي أبسط حالة استخراج: مجموعة واحدة من قيم الكيمياء، ومجموعة واحدة من نتائج الاختبار الميكانيكي، ورقم حرارة واحد. تدفقات المستندات الحقيقية نادراً ما تكون نظيفة جداً. تصدر مراكز الخدمة شهادات موحدة تغطي عشرات الحرارات. تجدول مطاحن الصفائح مواقع اختبار متعددة عبر حرارة واحدة. يتضمن مصنعو الأنابيب كيمياء الجسم والكيمياء في أعمدة جنباً إلى جنب.
استخراج العناصر متعددة الأسطر هو حيث تفشل المحللات البسيطة وتثبت معماريات الاستخراج القوية قيمتها.
أنواع المستندات ذات العناصر متعددة الأسطر
يتطلب فهم أنماط الفشل التمييز بين هياكل المستندات:
النوع 1: شهادة موحدة متعددة الحرارات يغطي ملف PDF واحد أرقام حرارات متعددة، لكل منها بيانات كيمياء واختبار ميكانيكي خاص به. شائع من مراكز الخدمة الفولاذية والموزعين الذين يعيدون إصدار MTCs من المورثين بصيغة موحدة. الهيكل النموذجي: جدول حيث يكون كل صف عبارة عن حرارة منفصلة.
النوع 2: جدول اختبار ميكانيكي متعدد العينات حرارة واحدة مع نتائج عينة اختبار متعددة (على سبيل المثال، اختبارات تأثير Charpy عند -20 درجة مئوية من خمسة مواقع عبر لوحة). بيانات الحرارة فردية؛ فقط جدول الاختبار الميكانيكي يحتوي على صفوف متعددة.
النوع 3: جدول كيمياء متعدد العناصر مع الملاحظات جدول الكيمياء القياسي بالإضافة إلى العناصر الإضافية (البورون والنيتروجين والمتبقيات) في جدول ثانوي على نفس الصفحة أو الصفحة التالية. كلا الجدولين ينتميان إلى نفس الحرارة.
النوع 4: شهادة موحدة متعددة الحرارات والصفحات شهادة موحدة حيث يمتد الجدول عبر صفحات متعددة، مع ظهور صف رأس العمود فقط على الصفحة الأولى.
النوع 5: شهادة التوفيق بين عناصر أوامر الشراء شهادة تغطي عناصر PO متعددة، لكل منها درجات مواد مختلفة وأحجام وإشارات الحرارة المرتبطة بها. شائعة في حزم وثائق مشاريع EPC.
يتطلب كل من هذه الهياكل استراتيجية استخراج مختلفة.
لماذا تفشل خطوط OCR في جداول متعددة الأسطر
تعالج عمليات التعرف الضوئي على الأحرف التقليدية صفحة إلى تدفق أحرف بترتيب القراءة. لجدول الكيمياء بـ 12 عنصر عبر 8 صفوف حرارات، يعود التعرف الضوئي على الأحرف بشيء مثل:
C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...
يتم الحفاظ على صف الرأس، وتظهر القيم بالترتيب. لكن خط معالجة ما بعد المعالجة يجب الآن:
- حدد صف الرأس
- ربط كل قيمة في كل صف بيانات برأس العمود الخاص به
- اكتشف رقم الحرارة الذي يحدد كل صف
- التعامل مع الحالات التي يكون فيها رقم الحرارة في عمود سابق منفصل أو في خلية مدمجة
ينقطع هذا منطق الارتباط بالأعمدة:
- جداول بخلايا رأس مدمجة (تمتد عبر أعمدة متعددة)
- جداول برؤوس هرمية (مجموعة رئيسية + عنصر فرعي)
- جداول حيث تختلف عروض الأعمدة بشكل كبير
- جداول تحتوي على خلايا فارغة (لم يتم إجراء اختبار لهذا العنصر)
- جداول بإشارات الحواشي السفلية المدرجة في الخلايا
كيف تتعامل نماذج اللغات الرؤية مع هيكل الجدول
تعالج VLM الصفحة كصورة وتفهم هيكل الجدول بصرياً. يرى أن رؤوس الأعمدة تمتد عبر عروض معينة وأن القيم الموجودة تحتها تنتمي إلى تلك الأعمدة بغض النظر عن تسلسل الأحرف بترتيب القراءة. يمكن للنموذج:
- تحديد خلايا الرأس المدمجة وتطبيق الرأس على جميع الأعمدة الفرعية
- اكتشاف الخلايا الفارغة كـ "غير مختبرة" صريحة بدلاً من القيم المقروءة بشكل خاطئ
- التعرف على الرؤوس الهرمية (على سبيل المثال، "الكيمياء ٪" برؤوس فرعية لكل عنصر)
- ربط أرقام الحرارات في العمود الأيسر الأقصى بكل صف من القيم
بالنسبة للجداول متعددة الصفحات، يحتاج النموذج إلى معالجة صريحة لحالة فاصل الصفحة: يجب نشر رؤوس الأعمدة من الصفحة 1 إلى صفوف البيانات على الصفحة 2 حيث لا تظهر. يتطلب هذا سياقاً على مستوى المستند يعالج الصفحات بالتسلسل بدلاً من بشكل مستقل.
التقسيم: من الجدول إلى السجلات
بعد استخراج الجدول، يجب على النظام تقسيم الجدول إلى سجلات فردية—واحد لكل حرارة أو عنصر سطر. تتطلب خطوة التقسيم هذه منطقتها الخاصة منفصلة عن خطوة استخراج الحقل وتتطلب منطقها الخاص:
التقسيم القائم على الصفوف: كل صف في الجدول هو سجل. رقم الحرارة في العمود الأول هو المفتاح الأساسي. هذه هي الحالة الشائعة لشهادات موحدة متعددة الحرارات.
التقسيم المستند إلى المجموعة: تنتمي صفوف متعددة إلى نفس الحرارة (نتائج عينات متعددة). يجب على النظام اكتشاف حدود المجموعة—عادةً خلية مدمجة أو رقم حرارة مكرر—وتجميع الصفوف في سجل حرارة واحد بمصفوفة متداخلة لبيانات متعددة العينات.
التقسيم الترجعي: عناصر السطر تشير إلى أرقام الحرارات التي تظهر في مكان آخر في المستند (على سبيل المثال، جدول قائمة التعبئة يشير إلى أرقام الحرارات المجدولة في قسم كيمياء منفصل). يتطلب الاستخراج الإشارة الترجعية داخل المستند لبناء سجلات كاملة.
تتعامل المنصات مثل TestCert مع جميع أنماط التقسيم الثلاثة من خلال خط أنابيب استخراج موجه بالمخطط، حيث يتم تحديد نمط التقسيم المعروف بناءً على تصنيف المستند عند الاستقبال.
التعامل مع فواصل الصفحات في جداول متعددة الصفحات
حالة الجدول متعدد الصفحات شائعة لحزم وثائق المشاريع الكبيرة. المقاربة الصحيحة:
- الكشف عن الجدول على الصفحة 1، بما في ذلك رؤوس الأعمدة ومواضعها
- الكشف عن استمرار الجدول (عادةً عبر تسمية "متواصل"، هيكل عمود مطابق، أو غياب حد إغلاق)
- تخزين رسم خريطة رأس العمود من الصفحة 1
- تطبيق هذا الرسم على صفوف البيانات على الصفحات اللاحقة
- إعادة بناء الجدول الكامل قبل التقسيم إلى سجلات
تفشل أجهزة الاستخراج التي تعالج الصفحات بشكل مستقل—تصميم شائع لأسباب تكلفة—بصمت في هذه الحالة. تستخرج الصفحة 1 بشكل صحيح وتنتج سجلات غير كاملة أو مشوهة لصفحات الاستمرارية.
التحقق بعد استخراج متعدد الأسطر
يجب التحقق من صحة كل سجل عنصر سطر مستخرج بشكل مستقل:
- هل يمر اختبار مجموع الكيمياء؟ (الكربون + المنغنيز + السيليكون + ... يجب أن تكون معقولة للدرجة المحددة)
- هل تقع القيم الميكانيكية ضمن حدود المعيار المحدد؟
- هل رقم الحرارة موجود وفريد داخل الدفعة؟
- هل يتم ملء الحقول المطلوبة؟ (بعض الجداول متعددة الحرارات تحذف القيم المكررة للإيجاز؛ يجب تراج القيم المفقودة، وليس قبولها بصمت على أنها صفر)
يمنع التحقق على مستوى السجل، بدلاً من مستوى المستند، حرارة واحدة صحيحة من إخفاء المشاكل في حرارات أخرى على نفس الشهادة.
الأسئلة الشائعة
ما هو الحد الأقصى لعدد العناصر التي يمكن لجهاز استخراج الشهادات التعامل معها بموثوقية؟
لا توجد حد أقصى محدد، لكن الدقة تميل إلى الانخفاض مع الجداول الكبيرة جداً (50+ صف) بسبب أخطاء استدلال التخطيط التراكمية. بالنسبة للشهادات الموحدة الكبيرة جداً، فإن تقسيم المستند حسب الصفحة أو القسم قبل الاستخراج ودمج النتائج بعد ذلك يحسن الموثوقية. عملياً، معظم MTCs الإنتاج بها 1-20 حرارة لكل مستند.
كيف يجب على النظام التعامل مع عنصر سطر بكيمياء مفقودة لبعض العناصر؟
يجب تسجيل الخلايا الفارغة كـ null (غير مختبرة)، وليس كصفر. قيمة كربون من الصفر غير معقولة كيميائياً؛ null تعني أن العنصر لم يكن مطلوباً من المواصفات أو لم يتم اختباره. يهم التمييز عندما يتم استخدام السجل للتحقق من المعايير—يجب أن لا تؤدي قيمة null إلى فشل "أقل من الحد الأدنى".
هل يمكن للاستخراج التعامل مع شهادة حيث يكون لكل حرارة معيار/درجة مختلفة قابلة للتطبيق؟
نعم، إذا كان مخطط الاستخراج يدعم حقول معيار/درجة لكل صف. بعض الشهادات الموحدة تحدد درجة واحدة لجميع الحرارات (أبسط)؛ والبعض الآخر يسرد درجات مختلفة لكل حرارة (أكثر تعقيداً). يجب على جهاز الاستخراج اكتشاف الأنماط المعروضة والخريطة وفقاً لذلك. يجب أن يتحقق التحقق من المصب بعد ذلك من كل حرارة مقابل درجتها المحددة، وليس درجة مستوى المستند.
ماذا يحدث عندما يتكرر صف رأس الجدول في منتصف الجدول (كما تدرجه بعض الأدوات للترقيم)؟
الصفوف المتكررة للرأس هي قطعة PDF معروفة. يكتشف جهاز استخراج قوي ويتجاهل صفوف الرأس المتكررة في نص البيانات بدلاً من معاملتها كصفوف بيانات. محتوى الصف الذي يطابق تماماً نمط رأس العمود يجب تصنيفه كرأس واستبعاده من استخراج البيانات.
كيف أتعامل مع شهادة حيث تحتوي بعض الحرارات على بيانات اختبار إضافية والبعض الآخر لا؟
يجب أن يحدد مخطط الاستخراج حقول الاختبار الإضافية كاختيارية. تملأ الحرارات ببيانات إضافية تلك الحقول؛ الحرارات بدون ترك null. يجب أن تجعل واجهة المراجع وجود أو غياب البيانات الإضافية مرئية، حتى يتمكن المراجعون من تأكيد أن البيانات الإضافية المفقودة تعكس محتوى المستند الفعلي بدلاً من خطأ الاستخراج.
Ready to automate your certificate workflow?
Try TestCert free