बहु-पंक्ति आइटम प्रमाणपत्र निष्कर्षण: चुनौतियाँ और समाधान

त्वरित उत्तर

Quick Answer

बहु-पंक्ति आइटम प्रमाणपत्र निष्कर्षण के लिए पार्सर को तालिका सीमाओं का पता लगाना, स्तंभ शीर्षलेखों को पंक्तियों भर में मानों से जोड़ना, कई हीट्स या लाइन आइटम्स को अलग रिकॉर्ड में विभाजित करना, और तालिका के बीच में पेज ब्रेक को संभालना आवश्यक है—चुनौतियाँ जो सरल OCR पाइपलाइनों को हरा देती हैं लेकिन विजन-भाषा मॉडल और तालिका-जागरूक निष्कर्षण स्कीमा से निपटी जा सकती हैं।

एकल-हीट मिल परीक्षण प्रमाणपत्र सबसे सरल निष्कर्षण मामला है: रसायन मानों का एक सेट, यांत्रिक परीक्षण परिणामों का एक सेट, एक हीट संख्या। वास्तविक दुनिया के दस्तावेज़ प्रवाह शायद ही कभी इतने स्वच्छ होते हैं। इस्पात सेवा केंद्र दर्जनों हीट्स को कवर करने वाले समेकित प्रमाणपत्र जारी करते हैं। प्लेट मिलें एकल हीट के पार कई परीक्षण स्थानों को तालिकाबद्ध करती हैं। पाइप निर्माता शरीर और वेल्ड रसायन को साथ-साथ के स्तंभों में शामिल करते हैं।

बहु-पंक्ति आइटम निष्कर्षण वह जगह है जहाँ सरल पार्सर विफल होते हैं और मजबूत निष्कर्षण आर्किटेक्चर अपना मूल्य साबित करते हैं।

बहु-पंक्ति आइटम दस्तावेज़ के प्रकार

विफलता मोड को समझने के लिए दस्तावेज़ संरचनाओं के बीच अंतर की आवश्यकता होती है:

प्रकार 1: बहु-हीट समेकित प्रमाणपत्र एक PDF कई हीट नंबर को कवर करता है, प्रत्येक के अपने रसायन और यांत्रिक परीक्षण डेटा के साथ। इस्पात सेवा केंद्र और वितरकों से सामान्य जो आपूर्तिकर्ता MTCs को समेकित प्रारूप में फिर से जारी करते हैं। विशिष्ट संरचना: एक तालिका जहाँ प्रत्येक पंक्ति एक अलग हीट है।

प्रकार 2: बहु-नमूना यांत्रिक परीक्षण तालिका एकल हीट कई परीक्षण नमूना परिणामों के साथ (उदाहरण के लिए, प्लेट के पाँच स्थानों से -20°C पर Charpy प्रभाव परीक्षण)। हीट डेटा एकवचन है; केवल यांत्रिक परीक्षण तालिका में कई पंक्तियाँ हैं।

प्रकार 3: नोट्स के साथ बहु-तत्व रसायन तालिका मानक रसायन तालिका प्लस अनुपूरक तत्व (बोरॉन, नाइट्रोजन, अवशेष) एक ही या अगले पृष्ठ पर एक माध्यमिक तालिका में। दोनों तालिकाएँ एक ही हीट से संबंधित हैं।

प्रकार 4: बहु-हीट, बहु-पृष्ठ प्रमाणपत्र एक समेकित प्रमाणपत्र जहाँ तालिका कई पृष्ठों तक फैली हुई है, स्तंभ शीर्षलेख पंक्ति केवल पहले पृष्ठ पर प्रकट होती है।

प्रकार 5: पंक्ति आइटम क्रय आदेश समाधान प्रमाणपत्र एक प्रमाणपत्र कई PO लाइन आइटम्स को कवर करता है, प्रत्येक अलग सामग्री ग्रेड, आकार, और उनके संबद्ध हीट संदर्भ के साथ। EPC परियोजना दस्तावेज़ पैकेज में सामान्य।

इनमें से प्रत्येक संरचना को एक अलग निष्कर्षण रणनीति की आवश्यकता होती है।

OCR पाइपलाइनें बहु-पंक्ति तालिकाओं पर क्यों विफल होती हैं

पारंपरिक OCR एक पृष्ठ को पढ़ने के क्रम में वर्णों की धारा में संसाधित करता है। 8 हीट पंक्तियों के पार 12 तत्वों के साथ एक रसायन तालिका के लिए, OCR कुछ इस तरह लौटाता है:

C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...

हेडर पंक्ति संरक्षित है और मान क्रम में दिखाई देते हैं। लेकिन पोस्ट-प्रोसेसिंग पाइपलाइन को अब:

यह पहचानना है कि कौन सी पंक्ति हेडर है
प्रत्येक डेटा पंक्ति में प्रत्येक मान को इसके स्तंभ हेडर से जोड़ना
हीट संख्या का पता लगाना जो प्रत्येक पंक्ति को पहचानता है
ऐसे मामलों को संभालना जहाँ हीट संख्या एक अलग पूर्व स्तंभ में या एक विलीन सेल में है

यह स्तंभ संबंधन तर्क पर विफल होता है:

विलीन हेडर सेल वाली तालिकाएँ (कई स्तंभों को फैलाते हुए)
पदानुक्रमीय हेडर वाली तालिकाएँ (मुख्य समूह + उप-तत्व)
तालिकाएँ जहाँ स्तंभ चौड़ाई में उल्लेखनीय अंतर होता है
खाली सेल वाली तालिकाएँ (उस तत्व के लिए कोई परीक्षण नहीं किया गया)
तालिकाएँ जिनमें फुटनोट संदर्भ सेल में एम्बेड किए गए हैं

विजन-भाषा मॉडल तालिका संरचना को कैसे संभालते हैं

एक VLM पृष्ठ को एक छवि के रूप में संसाधित करता है और तालिका संरचना को दृश्य रूप से समझता है। यह देखता है कि स्तंभ हेडर निश्चित चौड़ाई तक फैले हुए हैं और उनके नीचे के मान पढ़ने के क्रम में वर्ण अनुक्रम की परवाह किए बिना उन स्तंभों से संबंधित हैं। मॉडल कर सकता है:

विलीन हेडर सेल की पहचान करना और सभी उप-स्तंभों पर हेडर लागू करना
खाली सेल को गलत पढ़े गए मान के बजाय स्पष्ट "परीक्षण नहीं" के रूप में पहचानना
पदानुक्रमीय हेडर को पहचानना (उदाहरण के लिए, "रसायन %" प्रत्येक तत्व के लिए उप-हेडर के साथ)
सबसे बाईं ओर के स्तंभ में हीट नंबर को मानों की प्रत्येक पंक्ति से जोड़ना

बहु-पृष्ठ तालिकाओं के लिए, मॉडल को पृष्ठ विराम मामले के स्पष्ट संभालने की आवश्यकता है: पृष्ठ 1 से स्तंभ हेडर पृष्ठ 2 पर डेटा पंक्तियों तक प्रसारित किए जाने चाहिए जहाँ वे दिखाई नहीं देते। इसके लिए दस्तावेज़-स्तर के संदर्भ की आवश्यकता होती है जो पृष्ठों को स्वतंत्र रूप से नहीं बल्कि क्रम में संसाधित करता है।

विभाजन: तालिका से रिकॉर्ड तक

तालिका निष्कर्षण के बाद, सिस्टम को तालिका को व्यक्तिगत रिकॉर्ड में विभाजित करना चाहिए—प्रत्येक हीट या लाइन आइटम के लिए एक। यह विभाजन चरण तार्किक रूप से क्षेत्र निष्कर्षण चरण से अलग है और इसके स्वयं के तर्क की आवश्यकता है:

पंक्ति-आधारित विभाजन: तालिका में प्रत्येक पंक्ति एक रिकॉर्ड है। पहले स्तंभ में हीट संख्या प्राथमिक कुंजी है। यह बहु-हीट समेकित प्रमाणपत्रों के लिए सामान्य मामला है।

समूह-आधारित विभाजन: कई पंक्तियाँ एक ही हीट (कई नमूना परिणाम) से संबंधित होती हैं। सिस्टम को समूह सीमाओं का पता लगाना चाहिए—आमतौर पर एक विलीन सेल या दोहराई गई हीट संख्या—और बहु-नमूना डेटा के लिए नेस्टेड array के साथ पंक्तियों को एक एकल हीट रिकॉर्ड में एकत्रित करना चाहिए।

क्रॉस-संदर्भ विभाजन: पंक्ति आइटम्स हीट नंबर का संदर्भ देते हैं जो दस्तावेज़ में अन्य स्थानों पर दिखाई देते हैं (उदाहरण के लिए, एक पैकिंग सूची तालिका एक अलग रसायन अनुभाग में तालिकाबद्ध हीट नंबर का संदर्भ देती है)। निष्कर्षण को पूर्ण रिकॉर्ड बनाने के लिए दस्तावेज़ के भीतर क्रॉस-संदर्भ की आवश्यकता होती है।

TestCert जैसे प्लेटफॉर्म एक स्कीमा-संचालित निष्कर्षण पाइपलाइन के माध्यम से सभी तीन विभाजन पैटर्न को संभालते हैं, जहाँ लागू विभाजन पैटर्न का चयन सेवन के समय दस्तावेज़ वर्गीकरण के आधार पर किया जाता है।

बहु-पृष्ठ तालिकाओं में पृष्ठ विराम को संभालना

बहु-पृष्ठ तालिका मामला बड़े परियोजना दस्तावेज़ पैकेज के लिए सामान्य है। सही दृष्टिकोण:

पृष्ठ 1 पर तालिका का पता लगाएँ, स्तंभ हेडर और उनकी स्थिति सहित
यह पहचानें कि तालिका जारी है (आमतौर पर "जारी" लेबल, मिलान स्तंभ संरचना, या समापन सीमा की अनुपस्थिति के माध्यम से)
पृष्ठ 1 से स्तंभ हेडर मैपिंग संग्रहीत करें
उस मैपिंग को बाद के पृष्ठों पर डेटा पंक्तियों पर लागू करें
रिकॉर्ड में विभाजित करने से पहले पूर्ण तालिका का पुनर्निर्माण करें

ऐसे निष्कर्षक जो पृष्ठों को स्वतंत्र रूप से संसाधित करते हैं—लागत कारणों के लिए एक सामान्य डिज़ाइन—इस मामले में चुप्पी से विफल होते हैं। वे पृष्ठ 1 को सही तरीके से निकालते हैं और निरंतरता पृष्ठों के लिए अधूरे या गलत रिकॉर्ड प्राप्त करते हैं।

बहु-पंक्ति निष्कर्षण के बाद सत्यापन

निकाली गई प्रत्येक पंक्ति आइटम रिकॉर्ड को स्वतंत्र रूप से सत्यापित किया जाना चाहिए:

क्या रसायन योग जाँच पास होती है? (कार्बन + मैंगनीज़ + सिलिकॉन + ... निर्दिष्ट ग्रेड के लिए प्रशंसनीय होना चाहिए)
क्या यांत्रिक मान निर्दिष्ट मानक की सीमा के भीतर हैं?
क्या हीट संख्या मौजूद है और बैच के भीतर अद्वितीय है?
क्या आवश्यक फ़ील्ड भरी हुई हैं? (कुछ बहु-हीट तालिकाएँ संक्षिप्तता के लिए दोहराए गए मानों को छोड़ देती हैं; लापता मानों को चिह्नित किया जाना चाहिए, शून्य के रूप में चुप्पी से स्वीकार नहीं किया जाना चाहिए)

दस्तावेज़-स्तर के बजाय रिकॉर्ड-स्तर पर सत्यापन एक वैध हीट को एक ही प्रमाणपत्र पर अन्य हीट्स में समस्याओं को छिपाने से रोकता है।

अक्सर पूछे जाने वाले सवाल

एक प्रमाणपत्र निष्कर्षक विश्वसनीय रूप से कितने पंक्ति आइटम्स को संभाल सकता है?

कोई निश्चित अधिकतम नहीं है, लेकिन बहुत बड़ी तालिकाओं (50+ पंक्तियों) के साथ सटीकता में कमी की प्रवृत्ति होती है क्योंकि संचयी लेआउट अनुमान त्रुटियाँ। बहुत बड़े समेकित प्रमाणपत्रों के लिए, निष्कर्षण से पहले दस्तावेज़ को पृष्ठ या अनुभाग द्वारा विभाजित करना और बाद में परिणामों को मिलाना विश्वसनीयता में सुधार करता है। व्यावहारिक रूप से, अधिकांश उत्पादन MTCs के पास दस्तावेज़ प्रति 1–20 हीट्स होते हैं।

एक सिस्टम कुछ तत्वों के लिए लापता रसायन के साथ एक पंक्ति आइटम को कैसे संभालना चाहिए?

खाली सेल को शून्य के रूप में नहीं बल्कि null (परीक्षण नहीं) के रूप में दर्ज किया जाना चाहिए। कार्बन का शून्य मान रासायनिक रूप से अर्थहीन है; null का अर्थ है कि तत्व विशेषज्ञता द्वारा आवश्यक नहीं था या परीक्षण नहीं किया गया था। जब रिकॉर्ड का उपयोग मानक सत्यापन के लिए किया जाता है तो अंतर महत्वपूर्ण है—null को "न्यूनतम से नीचे" विफलता को ट्रिगर नहीं करना चाहिए।

क्या निष्कर्षण एक ऐसे प्रमाणपत्र को संभाल सकता है जहाँ प्रत्येक हीट का एक अलग लागू ग्रेड है?

हाँ, यदि निष्कर्षण स्कीमा पंक्ति-प्रति-मानक/ग्रेड फ़ील्ड का समर्थन करता है। कुछ समेकित प्रमाणपत्र सभी हीट्स के लिए एक एकल ग्रेड निर्दिष्ट करते हैं (सरल); अन्य प्रत्येक हीट के लिए अलग ग्रेड सूचीबद्ध करते हैं (अधिक जटिल)। निष्कर्षक को यह पहचानना चाहिए कि कौन सा पैटर्न लागू होता है और तदनुसार मैप करना चाहिए। डाउनस्ट्रीम सत्यापन को फिर दस्तावेज़-स्तर के ग्रेड के बजाय प्रत्येक हीट को अपने निर्दिष्ट ग्रेड के विरुद्ध सत्यापित करना चाहिए।

क्या होता है जब तालिका हेडर पंक्ति तालिका के बीच में दोहराई जाती है (जैसा कि कुछ उपकरण पृष्ठांकन के लिए सम्मिलित करते हैं)?

दोहराई गई हेडर पंक्तियाँ एक ज्ञात PDF कलाकृति हैं। एक मजबूत निष्कर्षक डेटा बॉडी में दोहराई गई हेडर पंक्तियों को डेटा पंक्तियों के रूप में व्यवहार करने के बजाय पहचानता है और अनदेखा करता है। पंक्ति सामग्री जो स्तंभ हेडर पैटर्न से बिल्कुल मेल खाती है, को हेडर के रूप में वर्गीकृत किया जाना चाहिए और डेटा निष्कर्षण से बाहर रखा जाना चाहिए।

मैं एक ऐसे प्रमाणपत्र को कैसे संभालूँ जहाँ कुछ हीट्स के पास अनुपूरक परीक्षण डेटा है और अन्य के पास नहीं है?

निष्कर्षण स्कीमा को अनुपूरक परीक्षण फ़ील्ड को वैकल्पिक के रूप में परिभाषित करना चाहिए। अनुपूरक डेटा वाले हीट्स इन फ़ील्ड को भरते हैं; बिना वाले null छोड़ते हैं। समीक्षक इंटरफेस अनुपूरक डेटा की उपस्थिति या अनुपस्थिति को दृश्यमान बनाना चाहिए, ताकि समीक्षा करने वाले यह पुष्टि कर सकें कि अनुपूरक डेटा की अनुपस्थिति निष्कर्षण मिस के बजाय वास्तविक दस्तावेज़ सामग्री को प्रतिबिंबित करती है।

Ready to automate your certificate workflow?

Try TestCert free