त्वरित उत्तर
Quick Answer
बहु-पंक्ति आइटम प्रमाणपत्र निष्कर्षण के लिए पार्सर को तालिका सीमाओं का पता लगाना, स्तंभ शीर्षलेखों को पंक्तियों भर में मानों से जोड़ना, कई हीट्स या लाइन आइटम्स को अलग रिकॉर्ड में विभाजित करना, और तालिका के बीच में पेज ब्रेक को संभालना आवश्यक है—चुनौतियाँ जो सरल OCR पाइपलाइनों को हरा देती हैं लेकिन विजन-भाषा मॉडल और तालिका-जागरूक निष्कर्षण स्कीमा से निपटी जा सकती हैं।
एकल-हीट मिल परीक्षण प्रमाणपत्र सबसे सरल निष्कर्षण मामला है: रसायन मानों का एक सेट, यांत्रिक परीक्षण परिणामों का एक सेट, एक हीट संख्या। वास्तविक दुनिया के दस्तावेज़ प्रवाह शायद ही कभी इतने स्वच्छ होते हैं। इस्पात सेवा केंद्र दर्जनों हीट्स को कवर करने वाले समेकित प्रमाणपत्र जारी करते हैं। प्लेट मिलें एकल हीट के पार कई परीक्षण स्थानों को तालिकाबद्ध करती हैं। पाइप निर्माता शरीर और वेल्ड रसायन को साथ-साथ के स्तंभों में शामिल करते हैं।
बहु-पंक्ति आइटम निष्कर्षण वह जगह है जहाँ सरल पार्सर विफल होते हैं और मजबूत निष्कर्षण आर्किटेक्चर अपना मूल्य साबित करते हैं।
बहु-पंक्ति आइटम दस्तावेज़ के प्रकार
विफलता मोड को समझने के लिए दस्तावेज़ संरचनाओं के बीच अंतर की आवश्यकता होती है:
प्रकार 1: बहु-हीट समेकित प्रमाणपत्र एक PDF कई हीट नंबर को कवर करता है, प्रत्येक के अपने रसायन और यांत्रिक परीक्षण डेटा के साथ। इस्पात सेवा केंद्र और वितरकों से सामान्य जो आपूर्तिकर्ता MTCs को समेकित प्रारूप में फिर से जारी करते हैं। विशिष्ट संरचना: एक तालिका जहाँ प्रत्येक पंक्ति एक अलग हीट है।
प्रकार 2: बहु-नमूना यांत्रिक परीक्षण तालिका एकल हीट कई परीक्षण नमूना परिणामों के साथ (उदाहरण के लिए, प्लेट के पाँच स्थानों से -20°C पर Charpy प्रभाव परीक्षण)। हीट डेटा एकवचन है; केवल यांत्रिक परीक्षण तालिका में कई पंक्तियाँ हैं।
प्रकार 3: नोट्स के साथ बहु-तत्व रसायन तालिका मानक रसायन तालिका प्लस अनुपूरक तत्व (बोरॉन, नाइट्रोजन, अवशेष) एक ही या अगले पृष्ठ पर एक माध्यमिक तालिका में। दोनों तालिकाएँ एक ही हीट से संबंधित हैं।
प्रकार 4: बहु-हीट, बहु-पृष्ठ प्रमाणपत्र एक समेकित प्रमाणपत्र जहाँ तालिका कई पृष्ठों तक फैली हुई है, स्तंभ शीर्षलेख पंक्ति केवल पहले पृष्ठ पर प्रकट होती है।
प्रकार 5: पंक्ति आइटम क्रय आदेश समाधान प्रमाणपत्र एक प्रमाणपत्र कई PO लाइन आइटम्स को कवर करता है, प्रत्येक अलग सामग्री ग्रेड, आकार, और उनके संबद्ध हीट संदर्भ के साथ। EPC परियोजना दस्तावेज़ पैकेज में सामान्य।
इनमें से प्रत्येक संरचना को एक अलग निष्कर्षण रणनीति की आवश्यकता होती है।
OCR पाइपलाइनें बहु-पंक्ति तालिकाओं पर क्यों विफल होती हैं
पारंपरिक OCR एक पृष्ठ को पढ़ने के क्रम में वर्णों की धारा में संसाधित करता है। 8 हीट पंक्तियों के पार 12 तत्वों के साथ एक रसायन तालिका के लिए, OCR कुछ इस तरह लौटाता है:
C Mn Si P S Cr Mo Ni
0.18 1.42 0.28 0.012 0.008 0.02 0.01 0.08
0.21 1.38 0.31 0.015 0.010 0.02 0.01 0.09
...
हेडर पंक्ति संरक्षित है और मान क्रम में दिखाई देते हैं। लेकिन पोस्ट-प्रोसेसिंग पाइपलाइन को अब:
- यह पहचानना है कि कौन सी पंक्ति हेडर है
- प्रत्येक डेटा पंक्ति में प्रत्येक मान को इसके स्तंभ हेडर से जोड़ना
- हीट संख्या का पता लगाना जो प्रत्येक पंक्ति को पहचानता है
- ऐसे मामलों को संभालना जहाँ हीट संख्या एक अलग पूर्व स्तंभ में या एक विलीन सेल में है
यह स्तंभ संबंधन तर्क पर विफल होता है:
- विलीन हेडर सेल वाली तालिकाएँ (कई स्तंभों को फैलाते हुए)
- पदानुक्रमीय हेडर वाली तालिकाएँ (मुख्य समूह + उप-तत्व)
- तालिकाएँ जहाँ स्तंभ चौड़ाई में उल्लेखनीय अंतर होता है
- खाली सेल वाली तालिकाएँ (उस तत्व के लिए कोई परीक्षण नहीं किया गया)
- तालिकाएँ जिनमें फुटनोट संदर्भ सेल में एम्बेड किए गए हैं
विजन-भाषा मॉडल तालिका संरचना को कैसे संभालते हैं
एक VLM पृष्ठ को एक छवि के रूप में संसाधित करता है और तालिका संरचना को दृश्य रूप से समझता है। यह देखता है कि स्तंभ हेडर निश्चित चौड़ाई तक फैले हुए हैं और उनके नीचे के मान पढ़ने के क्रम में वर्ण अनुक्रम की परवाह किए बिना उन स्तंभों से संबंधित हैं। मॉडल कर सकता है:
- विलीन हेडर सेल की पहचान करना और सभी उप-स्तंभों पर हेडर लागू करना
- खाली सेल को गलत पढ़े गए मान के बजाय स्पष्ट "परीक्षण नहीं" के रूप में पहचानना
- पदानुक्रमीय हेडर को पहचानना (उदाहरण के लिए, "रसायन %" प्रत्येक तत्व के लिए उप-हेडर के साथ)
- सबसे बाईं ओर के स्तंभ में हीट नंबर को मानों की प्रत्येक पंक्ति से जोड़ना
बहु-पृष्ठ तालिकाओं के लिए, मॉडल को पृष्ठ विराम मामले के स्पष्ट संभालने की आवश्यकता है: पृष्ठ 1 से स्तंभ हेडर पृष्ठ 2 पर डेटा पंक्तियों तक प्रसारित किए जाने चाहिए जहाँ वे दिखाई नहीं देते। इसके लिए दस्तावेज़-स्तर के संदर्भ की आवश्यकता होती है जो पृष्ठों को स्वतंत्र रूप से नहीं बल्कि क्रम में संसाधित करता है।
विभाजन: तालिका से रिकॉर्ड तक
तालिका निष्कर्षण के बाद, सिस्टम को तालिका को व्यक्तिगत रिकॉर्ड में विभाजित करना चाहिए—प्रत्येक हीट या लाइन आइटम के लिए एक। यह विभाजन चरण तार्किक रूप से क्षेत्र निष्कर्षण चरण से अलग है और इसके स्वयं के तर्क की आवश्यकता है:
पंक्ति-आधारित विभाजन: तालिका में प्रत्येक पंक्ति एक रिकॉर्ड है। पहले स्तंभ में हीट संख्या प्राथमिक कुंजी है। यह बहु-हीट समेकित प्रमाणपत्रों के लिए सामान्य मामला है।
समूह-आधारित विभाजन: कई पंक्तियाँ एक ही हीट (कई नमूना परिणाम) से संबंधित होती हैं। सिस्टम को समूह सीमाओं का पता लगाना चाहिए—आमतौर पर एक विलीन सेल या दोहराई गई हीट संख्या—और बहु-नमूना डेटा के लिए नेस्टेड array के साथ पंक्तियों को एक एकल हीट रिकॉर्ड में एकत्रित करना चाहिए।
क्रॉस-संदर्भ विभाजन: पंक्ति आइटम्स हीट नंबर का संदर्भ देते हैं जो दस्तावेज़ में अन्य स्थानों पर दिखाई देते हैं (उदाहरण के लिए, एक पैकिंग सूची तालिका एक अलग रसायन अनुभाग में तालिकाबद्ध हीट नंबर का संदर्भ देती है)। निष्कर्षण को पूर्ण रिकॉर्ड बनाने के लिए दस्तावेज़ के भीतर क्रॉस-संदर्भ की आवश्यकता होती है।
TestCert जैसे प्लेटफॉर्म एक स्कीमा-संचालित निष्कर्षण पाइपलाइन के माध्यम से सभी तीन विभाजन पैटर्न को संभालते हैं, जहाँ लागू विभाजन पैटर्न का चयन सेवन के समय दस्तावेज़ वर्गीकरण के आधार पर किया जाता है।
बहु-पृष्ठ तालिकाओं में पृष्ठ विराम को संभालना
बहु-पृष्ठ तालिका मामला बड़े परियोजना दस्तावेज़ पैकेज के लिए सामान्य है। सही दृष्टिकोण:
- पृष्ठ 1 पर तालिका का पता लगाएँ, स्तंभ हेडर और उनकी स्थिति सहित
- यह पहचानें कि तालिका जारी है (आमतौर पर "जारी" लेबल, मिलान स्तंभ संरचना, या समापन सीमा की अनुपस्थिति के माध्यम से)
- पृष्ठ 1 से स्तंभ हेडर मैपिंग संग्रहीत करें
- उस मैपिंग को बाद के पृष्ठों पर डेटा पंक्तियों पर लागू करें
- रिकॉर्ड में विभाजित करने से पहले पूर्ण तालिका का पुनर्निर्माण करें
ऐसे निष्कर्षक जो पृष्ठों को स्वतंत्र रूप से संसाधित करते हैं—लागत कारणों के लिए एक सामान्य डिज़ाइन—इस मामले में चुप्पी से विफल होते हैं। वे पृष्ठ 1 को सही तरीके से निकालते हैं और निरंतरता पृष्ठों के लिए अधूरे या गलत रिकॉर्ड प्राप्त करते हैं।
बहु-पंक्ति निष्कर्षण के बाद सत्यापन
निकाली गई प्रत्येक पंक्ति आइटम रिकॉर्ड को स्वतंत्र रूप से सत्यापित किया जाना चाहिए:
- क्या रसायन योग जाँच पास होती है? (कार्बन + मैंगनीज़ + सिलिकॉन + ... निर्दिष्ट ग्रेड के लिए प्रशंसनीय होना चाहिए)
- क्या यांत्रिक मान निर्दिष्ट मानक की सीमा के भीतर हैं?
- क्या हीट संख्या मौजूद है और बैच के भीतर अद्वितीय है?
- क्या आवश्यक फ़ील्ड भरी हुई हैं? (कुछ बहु-हीट तालिकाएँ संक्षिप्तता के लिए दोहराए गए मानों को छोड़ देती हैं; लापता मानों को चिह्नित किया जाना चाहिए, शून्य के रूप में चुप्पी से स्वीकार नहीं किया जाना चाहिए)
दस्तावेज़-स्तर के बजाय रिकॉर्ड-स्तर पर सत्यापन एक वैध हीट को एक ही प्रमाणपत्र पर अन्य हीट्स में समस्याओं को छिपाने से रोकता है।
अक्सर पूछे जाने वाले सवाल
एक प्रमाणपत्र निष्कर्षक विश्वसनीय रूप से कितने पंक्ति आइटम्स को संभाल सकता है?
कोई निश्चित अधिकतम नहीं है, लेकिन बहुत बड़ी तालिकाओं (50+ पंक्तियों) के साथ सटीकता में कमी की प्रवृत्ति होती है क्योंकि संचयी लेआउट अनुमान त्रुटियाँ। बहुत बड़े समेकित प्रमाणपत्रों के लिए, निष्कर्षण से पहले दस्तावेज़ को पृष्ठ या अनुभाग द्वारा विभाजित करना और बाद में परिणामों को मिलाना विश्वसनीयता में सुधार करता है। व्यावहारिक रूप से, अधिकांश उत्पादन MTCs के पास दस्तावेज़ प्रति 1–20 हीट्स होते हैं।
एक सिस्टम कुछ तत्वों के लिए लापता रसायन के साथ एक पंक्ति आइटम को कैसे संभालना चाहिए?
खाली सेल को शून्य के रूप में नहीं बल्कि null (परीक्षण नहीं) के रूप में दर्ज किया जाना चाहिए। कार्बन का शून्य मान रासायनिक रूप से अर्थहीन है; null का अर्थ है कि तत्व विशेषज्ञता द्वारा आवश्यक नहीं था या परीक्षण नहीं किया गया था। जब रिकॉर्ड का उपयोग मानक सत्यापन के लिए किया जाता है तो अंतर महत्वपूर्ण है—null को "न्यूनतम से नीचे" विफलता को ट्रिगर नहीं करना चाहिए।
क्या निष्कर्षण एक ऐसे प्रमाणपत्र को संभाल सकता है जहाँ प्रत्येक हीट का एक अलग लागू ग्रेड है?
हाँ, यदि निष्कर्षण स्कीमा पंक्ति-प्रति-मानक/ग्रेड फ़ील्ड का समर्थन करता है। कुछ समेकित प्रमाणपत्र सभी हीट्स के लिए एक एकल ग्रेड निर्दिष्ट करते हैं (सरल); अन्य प्रत्येक हीट के लिए अलग ग्रेड सूचीबद्ध करते हैं (अधिक जटिल)। निष्कर्षक को यह पहचानना चाहिए कि कौन सा पैटर्न लागू होता है और तदनुसार मैप करना चाहिए। डाउनस्ट्रीम सत्यापन को फिर दस्तावेज़-स्तर के ग्रेड के बजाय प्रत्येक हीट को अपने निर्दिष्ट ग्रेड के विरुद्ध सत्यापित करना चाहिए।
क्या होता है जब तालिका हेडर पंक्ति तालिका के बीच में दोहराई जाती है (जैसा कि कुछ उपकरण पृष्ठांकन के लिए सम्मिलित करते हैं)?
दोहराई गई हेडर पंक्तियाँ एक ज्ञात PDF कलाकृति हैं। एक मजबूत निष्कर्षक डेटा बॉडी में दोहराई गई हेडर पंक्तियों को डेटा पंक्तियों के रूप में व्यवहार करने के बजाय पहचानता है और अनदेखा करता है। पंक्ति सामग्री जो स्तंभ हेडर पैटर्न से बिल्कुल मेल खाती है, को हेडर के रूप में वर्गीकृत किया जाना चाहिए और डेटा निष्कर्षण से बाहर रखा जाना चाहिए।
मैं एक ऐसे प्रमाणपत्र को कैसे संभालूँ जहाँ कुछ हीट्स के पास अनुपूरक परीक्षण डेटा है और अन्य के पास नहीं है?
निष्कर्षण स्कीमा को अनुपूरक परीक्षण फ़ील्ड को वैकल्पिक के रूप में परिभाषित करना चाहिए। अनुपूरक डेटा वाले हीट्स इन फ़ील्ड को भरते हैं; बिना वाले null छोड़ते हैं। समीक्षक इंटरफेस अनुपूरक डेटा की उपस्थिति या अनुपस्थिति को दृश्यमान बनाना चाहिए, ताकि समीक्षा करने वाले यह पुष्टि कर सकें कि अनुपूरक डेटा की अनुपस्थिति निष्कर्षण मिस के बजाय वास्तविक दस्तावेज़ सामग्री को प्रतिबिंबित करती है।
Ready to automate your certificate workflow?
Try TestCert free