Skip to main content
ब्लॉग·6 मिनट पढ़ना·

PDF से हीट नंबर निष्कर्षण एक समाधान की गई समस्या है। आपकी टीम को अभी तक पता नहीं है।

उद्योग अंतर्दृष्टि

एक मध्यम आकार के संरचनात्मक फैब्रिकेटर में इनकमिंग इंस्पेक्शन प्रक्रिया इस तरह दिखती है: एक ट्रक पहुँचता है, ड्राइवर एक पैकेज डालता है जिसमें भौतिक मिल सर्टिफिकेट या मुद्रित PDF की एक स्टैक होती है। रिसीविंग क्लर्क प्रत्येक सर्टिफिकेट को खोलता है, हीट नंबर खोजता है, इसे एक साझा स्प्रेडशीट के सेल में टाइप करता है, PO नंबर नोट करता है, और अगले पर जाता है। एक व्यस्त रिसीविंग दिन पर, यह 40–60 हीट नंबर प्रविष्टियाँ हैं। प्रक्रिया लगभग 90 मिनट लेती है।

वे 90 मिनट एक स्प्रेडशीट बनाते हैं जिसमें हीट नंबर हो सकते हैं या नहीं हो सकते। अल्फान्यूमेरिक हीट कोड में ट्रांसपोजिशन त्रुटियाँ (उदाहरण के लिए, "A2B347" को "AB2347" के रूप में टाइप करना) आम हैं और अक्सर महीनों बाद तक नज़रअंदाज़ की जाती हैं जब एक हीट ट्रेसेबिलिटी क्वेरी विफल हो जाती है। कुछ सर्टिफिकेट कंट्रास्ट समस्याओं वाली फोटोकॉपी की फोटोकॉपी हैं। कुछ 90 डिग्री घुमाकर आते हैं। कुछ "Melt No." का उपयोग करते हैं जबकि अन्य "Heat No." या "Cast No." का उपयोग करते हैं — समान डेटा, विभिन्न लेबल।

स्प्रेडशीट फिर किसी अन्य व्यक्ति द्वारा ERP सिस्टम में मैन्युअल रूप से इनपुट की जाती है, जिससे त्रुटि का दूसरा अवसर पैदा होता है। मूल PDF फ़ाइलों को तारीख के अनुसार एक फ़ोल्डर में संग्रहीत किया जाता है। यदि किसी को बाद में एक विशेष हीट नंबर खोजने की आवश्यकता है, तो वह पहले स्प्रेडशीट में खोज करता है और फिर फ़ोल्डर में खुदाई करता है यदि स्प्रेडशीट प्रविष्टि गलत है।

हीट नंबर निष्कर्षण को कठिन क्या बनाता है (और क्या नहीं)

स्वचालित हीट नंबर निष्कर्षण में तकनीकी चुनौतियाँ अच्छी तरह समझी जाती हैं:

फील्ड लेबल वेरिएशन। विभिन्न मिलें एक ही फील्ड के लिए विभिन्न लेबल का उपयोग करती हैं। "Heat No.", "Heat Number", "Melt No.", "Cast No.", "Charge No." और "HT#" सभी एक ही चीज़ को संदर्भित करते हैं। एक सरल OCR-प्लस-कीवर्ड दृष्टिकोण उन वेरिएशन पर विफल हो जाता है जिन्हें उसने नहीं देखा है। AI-आधारित निष्कर्षण यह सीखता है कि ये लेबल शब्दार्थक रूप से समान हैं और संबंधित मान निकालता है, चाहे कोई भी लेबल दिखे।

दस्तावेज़ लेआउट वेरिएशन। मिल सर्टिफिकेट फॉर्मेट मानकीकृत नहीं हैं। कुछ मिलें लेबल किए गए सेल के साथ टेबुलर लेआउट का उपयोग करती हैं। अन्य फ्री-टेक्स्ट पैराग्राफ का उपयोग करते हैं ("हीट 8A3291 से सामग्री का परीक्षण किया गया था...")। कुछ परीक्षण प्रकार के आधार पर संगठित होते हैं (रसायन विज्ञान अनुभाग, यांत्रिक गुण अनुभाग)। एक मिल के फॉर्मेट पर प्रशिक्षित एक निष्कर्षण मॉडल दूसरी मिल के फॉर्मेट पर पूरी तरह विफल हो सकता है यदि यह स्थितিगत नियमों के बजाय शब्दार्थक समझ पर निर्भर करता है।

स्कैन क्वालिटी समस्याएं। घुमाए गए दस्तावेज़, कम-कंट्रास्ट फोटोकॉपी, और मुद्रित पाठ पर हाथ से लिखे गए एनोटेशन OCR चुनौतियाँ पैदा करते हैं। आधुनिक दस्तावेज़ AI घूर्णन को स्वचालित रूप से संभालता है और निष्कर्षण से पहले कंट्रास्ट में सुधार के लिए इमेज प्री-प्रोसेसिंग लागू करता है। स्वच्छ डिजिटल PDF और तीसरी पीढ़ी के फोटोकॉपी स्कैन के बीच सटीकता का अंतर वास्तविक लेकिन प्रबंधनीय है — आमतौर पर स्वच्छ दस्तावेज़ों पर 95–97% निष्कर्षण सटीकता बनाम क्षीण स्कैन पर 85–90%।

मल्टी-हीट सर्टिफिकेट। कुछ सर्टिफिकेट कई हीट नंबर को कवर करते हैं — कॉइल-से-प्लेट कन्वर्जन जहाँ सर्टिफिकेट मूल कॉइल हीट और प्लेट प्रोडक्शन हीट दोनों को संदर्भित करता है, या एक संयुक्त सर्टिफिकेट जो कई PO लाइन आइटम को कवर करता है। निष्कर्षण को यह पहचानना होगा कि कौन सी हीट नंबर किस लाइन आइटम या प्रोडक्ट से मेल खाती है, केवल दस्तावेज़ से संख्याओं की एक सूची निकालने के बजाय।

ये कोई भी अनसुलझी समस्याएँ नहीं हैं। निष्कर्षण मॉडल मौजूद हैं। OCR इंजन स्कैन क्वालिटी संभालते हैं। सवाल यह है कि क्या कार्यान्वयन प्रोडक्शन उपयोग के लिए सटीक है।

व्यावहारिक रूप से सटीकता दरें कैसी दिखती हैं

बड़ी मिलों से उच्च-गुणवत्ता वाली डिजिटल PDF के लिए, AI-आधारित हीट नंबर निष्कर्षण विशेष रूप से हीट नंबर फील्ड में 97–99% सटीकता प्राप्त करता है। यह मैन्युअल कीइंग से बेहतर है, जिसमें समय के दबाव में इनपुट किए गए अल्फान्यूमेरिक कोड पर 2–5% की दस्तावेज़ की गई त्रुटि दर है।

निम्न-गुणवत्ता वाली स्कैन (फोटोकॉपी की गई फ़ैक्स ट्रांसमिशन, तीसरी पीढ़ी की कॉपी) के लिए, सटीकता 88–93% तक गिर जाती है। इस स्तर पर, फ्लैग किए गए कम-आत्मविश्वास निष्कर्षणों के लिए मानव समीक्षा चरण उपयुक्त है। सिस्टम जो कुछ आत्मविश्वास के साथ कर सकता है उसे निकालता है, जो नहीं कर सकता उसे फ्लैग करता है, और मैन्युअल समीक्षा के लिए फ्लैग किए गए दस्तावेज़ों को क्यू करता है — जो पूरे इनकमिंग वॉल्यूम से एक बहुत छोटा सेट है।

संयुक्त मानव-प्लस-AI वर्कफ़्लो उच्च थ्रूपुट पर पूरी तरह मैन्युअल से बेहतर सटीकता प्राप्त करता है: AI मानव हस्तक्षेप के बिना 90–95% दस्तावेज़ों को संभालता है, और मानव समीक्षा उस 5–10% पर केंद्रीभूत होती है जहाँ AI अनिश्चित है।

ट्रेसेबिलिटी और ERP लिंकेज पर डाउनस्ट्रीम प्रभाव

हीट नंबर सटीकता केवल डेटा गुणवत्ता का मुद्दा नहीं है। यह निर्मित धातु उत्पादों में सामग्री ट्रेसेबिलिटी की नींव है।

जब एक गुणवत्ता घटना होती है — एक क्षेत्र विफलता, एक ग्राहक शिकायत, एक रिकॉल — पहला सवाल है "यह सामग्री किस हीट से थी?" यदि ERP रिकॉर्ड में हीट नंबर गलत है, तो ट्रेसेबिलिटी क्वेरी विफल हो जाता है। आप यह नहीं पहचान सकते कि समान हीट से कौन से अन्य हिस्से बनाए गए थे। आप सामग्री के गुणों को सत्यापित करने के लिए मूल सर्टिफिकेट नहीं खींच सकते। आप सुधारात्मक कार्रवाई के लिए आपूर्तिकर्ता या मिल तक पीछे नहीं हट सकते।

दबाव पोत, संरचनात्मक और पाइपलाइन फैब्रिकेशन में, हीट ट्रेसेबिलिटी वैकल्पिक नहीं है। ASME Section VIII, AWS D1.1, और कई ग्राहक गुणवत्ता योजनाएं आवश्यकता देती हैं कि हीट नंबर दस्तावेज़ित हों और फैब्रिकेशन रिकॉर्ड के माध्यम से तैयार उत्पाद तक ट्रेसेबल हों। मैन्युअल प्रविष्टि के आधार पर एक MTC फाइलिंग सिस्टम परिवर्तनीय सटीकता के ट्रेसेबिलिटी रिकॉर्ड पैदा करता है। त्रुटियाँ मौन हैं — जब तक कोई रिकॉर्ड का उपयोग करने का प्रयास नहीं करता वे खुद को घोषित नहीं करते।

सत्यापन के साथ स्वचालित निष्कर्षण (निकाली गई हीट नंबर निष्कर्षण के बाद सर्टिफिकेट PDF के विरुद्ध पुष्टि की जाती है) एक रिकॉर्ड बनाता है जो सर्टिफिकेट ही के रूप में सटीक है। ERP रिकॉर्ड और मूल सर्टिफिकेट दस्तावेज़ के बीच लिंक स्वचालित है, किसी को सही PDF को सही फ़ोल्डर में फाइल करने पर निर्भर करने के बजाय।

दैनिक 90-मिनट का डेटा एंट्री प्रक्रिया भी निकट-रीयल-टाइम इनटेक में बदल जाता है: सर्टिफिकेट रिसीप्ट के मिनटों में संसाधित किए जा सकते हैं, हीट नंबर सामग्री शॉप फ्लोर तक पहुंचने से पहले ERP में होते हैं, और ट्रेसेबिलिटी रिकॉर्ड फैब्रिकेशन शुरू होने से पहले पूरा होता है, तथ्य के बाद जोड़ा जा रहा है।

अगला क्या पढ़ें