Skip to main content
บล็อก·2 นาทีในการอ่าน·

การสกัดหมายเลขแบตช์จาก PDF เป็นปัญหาที่แก้ไขแล้ว ทีมของคุณเพียงแต่ยังไม่รู้ว่า

ข้อมูลเชิงลึกด้านอุตสาหกรรม

กระบวนการตรวจสอบขากเข้าของบริษัท โรงแรม ผลิตโครงสร้างขนาดกลางมีลักษณะดังนี้ รถบรรทุกมาถึง คนขับสินค้าปล่อยชุดที่มีใบรับรองโรงงานจริงหรือ PDF ที่พิมพ์ออกมา เจ้าหน้าที่รับสินค้าเปิดใบรับรองแต่ละใบ ค้นหาหมายเลขแบตช์ พิมพ์ลงในเซลล์ของสเปรดชีตที่ใช้ร่วมกัน จดหมายเลขคำสั่งซื้อ และไปที่อันถัดไป ในวันที่มีการรับสินค้าคึกคัก นั่นคือ 40–60 รายการป้อนหมายเลขแบตช์ กระบวนการใช้เวลาประมาณ 90 นาที

90 นาทีนั้นสร้างสเปรดชีตที่มีหมายเลขแบตช์ที่อาจถูกต้องหรืออาจไม่ถูกต้อง ข้อผิดพลาดการเขียนในรหัสแบตช์อักษรตัวเลข (ตัวอย่างเช่น การพิมพ์ "A2B347" เป็น "AB2347") เป็นเรื่องปกติและมักจะไม่สังเกตเห็นจนกว่าการสอบถามการติดตามแบตช์จะล้มเหลวเมื่อหลายเดือนต่อมา ใบรับรองบางฉบับเป็นสำเนาของสำเนาที่มีปัญหาความตัดสิน บางคนมาพร้อมการหมุน 90 องศา บางรายใช้ "Melt No." ขณะที่คนอื่นใช้ "Heat No." หรือ "Cast No." — ข้อมูลเดียวกัน ป้ายชื่อต่างกัน

สเปรดชีตจะถูกป้อนลงในระบบ ERP ด้วยตนเองโดยบุคคลอื่น ซึ่งเป็นการสร้างสิ่งที่สองสำหรับข้อผิดพลาด ไฟล์ PDF เดิมถูกเก็บไว้ในโฟลเดอร์ตามวันที่ หากมีคนที่ต้องการค้นหาหมายเลขแบตช์เฉพาะในภายหลัง พวกเขาค้นหาในสเปรดชีตก่อน จากนั้นขุดเจาะลึกลงไปในโฟลเดอร์หากรายการสเปรดชีตไม่ถูกต้อง

อะไรที่ทำให้การสกัดหมายเลขแบตช์ยาก (และสิ่งที่ไม่ได้)

ความท้าทายทางเทคนิคในการสกัดหมายเลขแบตช์อัตโนมัติเป็นที่เข้าใจอย่างดี:

รูปแบบป้ายชื่อฟิลด์ โรงงานต่าง ๆ ใช้ป้ายชื่อต่าง ๆ สำหรับฟิลด์เดียวกัน "Heat No." "Heat Number" "Melt No." "Cast No." "Charge No." และ "HT#" ทั้งหมดหมายถึงสิ่งเดียวกัน วิธีการ OCR บวกคำหลักแบบง่ายล้มเหลวกับตัวแปรที่มันไม่เคยเห็น การสกัดแบบ AI เรียนรู้ว่าป้ายชื่อเหล่านี้เทียบเท่ากันจากการใช้ความหมาย และสกัดค่าที่เกี่ยวข้องโดยไม่คำนึงถึงว่าป้ายชื่อใดปรากฏขึ้น

การแปรผันของเค้าโครงเอกสาร รูปแบบใบรับรองโรงงานไม่ได้มาตรฐาน โรงงานบางแห่งใช้เค้าโครงแบบตารางที่มีเซลล์ที่มีป้ายกำกับ อื่น ๆ ใช้ย่อหน้าข้อความอิสระ ("วัสดุจากแบตช์ 8A3291 ได้รับการทดสอบ...") บางแห่งจัดระเบียบตามประเภทการทดสอบ (ส่วนวิทยาศาสตร์ ส่วนคุณสมบัติเชิงกลไก) รูปแบบการสกัดที่ได้รับการฝึกฝนตามรูปแบบของโรงงานแห่งหนึ่งอาจล้มเหลวอย่างสิ้นเชิงในรูปแบบของโรงงานอื่นหากพึ่งพาคนกล่าวอยู่เป็นกฎเกณฑ์แทนการเข้าใจแบบความหมาย

ปัญหาคุณภาพการสแกน เอกสารที่หมุน สำเนาความตัดสินต่ำ และคำอธิบายมือเขียนในข้อความพิมพ์สร้างความท้าทายให้กับ OCR ศิลปะสมัยใหม่เอกสาร AI จัดการการหมุนโดยอัตโนมัติและใช้การประมวลผลล่วงหน้าของภาพเพื่อปรับปรุงความตัดสินก่อนการสกัด ช่องว่างความแม่นยำระหว่าง PDF ดิจิทัลที่สะอาดและการสแกนสำเนาฟิลม์รุ่นที่สามนั้นเป็นจริง แต่สามารถจัดการได้ — โดยทั่วไปแล้ว 95–97% ความแม่นยำในการสกัดเอกสารสะอาดเทียบกับ 85–90% ในการสแกนที่เสื่อมสภาพ

ใบรับรองแบตช์หลายตัว ใบรับรองบางฉบับครอบคลุมหมายเลขแบตช์หลายตัว — การแปลงม้วนเป็นแผ่นโลหะที่ใบรับรองอ้างอิงทั้งแบตช์ม้วนเดิมและแบตช์การผลิตแผ่นโลหะ หรือใบรับรองรวมที่ครอบคลุมรายการสั่งซื้อหลายรายการ การสกัดจำเป็นต้องระบุหมายเลขแบตช์ใดที่สอดคล้องกับรายการสั่งซื้อหรือผลิตภัณฑ์ใด ไม่ใช่เพียงการสกัดรายชื่อตัวเลขจากเอกสาร

ไม่มีปัญหาที่ยังไม่ได้แก้ไข รูปแบบการสกัดมีอยู่ เครื่องมือ OCR จัดการกับคุณภาพการสแกน คำถามคือว่าการใช้งานนั้นแม่นยำเพียงพอสำหรับการใช้งานจริงหรือไม่

อัตราความแม่นยำมีลักษณะเป็นอย่างไรในทางปฏิบัติ

สำหรับ PDF ดิจิทัลที่มีคุณภาพสูงจากโรงงานใหญ่ การสกัดหมายเลขแบตช์ที่ใช้ AI ทำได้ 97–99% ความแม่นยำในฟิลด์หมายเลขแบตช์โดยเฉพาะ นี่ดีกว่าการป้อนด้วยตนเอง ซึ่งมีอัตราข้อผิดพลาดที่ได้รับการบันทึกไว้ 2–5% ในรหัสอักษรตัวเลขที่ป้อนเข้ามาภายใต้ความดันเวลา

สำหรับการสแกนที่มีคุณภาพต่ำกว่า (การส่ง fax ที่ถูกโฟโตคัปปี้ สำเนารุ่นที่สาม) ความแม่นยำลดลงเหลือ 88–93% ในระดับนี้ ขั้นตอนการทบทวนอีกครั้งของมนุษย์สำหรับการสกัดที่ถูกทำเครื่องหมายความเชื่อมั่นต่ำนั้นเหมาะสม ระบบสกัดสิ่งที่สามารถสกัดได้อย่างมั่นใจ ทำเครื่องหมายสิ่งที่ไม่สามารถทำได้ และเข้าคิวเอกสารที่ทำเครื่องหมายไว้สำหรับการตรวจสอบด้วยตนเอง — ชุดที่เล็กลงมากเมื่อเทียบกับปริมาณการไหลเข้าทั้งหมด

ขั้นตอนการทำงานที่รวมมนุษย์บวก AI บรรลุความแม่นยำที่ดีกว่าการทำด้วยตนเองอย่างสมบูรณ์ด้วยปริมาณการไหลที่สูงกว่า: AI จัดการ 90–95% เอกสารโดยไม่มีการแทรกแซงของมนุษย์ และการทบทวนของมนุษย์มุ่งเน้นไปที่ 5–10% ที่ AI ไม่แน่นอน

ผลกระทบ Downstream ต่อการติดตามและการเชื่อมโยง ERP

ความแม่นยำของหมายเลขแบตช์ไม่ใช่เพียงปัญหาคุณภาพข้อมูล มันเป็นรากฐานของการติดตามวัสดุในผลิตภัณฑ์โลหะที่ผลิต

เมื่อเกิดเหตุการณ์คุณภาพ — ความล้มเหลวในภาคสนาม คำร้องเรียนของลูกค้า การเรียกคืน — คำถามแรกคือ "วัสดุนี้มาจากแบตช์ใด" หากหมายเลขแบตช์ในบันทึก ERP ไม่ถูกต้อง การสอบถามการติดตามจะล้มเหลว คุณไม่สามารถระบุได้ว่าชิ้นส่วนอื่นใดที่สร้างจากแบตช์เดียวกัน คุณไม่สามารถดึงใบรับรองเดิมเพื่อตรวจสอบคุณสมบัติของวัสดุได้ คุณไม่สามารถติดตามผู้จัดจำหน่ายหรือโรงงานสำหรับการแก้ไข

ในการผลิตภาชนะความดัน โครงสร้าง และท่อส่ง การติดตามแบตช์ไม่ใช่ทางเลือก ASME Section VIII AWS D1.1 และแผนคุณภาพของลูกค้าจำนวนมากต้องให้หมายเลขแบตช์ถูกบันทึกไว้และสามารถติดตามได้ผ่านบันทึกการผลิตไปยังผลิตภัณฑ์ที่เสร็จสิ้น ระบบการจัดเก็บใบรับรองที่ใช้การป้อนข้อมูลด้วยตนเองสร้างบันทึกการติดตามด้วยความแม่นยำที่แตกต่างกัน ข้อผิดพลาดเป็นเสียง — พวกเขาไม่ประกาศตัวจนกว่าใครบางคนพยายามใช้บันทึก

การสกัดอัตโนมัติพร้อมการตรวจสอบ (หมายเลขแบตช์ที่สกัดได้รับการยืนยันกับ PDF ใบรับรองหลังการสกัด) สร้างบันทึกที่แม่นยำเช่นใบรับรองเอง การเชื่อมโยงระหว่างบันทึก ERP และเอกสารใบรับรองเดิมนั้นเป็นอัตโนมัติแทนที่จะพึ่งพาใครบางคนในการจัดเก็บ PDF ที่ถูกต้องในโฟลเดอร์ที่ถูกต้อง

กระบวนการป้อนข้อมูลรายวัน 90 นาทีก็กลายเป็นการดูดซึมแบบเกือบแบบเรียลไทม์: ใบรับรองสามารถประมวลผลได้ในอีกไม่กี่นาทีหลังการรับ หมายเลขแบตช์อยู่ใน ERP ก่อนวัสดุถึงพื้นห้องเก็บของ และบันทึกการติดตามจะเสร็จสิ้นก่อนการผลิตเริ่มต้นแทนที่จะประกอบหลังเหตุการณ์

สิ่งที่ต้องอ่านถัดไป