การแยกข้อมูลใบรับรองการทดสอบโรงสี ด้วย AI: วิธีการ

คำตอบด่วน

Quick Answer

มีวิธี AI การแยกข้อมูล MTC สามวิธีที่ใช้ได้จริง: การจับคู่เทมเพลตที่ใช้กฎ (ความแม่นยำสูง อ่อนไหวต่อเลย์เอาต์ใหม่) OCR บวกกับการประมวลผลภายหลัง (ความครอบคลุมกว้าง การเกิดข้อผิดพลาดในตารางสูง) และการแยกที่ใช้ vision LLM (ยืดหยุ่น ไม่ขึ้นกับเลย์เอาต์ ต้องการการให้คะแนนความมั่นใจและการตรวจสอบของมนุษย์สำหรับกรณีการปฏิบัติตามข้อกำหนด)

ใบรับรองการทดสอบโรงสีมีข้อมูลประจำตัววัสดุที่สมบูรณ์ของเลอที่เหล็ก ท่อ หรือแผ่น: หมายเลขเลอ องค์ประกอบเคมี ผลการทดสอบทางกล มาตรฐานที่ทำการทดสอบวัสดุและการประกาศรับรองจากโรงสี การรับข้อมูลนี้ในระบบ ERP หรือระบบคุณภาพของคุณโดยไม่ต้องป้อนใหม่ด้วยตนเองคือปัญหาหลักที่การแยกข้อมูล MTC ด้วย AI แก้ไข

คำแนะนำนี้แบ่งรายละเอียดวิธีการแยกหลักสามวิธี ที่ซึ่งวิธีแต่ละวิธีทำงานได้ดี และตัวแยกวิเคราะห์ MTC ระดับการผลิตจริงต้องการอะไรจริงๆ

วิธีที่ 1: การจับคู่เทมเพลตที่ใช้กฎ

ตัวแยกวิเคราะห์ที่ใช้กฎใช้แผนที่พิกัดที่กำหนดไว้ล่วงหน้าหรือรูปแบบ regex ที่เชื่อมโยงกับเลย์เอาต์โรงสีเฉพาะ หากคุณรู้ว่าโรงสี X วางเปอร์เซ็นต์คาร์บอนที่พิกัด (412, 318) บนหน้าแรกเสมอ คุณสามารถแยกมันได้อย่างกำหนดแน่นอน

เมื่อใช้ได้ดี:

ความสัมพันธ์กับผู้จำหน่ายเดียวที่มีรูปแบบเอกสารที่เสถียร
การไหลของใบรับรองปริมาณสูง รูปแบบที่เหมือนกัน
สภาพแวดล้อมที่ต้องการการแยกแบบ 100% กำหนด และการเปลี่ยนแปลงเลย์เอาต์นั้นหายาก

ข้อจำกัด:

โรงสีใหม่แต่ละแห่งหรือเวอร์ชันเทมเพลตใหม่ต้องใช้กฎชุดใหม่
การเปลี่ยนเลย์เอาต์ใดๆ ทำให้การแยกล้มเหลวแบบเงียบ ๆ (ไม่มีสัญญาณความมั่นใจ)
ภาระการบำรุงรักษาปรับขนาดตามจำนวนซัพพลายเยอร์
ล้มเหลวอย่างสิ้นเชิงในเอกสารที่สแกน

สำหรับองค์กรที่ได้รับ MTC จากโรงสีสิบแห่งหรือน้อยกว่านั้นด้วยรูปแบบที่เสถียร การแยกที่ใช้กฎเป็นตัวเลือกที่สมเหตุสมผลและต่างาน สำหรับองค์กรที่มีซัพพลายเยอร์หลายสิบแห่ง ภาระการบำรุงรักษาจะกลายเป็นข้อห้าม

วิธีที่ 2: OCR บวกกับการประมวลผลภายหลัง

OCR แบบดั้งเดิมแปลงรูปภาพเอกสารเป็นข้อความ จากนั้นสคริปต์การประมวลผลภายหลังใช้การจดจำเอนทิตีที่ตั้งชื่อไว้เพื่อค้นหาค่าเขตข้อมูล วิธีนี้ยืดหยุ่นกว่าการแยกวิเคราะห์ที่ใช้กฎเนื่องจากมันจัดการกับเลย์เอาต์ที่หลากหลายผ่าน NLP แทนการค้นหาพิกัด

ไปป์ไลน์มักจะมีลักษณะดังนี้:

เรนเดอร์ PDF เป็นรูปภาพ
OCR (Tesseract, AWS Textract, Azure Form Recognizer)
การทำให้ข้อความปกติ
การจดจำเอนทิตีที่ตั้งชื่อไว้เพื่อระบุป้ายเขตข้อมูล
ตรรกะการเชื่อมโยงค่าเพื่อเชื่อมโยงป้ายกำกับกับค่า
การแมปสคีมา

ลักษณะความแม่นยำ:

เขตข้อมูลข้อความอิสระ (ชื่อโรงสี อ้างอิงมาตรฐาน): 90–95%
คู่คีย์-ค่าง่ายๆ: 88–94%
ตารางองค์ประกอบเคมี: 75–88% (OCR มักจะสูญเสียโครงสร้างตาราง)
ตารางคุณสมบัติทางกลหลายคอลัมน์: 70–85%

จุดอ่อนพื้นฐานคือ OCR ทำงานกับอักขระและสูญเสียบริบทเชิงพื้นที่ ตารางองค์ประกอบเคมีที่มีแปดองค์ประกอบทั่วแถวต้องให้โปรเซสเซอร์ภายหลังสร้างการเชื่อมโยงคอลัมน์ใหม่จากข้อความดิบ—การดำเนินการที่อ่อนไหวซึ่งลดลงอย่างมีนัยสำคัญด้วยเลย์เอาต์ที่ไม่ใช่มาตรฐาน

วิธีที่ 3: การแยกที่ใช้ Vision LLM

โมเดลภาษาขนาดใหญ่ที่มีความสามารถด้านการมองเห็น (โมเดล vision-language หรือ VLM) ประมวลผลหน้าที่เรนเดอร์เป็นรูปภาพหรือเป็นการแสดงแบบไฮบริดรูปภาพ+ข้อความ ซึ่งแตกต่างจากไปป์ไลน์ OCR โมเดลจะเข้าใจโครงสร้างตารางอย่างภาพ—มันเห็นว่าคอลัมน์ของตัวเลขอยู่ใต้ส่วนหัว "C%" และอนุมานความสัมพันธ์โดยไม่ต้องให้เลเยอร์ OCR อนุรักษ์มัน

วิธีการแยกในทางปฏิบัติ:

หน้า PDF ถูกเรนเดอร์เป็นรูปภาพความละเอียดสูง
VLM ได้รับรูปภาพโดยใช้พรอมต์ที่มีโครงสร้างระบุสคีมาเป้าหมาย (heat_number องค์ประกอบเคมี คุณสมบัติทางกล มาตรฐานที่ใช้บังคับ เป็นต้น)
โมเดลจะส่งกลับออบเจกต์ JSON ที่มีค่าที่แยกออกมาและคะแนนความมั่นใจต่อเขตข้อมูล
เขตข้อมูลที่มีความมั่นใจต่ำถูกสัญลักษณ์สำหรับการตรวจสอบของมนุษย์
ค่าที่ยืนยันจะถูกเขียนลงในฐานข้อมูลพร้อมกับการอ้างอิงเอกสารต้นทาง

ลักษณะความแม่นยำ (PDF ดั้งเดิม):

เขตข้อมูลตารางองค์ประกอบเคมี: 93–97%
เขตข้อมูลคุณสมบัติทางกล: 94–98%
หมายเลขเลอ/ชุด: 96–99%
อ้างอิงมาตรฐานและเกรด: 95–98%

ลักษณะความแม่นยำ (MTC ที่สแกน คุณภาพดี):

เขตข้อมูลตารางองค์ประกอบเคมี: 89–94%
เขตข้อมูลคุณสมบัติทางกล: 90–95%

แพลตฟอร์มเช่น TestCert ใช้วิธีการนี้ด้วยสคีมาที่ตระหนักถึงมาตรฐาน ดังนั้นค่าองค์ประกอบที่แยกออกมาจึงเปรียบเทียบกับข้อมูลอ้างอิง ASTM หรือ EN ที่เก็บไว้ทันทีแทนที่จะต้องมีขั้นตอนการตรวจสอบแยกต่างหาก

การจัดการกรณีที่ยาก

ใบรับรองหลายเลอ

บางแห่งให้บริการเหล็กออกเอกสาร PDF ฉบับเดียวที่ครอบคลุมหลายเลอ ตัวแยกมะต้องแบ่งเอกสารออกเป็นส่วนต่อเลอก่อนใช้สคีมาการแยก นี่ต้องมีขั้นตอนการแยกส่วนเบื้องต้นที่ระบุขอบเขตเลอ—มักจะขึ้นอยู่กับการเกิดขึ้นของหมายเลขเลอหรือตัวคั่นแถวตาราง

ข้อมูลการทดสอบเพิ่มเติม

MTC สำหรับวัสดุภาชนะเก็บส่วนเกินมักจะมีการทดสอบเพิ่มเติม (Charpy impact บันทึก PWHT ผลการทดสอบการกัดกร่อน) บนหน้าเพิ่มเติม ตัวแยกที่มีประสิทธิภาพแมปเหล่านี้ไปยังสคีมาข้อมูลเพิ่มเติมที่ขยายได้แทนที่จะทิ้งมัน

ใบรับรองหลายภาษา

ใบรับรอง EN 10204 จากโรงสียุโรปมักจะมาเป็นภาษาเยอรมัน ฝรั่งเศส หรืออิตาลี ตัวแยกที่ใช้ LLM จัดการสิ่งเหล่านี้ได้โดยไม่มีแบบจำลองภาษาแยกต่างหาก—แบบจำลองพื้นฐานเข้าใจความหมายของเขตข้อมูลในหลายภาษา—แม้ว่าความแม่นยำในภาษาที่ไม่ค่อยพบบ่อยนักจะลดลงเล็กน้อย

คำอธิบายประกอบที่เขียนด้วยมือ

ค่าใดๆ ที่เขียนด้วยมือบน MTC ที่พิมพ์ (เป็นเรื่องปกติสำหรับตราประทับผู้ตรวจสอบหรือการแก้ไขภาคสนาม) ควรจะดำเนินการเพื่อให้ได้รับการตรวจสอบของมนุษย์ แบบจำลองปัจจุบันจัดการข้อความที่พิมพ์และพิมพ์ด้วยเครื่องได้อย่างน่าเชื่อถือ; การเขียนด้วยมือคือจุดที่เสื่อมลงที่ทราบกันดี

ตัวแยกวิเคราะห์ MTC ระดับการผลิตต้องการอะไร

นอกเหนือจากความสามารถในการแยกข้อมูลดิบ การปรับใช้งานการผลิตต้องการ:

การให้คะแนนความมั่นใจต่อเขตข้อมูล — ไม่ใช่คะแนนเดียวที่ระดับเอกสาร
การกำหนดเส้นทางการปฏิเสธ — เอกสารต่ำกว่าเกณฑ์คุณภาพจะถูกเก็บไว้สำหรับการป้อนข้อมูลด้วยตนเองแบบเต็ม ไม่ใช่การแยกบางส่วน
การติดตามการตรวจสอบ — ใครแยกมา เมื่อใด สิ่งที่ถูกทำเครื่องหมาย สิ่งที่ได้รับการแก้ไข
การเก็บรักษาเอกสารต้นทางที่ไม่เปลี่ยนแปลง — PDF ต้นฉบับถูกเก็บไว้พร้อมกับบันทึกที่มีโครงสร้าง
การรวมการตรวจสอบมาตรฐาน — ค่าที่แยกออกมาตรวจสอบเทียบกับขีด จำกัด ในเวลาการแยก ไม่ใช่ดาวน์สตรีม
เอาต์พุต Webhook หรือ API — บันทึกที่แยกออกมาถูกผลักเข้าไปยัง ERP/MES โดยไม่มีขั้นตอนการส่งออกด้วยตนเอง

คำถามที่พบบ่อย

AI สามารถแยกข้อมูลจาก MTC ที่สแกนซึ่งถูกส่งแฟกซ์หลายครั้งได้หรือไม่

คุณภาพลดลงอย่างมีนัยสำคัญกับแต่ละรุ่น fax เอกสาร fax-of-a-fax มักจะตกต่ำกว่าเกณฑ์ความละเอียด 150 DPI ที่มีประสิทธิผลโดยที่รุ่น vision ทำงานได้อย่างน่าเชื่อถือ เอกสารเหล่านี้ควรถูกทำเครื่องหมายโดยอัตโนมัติและส่งไปยังการป้อนข้อมูลด้วยตนเอง การขอ PDF ใหม่โดยตรงจากโรงสีจะเป็นที่ต้องการเสมอเมื่อเป็นไปได้

AI จัดการใบรับรองที่มีเขตข้อมูลที่กำหนดเองหรือไม่ใช่มาตรฐานอย่างไร

ตัวแยกที่ใช้ LLM สามารถเปิดเขตข้อมูลที่ไม่รู้จักเป็นคู่คีย์-ค่าในที่เก็บ "ข้อมูลเพิ่มเติม" แทนที่จะทิ้งมัน จากนั้นผู้ตรวจสอบสามารถตัดสินใจว่าจะแมปค่าไปยังเขตข้อมูลสคีมาที่มีอยู่หรือบันทึกไว้เป็นข้อมูลเมตาเพิ่มเติม ตัวแยกวิเคราะห์ที่ใช้กฎเพียงแค่ทิ้งเขตข้อมูลที่ไม่รู้จัก

ความแม่นยำของการแยกจะปรับปรุงเมื่อเวลาผ่านไปหรือไม่

ใช่ ถ้าระบบออกแบบมาเพื่อจุดประสงค์นี้ การแก้ไขของผู้ตรวจสอบควรบันทึกและใช้เป็นระยะเพื่อปรับแต่งแบบจำลองการแยกหรือปรับปรุงเกณฑ์ความมั่นใจสำหรับรูปแบบโรงสีเฉพาะ ระบบที่ถือว่าเอกสารแต่ละฉบับเป็นการแยกใหม่โดยไม่เรียนรู้จากการแก้ไขจะถึงที่ราบเรียบอย่างรวดเร็ว

การแยก MTC ด้วย AI รองรับรูปแบบไฟล์ใดอีกนอกเหนือจาก PDF

PDF ดั้งเดิมและภาพ PDF ที่ถูกแรสเตอร์เป็นรูปแบบหลัก ไปป์ไลน์การผลิตส่วนใหญ่ยังจัดการ TIFF, JPEG และ PNG สำหรับเอกสารที่สแกน MTC ในรูปแบบ Excel (ทั่วไปจากโรงสีบางแห่งในเอเชีย) ต้องใช้เส้นทางการแยกแยกต่างหากที่อ่านโครงสร้างสเปรดชีตโดยตรงแทนที่จะเรนเดอร์เป็นรูปภาพ

ฉันตรวจสอบได้อย่างไรว่าเคมีที่แยกออกมาตรงกับมาตรฐานที่รายงาน

ตัวแยกควรส่งออกทั้งค่าที่แยกออกมาดิบและธงผ่าน/ล้มเหลวเทียบกับมาตรฐานที่ใช้บังคับ สิ่งนี้ต้องใช้ฐานข้อมูลมาตรฐานที่เก็บไว้และมีเวอร์ชัน (ขีด จำกัด ASTM EN API ASME ตามเกรด) ที่รวมเข้ากับไปป์ไลน์การแยก หากตัวแยกส่งออกเพียงค่าดิบเท่านั้น การตรวจสอบเป็นขั้นตอนด้วยตนเองแยกต่างหาก—ปฏิเสธความเป็นประโยชน์ของการทำงานอัตโนมัติส่วนใหญ่

Ready to automate your certificate workflow?

Try TestCert free

การแยกข้อมูลใบรับรองการทดสอบโรงสี ด้วย AI: วิธีการและการแลกเปลี่ยน