Skip to main content
Blog·5 Min. Lesezeit·

Die Extraktion von Schmelzennummern aus PDFs ist ein gelöstes Problem. Ihr Team weiß es nur noch nicht.

Brancheneinblick

Der Wareneingangsvorgang bei einem mittelgroßen Strukturfertigungsbetrieb sieht folgendermaßen aus: Ein LKW kommt an, der Fahrer legt ein Paket ab, das physische MTCs oder einen Stapel gedruckter PDFs enthält. Der Lagerhalter öffnet jedes Zertifikat, findet die Schmelzennummer, gibt sie in eine Zelle in einer gemeinsamen Tabellenkalkulation ein, notiert die Bestellnummer und geht zum nächsten über. An einem geschäftigen Wareneinnahmetag sind das 40–60 Schmelzennummerneingaben. Der Vorgang dauert etwa 90 Minuten.

Diese 90 Minuten produzieren eine Tabellenkalkulation mit Schmelzennummern, die korrekt sein können oder nicht. Transpositionsfehler bei alphanumerischen Schmelzencodes (z.B. Eingabe von „A2B347" als „AB2347") sind häufig und werden oft erst dann entdeckt, wenn eine Schmelzenrückverfolgungsanfrage Monate später fehlschlägt. Einige Zertifikate sind Kopien von Kopien mit Kontrastproblemen. Einige kommen um 90 Grad gedreht an. Einige verwenden „Melt No." wo andere „Heat No." oder „Cast No." verwenden — gleiche Daten, unterschiedliche Bezeichnung.

Die Tabellenkalkulation wird dann manuell von jemand anderem in das ERP-System eingegeben, was eine zweite Fehlermöglichkeit einführt. Die ursprünglichen PDFs werden in einem Ordner nach Datum abgelegt. Wenn jemand später eine bestimmte Schmelzennummer finden muss, sucht er zuerst in der Tabellenkalkulation und durchsucht dann den Ordner, wenn der Tabellenkalkulationseintrag falsch ist.

Was die automatische Schmelzennummernextraktion schwierig macht (und was nicht)

Die technischen Herausforderungen bei der automatisierten Schmelzennummernextraktion sind gut verstanden:

Feldbezeichnungsvariation. Verschiedene Werke verwenden unterschiedliche Bezeichnungen für dasselbe Feld. „Heat No.", „Heat Number", „Melt No.", „Cast No.", „Charge No." und „HT#" beziehen sich alle auf dasselbe. Ein einfacher OCR-plus-Schlüsselwort-Ansatz versagt bei den Varianten, die er noch nicht gesehen hat. KI-basierte Extraktion lernt, dass diese Bezeichnungen semantisch äquivalent sind, und extrahiert den zugehörigen Wert unabhängig davon, welche Bezeichnung erscheint.

Dokumentenlayout-Variation. Werkszertifikatsformate sind nicht standardisiert. Einige Werke verwenden tabellarische Layouts mit beschrifteten Zellen. Andere verwenden Freitextabsätze („Material aus Schmelze 8A3291 wurde geprüft..."). Einige organisieren nach Prüftyp (Chemieabschnitt, Mechanikabschnitt). Ein Extraktionsmodell, das auf das Format eines Werks trainiert wurde, kann beim Format eines anderen Werks vollständig versagen, wenn es auf positionellen Regeln statt auf semantischem Verständnis basiert.

Scan-Qualitätsprobleme. Gedrehte Dokumente, Fotokopien mit niedrigem Kontrast und handschriftliche Anmerkungen über gedrucktem Text stellen OCR-Herausforderungen dar. Moderne Dokument-KI behandelt die Rotation automatisch und wendet Bildvorverarbeitung an, um den Kontrast vor der Extraktion zu verbessern. Die Genauigkeitslücke zwischen einem sauberen digitalen PDF und einem Scan der dritten Generation ist real, aber handhabbar — typischerweise 95–97% Extraktionsgenauigkeit bei sauberen Dokumenten vs. 85–90% bei degradierten Scans.

Multi-Schmelzen-Zertifikate. Einige Zertifikate decken mehrere Schmelzennummern ab — eine Coil-zu-Platte-Konvertierung, bei der das Zertifikat sowohl die ursprüngliche Coilschmelze als auch die Plattenproduktionsschmelze referenziert, oder ein kombiniertes Zertifikat, das mehrere Bestellpositionen abdeckt. Die Extraktion muss identifizieren, welche Schmelzennummer welcher Position oder welchem Produkt entspricht, nicht nur eine Liste von Nummern aus dem Dokument extrahieren.

Keines dieser Probleme ist ungelöst. Die Extraktionsmodelle existieren. Die OCR-Engines bewältigen die Scan-Qualität. Die Frage ist, ob die Implementierung für den Produktionseinsatz genau genug ist.

Wie Genauigkeitsraten in der Praxis aussehen

Für hochwertige digitale PDFs von großen Werken erreicht KI-basierte Schmelzennummernextraktion 97–99% Genauigkeit speziell für das Schmelzennummernfeld. Das ist besser als manuelle Eingabe, die eine dokumentierte Fehlerrate von 2–5% bei alphanumerischen Codes aufweist, die unter Zeitdruck eingegeben werden.

Bei Scans minderer Qualität (fotokopierte Faxübertragungen, Kopien dritter Generation) sinkt die Genauigkeit auf 88–93%. Bei diesem Niveau ist ein menschlicher Prüfschritt für gekennzeichnete Extraktionen mit niedrigem Vertrauen angemessen. Das System extrahiert, was es sicher kann, kennzeichnet, was es nicht kann, und stellt die gekennzeichneten Dokumente für die manuelle Prüfung in die Warteschlange — was ein viel kleineres Set als das gesamte eingehende Volumen ist.

Der kombinierte Mensch-plus-KI-Workflow erzielt bei höherem Durchsatz eine bessere Genauigkeit als vollständig manuell: Die KI bearbeitet 90–95% der Dokumente ohne menschliches Eingreifen, und die menschliche Prüfung konzentriert sich auf die 5–10%, bei denen die KI unsicher ist.

Nachgelagerte Auswirkungen auf Rückverfolgbarkeit und ERP-Verknüpfung

Die Schmelzennummerngenauigkeit ist nicht nur ein Datenqualitätsproblem. Sie ist die Grundlage der Materialrückverfolgbarkeit in gefertigten Metallprodukten.

Wenn ein Qualitätsereignis eintritt — ein Feldausfall, eine Kundenbeschwerde, ein Rückruf — ist die erste Frage „Aus welcher Schmelze stammte dieses Material?" Wenn die Schmelzennummer im ERP-Datensatz falsch ist, schlägt die Rückverfolgbarkeitsanfrage fehl. Sie können nicht identifizieren, welche anderen Teile aus derselben Schmelze gefertigt wurden. Sie können das ursprüngliche Zertifikat nicht abrufen, um die Materialeigenschaften zu überprüfen. Sie können nicht zum Lieferanten oder Werk für Korrekturmaßnahmen zurückverfolgen.

In der Druckbehälter-, Struktur- und Rohrleitungsfertigung ist die Schmelzenrückverfolgbarkeit nicht optional. ASME Abschnitt VIII, AWS D1.1 und viele Kundenqualitätspläne verlangen, dass Schmelzennummern dokumentiert und durch den Fertigungsdatensatz bis zum fertigen Produkt rückverfolgbar sind. Ein MTC-Ablagesystem auf Basis manueller Eingabe produziert Rückverfolgbarkeitsdatensätze variabler Genauigkeit. Die Fehler sind still — sie kündigen sich nicht an, bis jemand den Datensatz zu verwenden versucht.

Automatisierte Extraktion mit Validierung (die extrahierte Schmelzennummer wird nach der Extraktion gegen das Zertifikats-PDF bestätigt) erstellt einen Datensatz, der so genau ist wie das Zertifikat selbst. Die Verbindung zwischen dem ERP-Datensatz und dem ursprünglichen Zertifikatsdokument ist automatisch, anstatt darauf zu beruhen, dass jemand das richtige PDF im richtigen Ordner ablegt.

Der 90-minütige tägliche Dateneingabeprozess wird auch zu einer nahezu Echtzeit-Aufnahme: Zertifikate können innerhalb von Minuten nach Eingang verarbeitet werden, Schmelzennummern sind im ERP, bevor das Material den Boden des Betriebs erreicht, und der Rückverfolgbarkeitsdatensatz ist vor Beginn der Fertigung vollständig, anstatt nachträglich zusammengestellt zu werden.

Weiterführende Artikel