KI-Werksabnahmeprüfzeugnis-Datenextraktion: Methoden

Kurze Antwort

Quick Answer

Für die KI-MTC-Datenextraktion gibt es drei praktische Methoden: regelbasiertes Template-Matching (hohe Genauigkeit, anfällig für neue Layouts), OCR mit Nachverarbeitung (breite Abdeckung, fehleranfällig bei Tabellen) und LLM-basierte Vision-Extraktion (flexibel, layout-agnostisch, erfordert Konfidenz-Scoring und menschliche Prüfung für Compliance-Anwendungen).

Ein Werksabnahmeprüfzeugnis trägt die vollständige Materialidentität einer Stahl-, Rohr- oder Blechschmelze: Schmelzennummer, Chemie, mechanische Prüfergebnisse, die Norm, gegen die das Material geprüft wurde, und die Erklärung des zertifizierenden Werks. Diese Daten ohne manuelle Neueingabe in Ihr ERP oder Qualitätssystem zu übertragen, ist das Kernproblem, das die KI-MTC-Extraktion löst.

Dieser Leitfaden erläutert die drei Hauptextraktionsmethoden, wo jede gut funktioniert und was ein produktionsreifer MTC-Parser tatsächlich benötigt.

Methode 1: Regelbasiertes Template-Matching

Regelbasierte Parser verwenden vordefinierte Koordinatenkarten oder Regex-Muster, die an spezifische Werklayouts gebunden sind. Wenn bekannt ist, dass Werk X den Kohlenstoffprozentsatz immer bei den Koordinaten (412, 318) auf Seite eins platziert, kann er deterministisch extrahiert werden.

Wann es gut funktioniert:

Einzellieferantenbeziehungen mit stabilen Dokumentenformaten
Hochvolumige, identisch formatierte Zeugnisströme
Umgebungen, in denen 100 % deterministische Extraktion erforderlich ist und Layoutänderungen selten sind

Einschränkungen:

Jedes neue Werk oder jede neue Vorlagenversion erfordert einen neuen Regelsatz
Jede Layoutänderung unterbricht die Extraktion still (kein Konfidenzsignal)
Der Wartungsaufwand skaliert linear mit der Lieferantenanzahl
Schlägt bei gescannten Dokumenten vollständig fehl

Für Organisationen, die MTCs von zehn oder weniger Werken mit stabilen Formaten erhalten, ist regelbasierte Extraktion eine vernünftige kostengünstige Wahl. Für Organisationen mit Dutzenden von Lieferanten wird der Wartungsaufwand zu groß.

Methode 2: OCR mit Nachverarbeitung

Traditionelle OCR konvertiert Dokumentbilder in Text, dann wenden Nachverarbeitungsskripte Entitätserkennung an, um Feldwerte zu finden. Dieser Ansatz ist flexibler als regelbasiertes Parsen, da er unterschiedliche Layouts durch NLP statt Koordinaten-Lookup verarbeitet.

Die Pipeline sieht typischerweise so aus:

PDF-Rendering zu Bild
OCR (Tesseract, AWS Textract, Azure Form Recognizer)
Textnormalisierung
Named Entity Recognition zur Identifizierung von Feldbezeichnungen
Wertverknüpfungslogik zur Verbindung von Bezeichnungen mit Werten
Schema-Mapping

Genauigkeitseigenschaften:

Freitextfelder (Werkname, Normreferenz): 90–95 %
Einfache Schlüssel-Wert-Paare: 88–94 %
Chemietabellen: 75–88 % (Tabellenstruktur wird häufig durch OCR verloren)
Mehrspaltige mechanische Eigenschaftstabellen: 70–85 %

Die grundlegende Schwäche ist, dass OCR auf Zeichen operiert und den räumlichen Kontext verliert. Eine Chemietabelle mit acht Elementen über eine Zeile erfordert, dass der Nachprozessor Spaltenzuordnungen aus rohem Text rekonstruiert – eine fragile Operation, die bei nicht standardmäßigen Layouts erheblich schlechter wird.

Methode 3: LLM-basierte Vision-Extraktion

Große Sprachmodelle mit Vision-Fähigkeit (Vision-Language-Modelle, oder VLMs) verarbeiten die gerenderte Seite als Bild oder als hybride Bild+Text-Darstellung. Im Gegensatz zu OCR-Pipelines versteht das Modell die Tabellenstruktur visuell – es sieht, dass eine Zahlenspalte unter einer „C%"-Überschrift liegt und schlussfolgert die Beziehung, ohne dass die OCR-Schicht sie erhalten muss.

Wie die Extraktion in der Praxis funktioniert:

Die PDF-Seite wird zu einem hochauflösenden Bild gerendert
Das VLM erhält das Bild mit einem strukturierten Prompt, der das Zielschema spezifiziert (heat_number, chemische Elemente, mechanische Eigenschaften, anwendbare Norm usw.)
Das Modell gibt ein JSON-Objekt mit extrahierten Werten und Konfidenzwerten pro Feld zurück
Felder mit niedrigem Konfidenzwert werden zur menschlichen Prüfung markiert
Bestätigte Werte werden zusammen mit der Quelldokumentreferenz in die Datenbank geschrieben

Genauigkeitseigenschaften (natives PDF):

Chemietabellenfelder: 93–97 %
Mechanische Eigenschaftsfelder: 94–98 %
Schmelzen-/Losnummer: 96–99 %
Norm- und Gütereferenzen: 95–98 %

Genauigkeitseigenschaften (gescanntes MTC, gute Qualität):

Chemietabellenfelder: 89–94 %
Mechanische Eigenschaftsfelder: 90–95 %

Plattformen wie TestCert implementieren diesen Ansatz mit einem normenbewussten Schema, sodass extrahierte Chemiewerte sofort gegen gespeicherte ASTM- oder EN-Grenzwerte verglichen werden, ohne einen separaten Validierungsschritt zu benötigen.

Umgang mit schwierigen Fällen

Mehrschmelzen-Zeugnisse

Einige Stahlservicecenter stellen ein einzelnes PDF aus, das mehrere Schmelzen abdeckt. Der Extraktor muss das Dokument vor der Anwendung des Extraktionsschemas in Pro-Schmelzen-Abschnitte segmentieren. Dies erfordert einen anfänglichen Segmentierungsschritt, der Schmelzengrenzen identifiziert – typischerweise basierend auf Schmelzennummernvorkommen oder Tabellenzeilen-Trennzeichen.

Ergänzende Prüfdaten

MTCs für Druckbehältermaterialien enthalten häufig ergänzende Tests (Charpy-Kerbschlag, PWHT-Aufzeichnungen, Korrosionstestergebnisse) auf zusätzlichen Seiten. Ein robuster Extraktor ordnet diese einem erweiterbaren ergänzenden Datenschema zu, anstatt sie zu verwerfen.

Mehrsprachige Zeugnisse

EN 10204-Zeugnisse von europäischen Werken kommen häufig auf Deutsch, Französisch oder Italienisch an. LLM-basierte Extraktoren verarbeiten diese ohne separate Sprachmodelle – das zugrunde liegende Modell versteht Feldsemantik sprachübergreifend –, obwohl die Genauigkeit bei weniger verbreiteten Sprachen leicht abnimmt.

Handgeschriebene Anmerkungen

Jeder handgeschriebene Wert auf einem gedruckten MTC (üblich für Inspektionsstempel oder Feldkorrekturen) sollte zur menschlichen Prüfung weitergeleitet werden. Aktuelle Modelle verarbeiten getippten und maschinengedruckten Text zuverlässig; Handschrift ist ein bekannter Degradationspunkt.

Was ein produktionsreifer MTC-Parser benötigt

Über die reine Extraktionsfähigkeit hinaus benötigt eine Produktionsbereitstellung:

Konfidenz-Scoring pro Feld – kein einzelner Wert auf Dokumentebene
Ablehnungsrouting – Dokumente unterhalb eines Qualitätsschwellenwerts werden zur vollständigen manuellen Eingabe zurückgehalten, nicht teilweise extrahiert
Audit-Trail – wer extrahiert hat, wann, was markiert wurde, was korrigiert wurde
Unveränderliche Quelldokumentspeicherung – das Original-PDF wird neben dem strukturierten Datensatz aufbewahrt
Normenvalidierungsintegration – extrahierte Werte werden zum Zeitpunkt der Extraktion gegen Grenzwerte geprüft, nicht nachgelagert
Webhook- oder API-Ausgabe – extrahierte Datensätze werden ohne manuelle Exportschritte in ERP/MES übertragen

Häufig gestellte Fragen

Kann KI Daten aus einem MTC extrahieren, das mehrfach gefaxt wurde?

Die Qualität nimmt mit jeder Faxgeneration erheblich ab. Ein mehrfach gefaxtes Dokument fällt häufig unter den effektiven 150-DPI-Auflösungsschwellenwert, bei dem Vision-Modelle zuverlässig funktionieren. Diese Dokumente sollten automatisch markiert und zur manuellen Eingabe weitergeleitet werden. Das direkte Anfordern eines frischen PDFs vom Werk ist immer vorzuziehen, wenn möglich.

Wie handhabt KI Zeugnisse mit benutzerdefinierten oder nicht standardmäßigen Feldern?

LLM-basierte Extraktoren können nicht erkannte Felder als Schlüssel-Wert-Paare in einem „Zusatzdaten"-Bereich aufzeigen, anstatt sie zu verwerfen. Der Prüfer kann dann entscheiden, ob der Wert einem vorhandenen Schemafeld zugeordnet oder als ergänzende Metadaten aufgezeichnet werden soll. Regelbasierte Parser verwerfen nicht erkannte Felder einfach.

Verbessert sich die Extraktionsgenauigkeit im Laufe der Zeit?

Ja, wenn das System dafür ausgelegt ist. Prüferkorrekturen sollten protokolliert und regelmäßig dazu verwendet werden, das Extraktionsmodell fein abzustimmen oder Konfidenzschwellenwerte für bestimmte Werkformate zu aktualisieren. Systeme, die jedes Dokument ohne das Lernen aus Korrekturen als frische Extraktion behandeln, erreichen schnell ein Plateau.

Welche Dateiformate unterstützt die KI-MTC-Extraktion über PDF hinaus?

Native PDFs und rasterisierte PDF-Bilder sind die primären Formate. Die meisten Produktionspipelines verarbeiten auch TIFF, JPEG und PNG für gescannte Dokumente. Excel-format-MTCs (üblich von einigen asiatischen Werken) erfordern einen separaten Extraktionspfad, der die Tabellenstruktur direkt liest, anstatt sie als Bild zu rendern.

Wie validiere ich, dass die extrahierte Chemie zur gemeldeten Norm passt?

Der Extraktor sollte sowohl den rohen extrahierten Wert als auch eine Bestanden/Nicht-bestanden-Markierung gegen die anwendbare Norm ausgeben. Dies erfordert eine gespeicherte, versionierte Normendatenbank (ASTM-, EN-, API-, ASME-Grenzwerte pro Güte), die in die Extraktionspipeline integriert ist. Wenn der Extraktor nur Rohwerte ausgibt, ist die Validierung ein separater manueller Schritt – was einen Großteil des Automatisierungsvorteils zunichte macht.

Ready to automate your certificate workflow?

Try TestCert free

KI-Werksabnahmeprüfzeugnis-Datenextraktion: Methoden und Kompromisse