簡単な答え
Quick Answer
AI MTC データ抽出に 3 つの実用的な方法があります:ルールベースのテンプレートマッチング(高精度、新しいレイアウトに脆い)、OCR プラス後処理(広いカバレッジ、テーブルでエラーが発生しやすい)、および LLM ベースのビジョン抽出(柔軟、レイアウト非依存、信頼度スコアリングおよびコンプライアンスユースケースの人間レビューが必要)。
製粉試験証明書は、鋼、パイプ、またはプレートのヒートの完全な物質アイデンティティを運びます:ヒート番号、化学成分、機械試験結果、材料がテストされた標準、および認定製粉所の記述。これらのデータを手動再入力なしに ERP または品質システムに入力することは、AI MTC 抽出が対処するコア問題です。
このガイドは、3 つの主要な抽出方法、各方法が効果的に動作する場所、および本番レベルの MTC パーサーが実際に必要とするもの分解します。
方法 1:ルールベースのテンプレートマッチング
ルールベースのパーサーは、特定の製粉所レイアウトに結びつけられた事前定義された座標マップまたは正規表現パターンを使用します。製粉所 X が常に 1 ページ目の座標(412、318)に炭素百分率を配置することがわかっている場合、確定的に抽出できます。
よく機能する場合:
- 安定したドキュメント形式を持つ単一サプライヤー関係
- 高量で同一形式の証明書フロー
- 100% 確定的抽出が必要であり、レイアウト変更が稀な環境
制限事項:
- 新しい製粉所または新しいテンプレート バージョンごとに新しいルールセットが必要
- レイアウトの変更は抽出を静かに失敗させます(信頼度信号なし)
- メンテナンスの負担はサプライヤー数とともに直線的にスケーリング
- スキャンドキュメントで完全に失敗
10 以下の製粉所から安定した形式で MTC を受け取る組織の場合、ルールベースの抽出は妥当な低コストの選択です。数十のサプライヤーと取引する組織の場合、メンテナンスのオーバーヘッドは禁止的になります。
方法 2:OCR プラス後処理
従来の OCR はドキュメント画像をテキストに変換し、後処理スクリプトは名前付きエンティティ認識を適用してフィールド値を検出します。このアプローチは、座標検索ではなく NLP を通じて可変レイアウトを処理するため、ルールベース解析より柔軟です。
パイプラインは通常以下のようになります:
- PDF をイメージにレンダリング
- OCR(Tesseract、AWS Textract、Azure Form Recognizer)
- テキスト正規化
- フィールドラベルを識別するための名前付きエンティティ認識
- ラベルを値にリンクするための値関連性ロジック
- スキーママッピング
精度特性:
- 自由形式テキストフィールド(製粉所名、標準参照):90–95%
- シンプルなキーバリューペア:88–94%
- 化学成分表:75–88%(OCR は頻繁にテーブル構造を失う)
- 多列機械特性テーブル:70–85%
根本的な弱点は、OCR は文字に対して機能し、空間コンテキストを失うことです。行にわたって 8 つの要素を持つ化学成分テーブルでは、後処理が生のテキストから列関連性を再構成する必要があります。これは、非標準レイアウトで大幅に低下する脆弱な操作です。
方法 3:LLM ベースのビジョン抽出
ビジョン機能を備えた大規模言語モデル(ビジョン言語モデル、または VLM)は、レンダリングされたページをイメージとして、またはハイブリッド画像 + テキスト表現として処理します。OCR パイプラインとは異なり、モデルは視覚的にテーブル構造を理解します。数字の列が「C%」ヘッダーの下にあることを見て、OCR レイヤーがそれを保持する必要なく関係を推測します。
実際に抽出がどのように機能するか:
- PDF ページは高解像度画像にレンダリング
- VLM はターゲットスキーマ(heat_number、化学元素、機械特性、適用可能な標準など)を指定する構造化プロンプトを持つイメージを受信
- モデルは抽出された値とフィールドごとの信頼度スコアを持つ JSON オブジェクトを返す
- 低信頼度フィールドは人間レビュー用にフラグが立つ
- 確認された値はソース文書参照とともにデータベースに書き込まれ
精度特性(ネイティブ PDF):
- 化学成分テーブルフィールド:93–97%
- 機械特性フィールド:94–98%
- ヒート/ロット番号:96–99%
- 標準とグレード参照:95–98%
精度特性(スキャン MTC、高品質):
- 化学成分テーブルフィールド:89–94%
- 機械特性フィールド:90–95%
TestCert のようなプラットフォームは、標準対応スキーマでこのアプローチを実装するため、抽出された化学値は即座に保存された ASTM または EN 制限と比較され、別個の検証ステップは不要です。
困難な事例の処理
マルチヒート証明書
一部の鋼鉄サービスセンターは、複数のヒートをカバーする単一の PDF を発行します。抽出器は、抽出スキーマを適用する前に、ドキュメントをヒートごとのセクションに分割する必要があります。これには、ヒート境界を識別する初期セグメンテーションステップが必要です。通常はヒート番号の出現またはテーブル行区切り文字に基づいています。
補足テストデータ
圧力容器材料の MTC は、追加ページに補足テスト(Charpy インパクト、PWHT レコード、腐食テスト結果)を頻繁に含みます。堅牢な抽出器は、これらを拡張可能な補足データスキーマにマップします。
多言語証明書
ヨーロッパの製粉所の EN 10204 証明書は、しばしばドイツ語、フランス語、またはイタリア語で到着します。LLM ベースの抽出器は、別個の言語モデルなしでこれらを処理します。基盤モデルは言語間でのフィールドセマンティクスを理解します。ただし、不便な言語の精度は低下します。
手書きの注釈
印刷された MTC 上の手書き値(検査官のスタンプまたはフィールド修正で一般的)は、人間レビューにルーティングされるべきです。現在のモデルは、タイプされた機械印刷テキストを確実に処理します。手書きは既知の低下ポイントです。
本番級 MTC パーサーが必要とするもの
生のインポート機能を超えて、本番配備には以下が必要です:
- フィールドごとの信頼度スコア — 単一ドキュメントレベルのスコアではない
- 拒否ルーティング — 品質閾値を下回るドキュメントは完全手動入力用に保持、部分的な抽出ではない
- 監査追跡 — 誰が抽出したか、いつ、何がフラグされたか、何が修正されたか
- 不変のソースドキュメント保存 — 元の PDF は構造化レコードとともに保持
- 標準検証統合 — 抽出値は抽出時に制限と照合、下流ではない
- Webhook または API 出力 — 抽出されたレコードは手動エクスポートステップなしで ERP/MES にプッシュ
よくある質問
AI は複数回ファックスされたスキャン MTC からデータを抽出できますか?
ファックス世代ごとに品質が大幅に低下します。ファックスのファックスドキュメントは、多くの場合、ビジョンモデルが確実に実行される 150 DPI 有効解像度閾値を下回っています。これらのドキュメントは自動的にフラグを立て、手動入力にルーティングする必要があります。可能な限り、製粉所から直接新しい PDF をリクエストすることが常に望ましいです。
AI はカスタムまたは非標準フィールドを持つ証明書をどのように処理しますか?
LLM ベースの抽出器は、未認識フィールドをキーバリューペアとして「追加データ」バケットに表示でき、それらを破棄することはできません。レビューアは、値を既存のスキーマフィールドにマップするか、補足メタデータとして記録するかを決定できます。ルールベースパーサーは単に未認識フィールドを破棄します。
抽出精度は時間とともに向上しますか?
はい、システムがそのように設計されている場合。レビューアー修正をログに記録し、抽出モデルを微調整するか、特定の製粉所形式の信頼度閾値を更新するために定期的に使用する必要があります。修正から学習することなく、すべてのドキュメントを新規抽出として扱うシステムは、急速に停滞します。
AI MTC 抽出は PDF 以外にどのファイル形式をサポートしていますか?
ネイティブ PDF とラスター化された PDF イメージがプライマリ形式です。ほとんどの本番パイプラインは、スキャンドキュメント用に TIFF、JPEG、PNG も処理します。Excel 形式の MTC(アジアの一部の製粉所で一般的)には、イメージとしてレンダリングするのではなく、スプレッドシート構造を直接読む別の抽出パスが必要です。
抽出された化学が報告された標準と一致することを確認するにはどうすればよいですか?
抽出器は、適用可能な標準に対する生の抽出値とパス/失敗フラグを出力する必要があります。これには、抽出パイプラインと統合された保存版標準データベース(グレードごとの ASTM、EN、API、ASME 制限)が必要です。抽出器が生の値のみを出力する場合、検証は別個の手動ステップです。これは多くの自動化利益を無効にします。
Ready to automate your certificate workflow?
Try TestCert free