Skip to main content
ブログ·11分で読める·

PDFからのヒートナンバー抽出は解決済みの問題です。あなたのチームがまだ知らないだけです。

業界インサイト

中規模構造用ファブリケーター での受け入れ検査プロセスは次のようなものです:トラックが到着し、運転手が物理的な工場証明書またはプリントされたPDFの山を含むパッケージを降ろします。受け入れ係員は各証明書を開き、ヒートナンバーを見つけて共有スプレッドシートのセルに入力し、発注番号を記録してから、次のものに移ります。受け入れが忙しい日には、ヒートナンバーのエントリが40~60個あります。このプロセスには約90分かかります。

その90分間で、正確である場合もあれば、そうでない場合もあるヒートナンバーを含むスプレッドシートが生成されます。英数字のヒートコード の転記エラー(例えば、「A2B347」を「AB2347」と入力するなど)は一般的であり、通常は数ヶ月後にヒートナンバー追跡可能性クエリが失敗するまで検出されません。いくつかの証明書はコントラストに問題がある複数のコピーです。いくつかは90度回転して到着します。「Melt No.」を使用するものもあれば、「Heat No.」または「Cast No.」を使用するものもあります。—同じデータ、異なるラベルです。

その後、スプレッドシートは別の人によってERP システムに手動で入力され、エラーの2番目の機会が発生します。元のPDFは日付ごとにフォルダに保管されます。後で特定のヒートナンバーを見つける必要がある場合、最初にスプレッドシートを検索し、スプレッドシートのエントリが間違っていればフォルダを掘り下げます。

ヒートナンバー抽出を困難にするもの(そしてそうではないもの)

自動化されたヒートナンバー抽出の技術的課題は十分に理解されています:

フィールドラベルのバリエーション。 異なる工場は同じフィールドに異なるラベルを使用します。「Heat No.」、「Heat Number」、「Melt No.」、「Cast No.」、「Charge No.」、「HT#」はすべて同じことを指します。簡単なOCRプラスキーワードアプローチは、見たことのないバリエーションで失敗します。AI ベースの抽出は、これらのラベルが意味的に同等であることを学び、どのラベルが表示されるかに関わらず、関連する値を抽出します。

ドキュメントレイアウトのバリエーション。 工場証明書形式は標準化されていません。一部の工場はラベル付きセルを含む表形式レイアウトを使用します。その他はフリーテキスト段落を使用します(「ヒートナンバー 8A3291 からの材料がテストされました...」)。一部は試験タイプ別に整理されています(化学セクション、機械的特性セクション)。1つの工場の形式で訓練された抽出モデルが、位置規則ではなく意味的な理解に依存していない場合、別の工場の形式で完全に失敗することがあります。

スキャン品質の問題。 回転したドキュメント、低コントラストのコピー、印刷されたテキスト上の手書きのアノテーションは、OCRの課題を引き起こします。最新のドキュメント AI は回転を自動的に処理し、抽出前にイメージの前処理を適用してコントラストを改善します。きれいなデジタルPDFと第3世代のコピースキャンの間の精度ギャップは実際のものですが、管理可能です—きれいなドキュメントでは通常95~97%の抽出精度、品質低下したスキャンでは85~90%です。

マルチヒートナンバー証明書。 一部の証明書は複数のヒートナンバーをカバーしています—元のコイルヒートとプレート生産ヒートの両方を参照する証明書であるコイルからプレートへの変換、または複数の発注ラインアイテムをカバーする結合証明書。抽出では、どのヒートナンバーがどのラインアイテムまたは製品に対応するかを特定する必要があります。ドキュメントからの数字のリスト抽出だけではなく。

これらのいずれも解決されていない問題ではありません。抽出モデルが存在します。OCRエンジンはスキャン品質を処理します。問題は、実装が本番環境での使用に十分に正確であるかどうかです。

実際の精度レートはどのようなものか

大規模工場からの高品質デジタルPDFの場合、AI ベースのヒートナンバー抽出は、ヒートナンバーフィールド特別で97~99%の精度を達成します。これは、時間的プレッシャーの下で入力された英数字コードの記録された2~5%のエラー率を持つ手動入力よりも優れています。

低品質のスキャン(コピーされたファックス送信、第3世代コピー)の場合、精度は88~93%に低下します。このレベルでは、標識された低信頼度抽出の人的レビューステップが適切です。システムは確信を持って抽出できるものを抽出し、できないものにフラグを立てて、フラグが立てられたドキュメントを手動レビューのためにキューに入れます—これは全到着量よりもはるかに小さいセットです。

人間プラスAI の組み合わせワークフローは、より高いスループットを備えた完全な手動よりも優れた精度を達成します:AI は人間の介入なしに90~95% のドキュメントを処理し、人間のレビューはAIが不確定な5~10% に集中します。

ダウンストリームの追跡可能性とERP リンケージへの影響

ヒートナンバー精度は単なるデータ品質の問題ではありません。製造金属製品における材料追跡可能性の基盤です。

品質イベントが発生する場合—現場での故障、顧客からの苦情、リコール—最初の質問は「この材料はどのヒートナンバーのものだったのか?」ERPレコード内のヒートナンバーが間違っている場合、追跡可能性クエリは失敗します。同じヒートナンバーから作成された他の部品を特定することはできません。元の証明書を取得して材料特性を確認することはできません。サプライヤーまたはメーカーまでさかのぼって是正措置を追跡することはできません。

圧力容器、構造、パイプライン製造では、ヒートナンバー追跡可能性はオプションではありません。ASME Section VIII、AWS D1.1 および多くの顧客品質計画では、ヒートナンバーが文書化され、製造記録を通じて完成品まで追跡可能である必要があります。手動入力に基づく工場証明書ファイリングシステムは、可変精度の追跡可能性レコードを生成します。エラーは無音です—誰かがレコードを使用しようとするまで、自分自身を表明しません。

検証を伴う自動抽出(抽出されたヒートナンバーは抽出後に証明書PDFに対して確認されます)は、証明書自体と同じくらい正確なレコードを作成します。ERPレコードと元の証明書ドキュメント間のリンクは、誰かに正しいフォルダに正しいPDFを保管する必要があるのではなく、自動的です。

毎日90分のデータ入力プロセスはほぼリアルタイムの摂取になります:証明書は受け取ってから数分以内に処理できます。ヒートナンバーは材料がショップフロアに到達する前にERPに入っています。追跡可能性レコードは製造が始まる前に完成し、事実の後に組み立てられるのではなく。

次に読むもの