仕分け
仕分けノードを使用すると、Dispatcher Phoenixの光学式文字認識機能(OCR)を使用して、スキャンしたドキュメント、電子ファイルなどを事前定義されたクラスに自動的に仕分けすることができます。ノードは情報を抽出し、事前定義された仕分け定義と照合して、以下のメタデータ値を生成します。
- Classification (仕分け) - 検出された仕分けタイプ、または検出されなかった場合は「その他(Other)」。
- Confidence Level (信頼レベル) - ドキュメントが正しく仕分けされた確率を示す割合レート。
ワークフロー内のその他の処理ノードはこのメタデータを使用してファイルを処理ルーティングすることができます。このノードは、ドキュメントを手動で仕分けして配信する処理に取って代わるものです。
仕分けノードには、出生証明書、融資申込書、注文書など、事前定義された多くの仕分けカテゴリが含まれています。カテゴリには、情報を抽出し、仕分け情報のメタデータ出力を生成するためのキーワードベースのルールが含まれています。ただし、仕分けカテゴリ内の実際のフォームは非表示です。つまり、使用するカテゴリを選択することはできますが、編集することはできません。
このノードは、次のファイルタイプで機能します。
- TIFF
- JPG
注:
- 仕分けノードは、300dpiの解像度のファイルのみをサポートします。
- 強調/取り消し線や墨消しなどの追加の処理アクションは許可されません。
- Dispatcher Phoenix Web レポートジェネレーターツールを使用してレポートを生成できるデータを収集します。
- OmniPage OCRエンジンが含まれています。
仕分けノードの構成
仕分けノードを開くには、ノードを「処理」リストからワークフローにドラッグアンドドロップし、ノードをダブルクリックします。プロパティウィンドウが表示されます。
-
[有効] - 現在のワークフローでこのノードを有効にするには、このフィールドのチェックボックスをオンにします。ボックスを空のままにすると、ワークフローはノードを無視してドキュメントはノードが存在しないかのように通過します。無効化されたノードはロジックやエラー状態をチェックしないことに注意してください。
-
[ノード名] - 既定のノード名をこのフィールドに入力します。この名前は、ワークフローのノードアイコンの下に表示されます。このフィールドを使用して、ワークフローでの使用を示す意味のあるノード名を指定します。
-
[ノードの説明] - このノードのオプションの説明を入力します。説明はワークフロー内のノードの目的を思い出したり、ノードを互いに区別したりするのに役立ちます。説明が長い場合、フィールドの上にマウスを置くと内容全体を読むことができます。
ボタン
- [高度なOCR設定] - OCR設定ウインドウにアクセスするには、このボタンをクリックします。
- [ヘルプ] - Dispatcher Phoenixのオンラインヘルプにアクセスするには、このボタンをクリックします。
- [保存] - ノード定義を保存してウィンドウを終了するには、このボタンをクリックします。
- [キャンセル] - 変更を保存せずにウィンドウを終了するには、このボタンをクリックします。
仕分けタイプ
ワークフローに追加する仕分けノードごとに、仕分けタイプを選択する必要があります。各タイプは、画像化されたドキュメントに異なる検出方法を適用します。次のオプションのいずれかを選択します。
-
[基本] – 「フルページ」オプションであるこの仕分けタイプは、OCRゾーンをページ領域全体に適用し、ノードに対して選択した仕分けカテゴリで定義されたキーワードを検索します。検索では、最初のキーワードが検索され検出された場合は、フルページゾーンを介して他のドキュメント仕分け修飾子が検索されます。
-
[標準] - 「テンプレートベース」のオプションであるこの仕分けタイプは、事前定義されたテンプレートを適用してノードに対して選択した仕分けカテゴリで定義されたキーワードを検索します。各仕分けカテゴリには、そのカテゴリに関連付けられたドキュメントのサンプリングに基づいて作成されたテンプレートが含まれています。たとえば、注文書カテゴリのテンプレートは、実際の注文書のサンプリングに基づいて作成されます。各テンプレートには、一連のOCRゾーン、ルール、サブルール、および正規表現が含まれています。
-
[カスタムテンプレートをアップロード] - 上記の検出方法で特定のドキュメントタイプを仕分けするために必要な情報を適切に抽出できない場合、ソリューションエンジニアリングセンター(SEC)にリクエストして、ドキュメントタイプで使用するカスタムテンプレートを作成することができます。このオプションを使用してカスタムテンプレートをノードに適用します。詳細についてはSECにお問い合わせください。
注: 仕分けタイプは常に改良され、更新されています。仕分けタイプを選択した際に複数のテンプレートバージョンが存在する場合、使用可能なバージョンをリストするドロップダウンメニューが表示されます。使用するバージョンを選択します。既定のオプションは最新バージョンであり、テンプレートは新しい順にリストされます。
仕分けタイプについて
- すべての仕分けタイプがメタデータを作成します。
- ドキュメントでキーワードが検出されない場合、ドキュメントを 「その他」 として仕分ける為のメタデータが作成されます。
- 仕分けノードに適用できる仕分けタイプは1つだけですが、異なる仕分けタイプを適用した別の仕分けノードを構成してワークフローに追加することができます。1つのワークフロー内に2つのノードを設定することで、チェックなどの追加の仕分け処理を実行することができます。
仕分けカテゴリ
各仕分けカテゴリには、そのカテゴリに関連付けられたドキュメントのサンプリングに基づいて作成されたテンプレートが含まれています。たとえば、注文書カテゴリのテンプレートは、実際の注文書のサンプリングに基づいて作成されています。各テンプレートには、OCRゾーン、ルール、サブルール、および正規表現のセットが含まれています。テンプレートはこれらの要素を使用してスキャンされたドキュメント内のキーワードを検索し、検出された(または検出されなかった)キーワードに基づいてドキュメントを仕分けします。
さらに、スキャンされたドキュメントごとに、テンプレートは「信頼レベル」を計算し、そのレベルに基づいてメタデータを生成します。基本的に、キーワードを検出するカテゴリ内のOCRゾーンの数が多いほど、信頼レベルは高くなります。信頼レベルに基づいてワークフロー内のドキュメントをルーティングすることができます。
仕分けタイプを選択すると、仕分けカテゴリ領域に使用可能なカテゴリが表示されます。ワークフローでドキュメントを仕分けする1つ以上のカテゴリを選択します。仕分けカテゴリは常に改良され、新しいカテゴリが追加されています。現在、以下のカテゴリを利用することができます。
カテゴリ | カテゴリ |
---|---|
Bank Statements (銀行取引明細書) | Non-Disclosure Agreements (秘密保持契約書) |
Bills of Lading (船荷証券) | Police Reports (警察調書) |
Birth Certificates (出生証明書) | Purchase Orders (注文書) |
Bylaws (細則) | Report Cards (成績表) |
Census Forms (国勢調査フォーム) | Student Application Admission Forms (学生入学願書) |
Insurance Claims (保険金請求書) | UB-04 Claim Forms (UB-04請求フォーム) |
Invoices (請求書) | W-2 Forms (W-2フォーム) |
Loan Applications (融資申込書) | Wills (遺言書) |
Memorandums of Understanding (合意覚書) |
信頼レベル
ドキュメントを正確かつ信頼してルーティングできるように、各仕分けカテゴリは信頼レベルを生成します。これは、ドキュメントが正しく仕分けされたという信頼レベルを示す割合レートです。仕分けカテゴリによって検出されたキーワードは、信頼レベルのメタデータを生成し、信頼レベルに基づいてドキュメントをルーティングすることができます。たとえば、信頼レベル90以上のすべてのドキュメントを選択した仕分けカテゴリにルーティングし、90を超えないすべてのドキュメントを「その他」カテゴリにルーティングして、レビューおよび再仕分けすることができます。
各仕分けカテゴリは1つ以上の検索ルールで構成され、各ルールは、ドキュメントの指定された領域のコンテンツを検出するために使用されるOCRゾーンを適用します。仕分けカテゴリに含まれるルールの数が多く、それらのゾーンのルールが検出するキーワードが多いほど、ドキュメントが正しく仕分けされたという信頼性が高くなります。
注:
- 信頼レベルは、標準仕分けタイプの仕分けカテゴリでのみ使用され、基本仕分けタイプでは使用されません。
- 複数の仕分けタイプが検出された場合、それぞれに対して信頼レベルが生成され、ドキュメントは検出された最高レベルにルーティングされます。
- 仕分けされたドキュメントで検出された信頼レベルを表示するには、メタデータ/ファイルノードをワークフローに追加し、ワークフローによって生成されたファイルのメタデータセクションを表示する必要があります。以下のワークフローの例2を参照してください。
メタデータ
次のメタデータが仕分けノードで作成されます。
メタデータ | 説明 |
---|---|
{sdc:classification} | 検出された仕分けカテゴリ毎の値を含むドキュメントレベルのメタデータ。 |
{sdc:confidence} | 検出された各仕分けカテゴリの信頼レベル(つまり、ドキュメントが正しく仕分けされたという信頼レベルを示す割合レート)を含むドキュメントレベルのメタデータ。 |
注: 仕分けノードはドキュメントレベルのメタデータのみを作成します。
サンプルワークフロー 1
以下は、仕分けカテゴリ別にドキュメントをルーティングするための一般的な仕分けワークフローです。
- 入力フォルダーからドキュメントを収集します。
- ユーザー定義の仕分けカテゴリに対してドキュメントを処理します。
- ドキュメントカテゴリを「メタデータ」として出力し、メタデータをメタデータ経路指定に送信します。
- 仕分けされたすべてのドキュメントを出力フォルダーに配信します。
- 仕分けされていないすべてのドキュメントを別の出力フォルダーに配信します。
手順 1 - 入力フォルダーを追加する
入力フォルダーをワークフローに追加して、仕分けするドキュメントを含むフォルダーとなる入力ディレクトリを指定します。
手順 2 - 仕分けノードを構成する
仕分けノードをワークフローに追加します。仕分けタイプと、1つ以上の仕分けカテゴリを選択します。
手順 3 - メタデータ経路指定ノードを構成する
メタデータ経路指定ノードをワークフローに追加して、次の図のように構成します。
手順 4 - 出力フォルダーを構成する
出力フォルダーノードを2つワークフローに追加します。出力フォルダーノードごとにメタデータに基づいて作成される出力ディレクトリを指定します。
手順 5 - ワークフローでノードを接続する
次の図のようにノードを接続します。
手順 6 - ワークフローを実行する
ワークフローを実行します。仕分けノードは入力フォルダー内のすべてのドキュメントの仕分けメタデータを作成します。すべての請求書は名前付きフォルダーに配信されます。他のすべてのドキュメントは 「その他」 という名前のフォルダーに配信されます。
サンプルワークフロー 2
以下は、信頼レベルによってドキュメントをルーティングするように設計された一般的な仕分けワークフローです。
- 入力フォルダーからドキュメントを収集します。
- ユーザー定義の仕分けカテゴリに対してドキュメントを処理します。
- ドキュメントカテゴリをメタデータとして出力し、メタデータをメタデータ経路指定ノードに送信します。
- メタデータ/ファイルノードを2つ追加して、閲覧用にファイル内のメタデータを収集します。
- 指定された信頼レベルを満たすすべての仕分けされたドキュメントを出力フォルダーに配信します。
- 仕分けされていないすべてのドキュメントと、指定された信頼レベルを満たしていない仕分けされたすべてのドキュメントを別の出力フォルダーに配信します。
手順 1 - 入力フォルダーを追加する
入力フォルダーをワークフローに追加して、仕分けするドキュメントを含むフォルダーとなる入力ディレクトリを指定します。
手順 2 - 仕分けノードを構成する
仕分けノードをワークフローに追加します。仕分けタイプと、1つ以上の仕分けカテゴリを選択します。
手順 3 - メタデータ経路指定ノードを構成する
メタデータ経路指定ノードをワークフローに追加して、次の図のように構成します。この例では、信頼メタデータ表現式は、信頼レベルが90以上のすべてのドキュメントを検出されたカテゴリにルーティングし、他のすべてのドキュメントを「その他」フォルダーにルーティングします。
次の表現式を使用して、信頼レベルが次の表に示されている信頼レベル以上のドキュメントをルーティングできます。
信頼レベル | 表現式 |
---|---|
Confidence >= 60 | ^(6[0-9]{1}|[7-9]{1}[0-9]{1})\.?[0-9]* |
Confidence >= 65 | ^(6[5-9]{1}|[7-9]{1}[0-9]{1})\.?[0-9]* |
Confidence >= 70 | ^(7[0-9]{1}|[8-9]{1}[0-9]{1})\.?[0-9]* |
Confidence >= 75 | ^(7[5-9]{1}|[8-9]{1}[0-9]{1})\.?[0-9]* |
Confidence >= 80 | ^(8[0-9]{1}|9[0-9]{1})\.?[0-9]* |
Confidence >= 85 | ^(8[5-9]{1}|9[0-9]{1})\.?[0-9]* |
Confidence >= 90 | ^(9[0-9]{1})\.?[0-9]* |
Confidence >= 95 | ^(9[5-9]{1})\.?[0-9]* |
手順 4 - メタデータ/ファイルノードを構成する
メタデータ/ファイルノードを2つワークフローに追加します。メタデータ/ファイルノードごとに、抽出するメタデータとして「仕分け」オプションを選択します。
手順 5 - 出力フォルダーを構成する
出力フォルダーノードを2つワークフローに追加します。出力フォルダーノードごとにメタデータに基づいて作成される出力ディレクトリを指定します。
手順 6 - ワークフローでノードを接続する
次の図のようにノードを接続します。
手順 7 - ワークフローを実行する
ワークフローを実行します。仕分けノードは入力フォルダー内のすべてのドキュメントの信頼メタデータを作成します。信頼基準を満たす請求書は指定されたフォルダーに配信されます。他のすべてのドキュメントは 「その他」 という名前のフォルダーに配信されます。