フォーム処理
フォーム処理ノードを使って、バーコード検索またはテキスト検索による固有の識別子(社会保障番号、電話番号など)の高度な検索を実行できます。情報は、ユーザー定義のルールに基づいて抽出や処理(墨消し、強調または取り消し線)ができます。このノードは、抽出内容を(または、ページの正確な位置さえも)知ることなく、ドキュメントの情報を抽出または処理する必要があるときは常に役立ちます。
たとえば、書式のインボイス番号フィールドにあるすべての番号を墨消しする必要がある場合、インボイス番号ラベルを自動的に検索し、次にすべての番号をラベルの右まで墨消しするように、フォーム処理ノードにルールを設定することができます。
フォーム処理ノードを使って、書式の情報を検索して処理するルールを作成できます。ルールは、「基本」ルールと、それに関連する「サブルール」として定義できます。たとえば、基本ルールでは、書式のフィールドにある静的テキスト「社会保障番号」の検索が可能です。次に、基本ルールフィールドの後にある、すべての(XXX-XX-XXXXというパターンの)社会保障番号を見つけるため、基本ルールにサブルールを関連付けることができます。
また、フォーム処理ノードを使って、ページのバーコードを検索することも可能です。Dispatcher Phoenixがバーコードデータを使って書式の別のフィールドを検索するように、ルールを定義することも可能です。
このノードは、次のファイルタイプで動作します。
- TIFF
- JPG
注: スキャンしたドキュメントの推奨最小DPIは200です。300DPI以上のドキュメントでは、より良い結果が期待できます。
注: このノードには、OmniPage、Tesseract OCR エンジン が含まれています。
詳細については、このトピックのセクションへの次のリンクをクリックしてください。
- ルールリスト領域の使用(基本ルールとサブルールの作成)
- ルールとゾーンの操作
- 操作タブの使用
- プレビュー領域の使用
- ツールバーの使用
- 正規表現を使用した検索
- パターンマッチングツールの使用
- ルール構成の実行
- 正規表現の例
フォーム処理ノードを開く
フォーム処理ノードウィンドウを開くには、フォーム処理の処理ノードを追加して、このノードをダブルクリックします。次の図に、複数の基本ルールとサブルールが定義されているフォーム処理ノードの例があります。
-
[有効] - 現在のワークフローでこのノードを有効にするには、このボックスをオンにします。ボックスを空白のままにすると、ワークフローはノードを無視し、ドキュメントはノードが存在しないかのように通過します。無効化されたノードは論理条件やエラー条件をチェックしないことに注意してください。
-
[ノード名] - ノード名がこのフィールドに既定で設定されます。この名前は、ノード アイコンの下のワークフローに表示されます。このフィールドを使用して、ワークフローでの使用を示す意味のあるノード名を指定します。
-
[説明] - このノードのオプションの説明を入力します。ワークフローに複数の処理が含まれる場合、説明は複数の処理を互いに区別するのに役立ちます。説明が長い場合は、フィールドの上にマウスを置くと、その内容全体を読むことができます。
-
[OCR エンジン] - 複数のOCRエンジン がライセンスされ、Dispatcher Phoenixにインストールされている場合、使用するエンジンを選択できるドロップダウンメニューが表示されます。システムで使用可能なエンジンが1つだけの場合、そのエンジンの名前がこのフィールドに表示されます。
ボタン
- [詳細設定] - 高度なOCR設定 ウィンドウにアクセスするには、このボタンをクリックします。
- [ヘルプ] - Dispatcher Phoenix オンラインヘルプにアクセスするには、このボタンをクリックします。
- [保存] - ノードの定義を保持してウィンドウを終了するには、このボタンをクリックします。
- [キャンセル] - 変更を保存せずにウィンドウを終了するには、このボタンをクリックします。
サンプルドキュメントのアップロード
最初にフォーム処理ノードプロパティウィンドウを開くと、下の図のように空のプレビュー領域が表示されます。
ノード構成を続行するには、まずプレビュー領域に表示するサンプルドキュメントをアップロードする必要があります。ドキュメントは、ノードで検索しようとしているドキュメントに似ている必要があります。以下の操作を行います。
-
[アップロード] - このアイコンをクリックして、 [サンプルを開く] 参照フォルダーにアクセスします。アイコンは、ページの次の場所に表示されます。いずれかをクリックします。
- ツールバー。
- プレビュー領域の [ドキュメントをアップロード] ボックス。
[サンプルを開く] 参照フォルダーには、サンプル ドキュメントを選択するための次のオプションがあります。
- アプリケーションによって提供されるいくつかのサンプルドキュメントから選択します。ドキュメントはさまざまなサイズであり、イメージフォルダーに格納されています。
- 別のフォルダに移動して、独自のサンプルドキュメントを選択します。
次の図は、Imagesフォルダーを示しています。
注: プレビュー領域の ツールバー にある [サンプルドキュメントアイコン] をクリックすると、いつでもサンプルファイルを置き換えることができます。以前にノードプロパティウィンドウを使用してサンプルドキュメントをアップロードした場合、Dispatcher Phoenixは、サンプルファイルの選択時に使用した最新のフォルダーを自動的に開きます。プレビュー領域のツールバーの詳細については、 ツールバーの使用 を参照してください。
ルールリスト領域の使用
定義されたすべてのルールは、ノードプロパティウィンドウの左側のルールリスト領域に表示されます。 この領域の幅は、右側の境界線をクリックして左右にドラッグすることで調整できます。
ルール リスト領域の上部にあるツールバーを使用して、ルールの追加、ルールの削除、または新しいサブルールの追加を行うことができます。
基本ルールの作成
-
[新しいルールを追加] - このボタンを選択して、基本ルールを追加します。次の図のように、ドロップダウンパレットが表示されます。
-
[ルール名] - ルールの名前を入力します。基本ルール名は100文字に制限されており、使用できる文字の種類に制限はありません。
-
** [ルールタイプ]** - [フォーム処理]または チェックボックスの検出 を選択します。このオプションは、aiDocuDroidまたはaiDocuDroid手書き OCR エンジンを使用している場合にのみ表示されることに注意してください(非推奨)。
-
[ルールの場所の選択] - この領域のボタンをマークして、ルールの既定の場所を選択します。この位置は、[ルールのプロパティ]パネルの[場所]タブを使用するか、プレビュー領域でルールの境界ボックスをドラッグアンドドロップすることで、後で調整できます。
-
[保存] - 完了したら、このボタンをクリックします。次の図に示すように、ルールの境界ボックスがプレビュー領域の指定された既定の場所に表示されます。
注: 基本ルールは濃い緑色のボックスとして表示されます。
サブルールの作成
-
[新しいサブルールを追加] - 基本ルールまたは別のサブルールのサブルールを作成するには、このボタンをクリックします。最初に基本ルールを作成するまで、サブルールを作成することはできません。次の図のようにポップアップパレットが表示されます。
-
[ルール名] - サブルールの名前を入力します。サブルール名は100文字に制限されており、使用できる文字の種類に制限はありません。
- [基本ルールの選択] - ドロップダウンリストを使って、サブルールと関連付ける基本ルールを選択します。
-
[ゾーンの位置] - ドロップダウンリストで、サブルールゾーンの置き方を指定します。オプションは、次の通りです。
- 固定位置
- ここより上
- これより後
- ここより下
- これより前
位置が「ここより上」、「これより後」、「ここより下」、または「これより前」に設定されたゾーンは、 [相対ゾーン] と呼ばれます。相対ゾーンは、ルールリスト領域でそのサブルールの前にあるルールまたはサブルールのゾーンに相対的に配置されます。逆に、 「固定位置」 配置で構成されたゾーンには、他のゾーンの位置に依存しない場所があります。
注: プレビュー領域の境界ボックスをドラッグアンドドロップすることで、相対ゾーンの位置を調整できます。ゾーンの位置が「固定位置」に設定されている場合は、ドラッグアンドドロップするか、ルールプロパティパネルの[場所]タブを使用して移動できます。さまざまなゾーンタイプの配置の詳細については、 相対ゾーンについて および 「場所」タブの使用 を参照してください。
-
[保存] - 完了したら、このボタンを選択します。サブルールの境界ボックスは、プレビュー領域の指定された既定の場所に表示されます。さらに、サブルールは、ルールリストの親ルールの下にインデントされて表示されます。下の図では、「All Text in Field(フィールドのすべてのテキスト)」ルールが、「search for name(名前の検索)」ルールのサブルールです。
注: サブルールは薄緑色のボックスで表示されます。入力された基準を使用して検索を完了できないルールがあり、このルールの下に相対ゾーンを持つサブルールを作成しようとした場合、サブルールは作成されません。たとえば、上記のルール構成で、「患者の名前」を検索しても結果が得られなかった場合、「フィールド内のすべてのテキスト」というサブルールは作成されないことになります。このような場合は、ルールの検索条件を再入力し、再度サブルールの作成を試みてください。
-
[相対ゾーンについて] - サブルールを 相対ゾーン(基本ルールや他のサブルールのゾーンの上、後、下、前に位置するゾーン)として設定すると、Dispatcher Phoenixはルールリスト領域で先行する基本ルールまたはサブルールで検索用語として指定したコンテンツに相対ゾーンを自動的に揃えます。既定では、相対ゾーンはプレビュー領域の端まで拡張され、検索条件に一致するコンテンツをより識別しやすくなっています。
たとえば、次の画像は、サンプルファイル内の「agency」という単語の上にあるテキストを検索するように構成された相対ゾーンを示しています。
注:
-
基本ルールのゾーンは数行のテキストにまたがりますが、サブルールの相対ゾーンは、基本ルールの検索語として定義されたテキスト(たとえば、「agency」)と明確に一致します。
-
相対ゾーンはページ全体に自動的に拡張されますが、プレビュー領域でハンドルをクリックしてドラッグするか、プロパティパネルを使用して高さと幅を変更することで、サイズを変更できます。プレビュー領域とプロパティパネルの詳細については、以降のセクションを参照してください。
-
ルール処理
ルールを設定するとき、ルールの結果が検索基準に一致しない場合に処理が停止することに注意してください。たとえば、1つの基本ルールと2つのサブルールがあり、1番目のサブルールが一致しない場合、2番目のサブルールは処理されません。
ルールとゾーンの操作
ルールとゾーンの追加オプションにアクセスするには、以下に示すように、[ルールリスト]領域の右上にある アイコンをクリックして [その他のアクション] メニューを開きます。
次の表では、[その他のアクション]メニューで使用できるオプションについて説明します。
メニューオプション | メニューアクション | キーボードショートカット |
---|---|---|
全てのゾーンの表示/非表示 | プレビュー領域のすべてのゾーンを表示または非表示にします。個々のゾーンまたはゾーンのグループを表示または非表示にすることも選択できることに注意してください。詳細については、 ゾーンの表示または非表示 を参照してください。 | F6 |
すべてのゾーンを削除 | 現在のノードからすべてのゾーンを削除します。 | Ctrl+Shift+Del |
ルールをエクスポート | 現在のルール リスト領域のルールをXMLファイルにエクスポートします。詳細については、 ルールのインポートとエクスポート を参照してください。 | Ctrl+E |
ルールをインポート | XMLファイルからルールリスト領域にルールをインポートします。詳細については、 ルールのインポートとエクスポート を参照してください。 | Ctrl+I |
ルールを展開/折りたたむ | ルールリスト領域のルールとサブルールのツリー構造を展開または折りたたみます。ルールリスト領域の名前の左側にある または 矢印2 アイコンをクリックして、個々の基本ルールとサブルールを展開または折りたたむこともできます。 | F12 |
移動ハンドルの表示/非表示 | 各ルールまたはサブルールの ハンドルツール を表示または非表示にします。ハンドルをクリックアンドドラッグして、ルールリスト領域でルールの位置を変更できます。サブルールを含む基本ルールを移動すると、すべてのサブルールが基本ルールとともに移動することに注意してください。他のサブルールを持つサブルールを別の基本ルールに移動すると、そのサブルールの下にあるすべてのサブルールも一緒に移動します。 | F11 |
名前の変更 | 現在選択されているルールまたはサブルールの名前を、指定した値に変更します。 | F2 |
プロパティの表示/非表示 | 選択したルールまたはサブルールの[プロパティ]パネルを表示または非表示にします。詳細については、 プロパティパネルの使用 を参照してください。 | F4 |
注: ルール リスト領域、またはプレビュー領域で右クリックし、表示されるコンテキストメニューからオプションを選択することで、個々のルールまたはゾーンのプロパティの名前変更、削除、および表示、または非表示を行うこともできます。ルールリスト領域の個々のルールの右側にある アイコンをクリックすると、このメニューにさらにアクセスできます。
ゾーンの表示または非表示
フォーム処理ノードを使用すると、作成した各ルールに関連付けられたゾーンをいくつかの方法で表示または非表示にすることができます。これらのオプションには、画面左側のルールリスト領域またはプレビュー領域からアクセスできます。ルールリスト領域を使用してゾーンを表示または非表示にするには、次のいずれかの方法を使用します。
- ルールまたはサブルールの名前の右側にある 目 のアイコン をクリックします。または、
- ゾーンの表示/非表示 メニューの下にあるオプションの1つを選択します。
ゾーンの表示/非表示メニューにアクセスするには、 アイコンをクリックして[その他のアクション]メニューを開くか、下の画像に示すようにルール名を右クリックします。プレビュー領域でゾーンを右クリックして、このメニューにアクセスすることもできます。
次の表に、ゾーンの表示/非表示メニューで使用できるオプションを示します。上記の方法に加えて、キーボードショートカットを使用して各オプションにアクセスすることもできます。
メニューオプション | メニューアクション | キーボードショートカット |
---|---|---|
すべてのゾーンを表示/非表示 | プレビュー領域ですべてのゾーンの表示のオンとオフを切り替えます。 | F6 |
このゾーンを表示/非表示 | プレビュー領域で選択したゾーンの表示のオンとオフを切り替えます。 | F7 |
このグループのゾーンを表示/非表示 | プレビュー領域で、選択した基本ルールまたはサブルールとそのすべてのサブルールに関連付けられたゾーンの表示/非表示を切り替えます。 | F8 |
これ以外のすべてのゾーンを非表示 | プレビュー領域のビューから、選択したゾーンを除くすべてのゾーンを非表示にします。 | F9 |
このグループ以外のすべてのゾーンを非表示 | 選択した基本ルールまたはサブルールに関連付けられているものを除くすべてのゾーンと、そのすべてのサブルールをプレビュー領域のビューから非表示にします。 | F10 |
注: プレビュー領域にゾーンが表示されている場合、ルールリスト領域の関連するルールまたはサブルールの右側に「目」のアイコン が表示されます。
ルールのインポートとエクスポート
ルールとサブルールを作成するだけでなく、XMLファイルを使用してルールをルールリスト領域に インポート することもできます。さらに、後で使用するために、既存のルールをXMLファイルに エクスポート することもできます。ルールをインポートするには、次の手順に従います。
-
[その他のアクション]メニューをクリックし、以下に示すように [ルールのインポート] を選択します。
-
ルールファイルを含むフォルダーに移動して開きます。現在ノードにルールが存在しない場合、Dispatcher Phoenixはルールをルールリスト領域にインポートします。ルールがすでに存在する場合は、次のダイアログボックスが表示されます。
-
上記のダイアログボックスが表示された場合は、次のいずれかのオプションを選択します。
a) XMLファイルのルールを[ルールリスト]領域の既存のルールセットに 追加 するには、[追加]をクリックします。
b) 現在定義されているすべてのルール をXMLファイルのルールに置き換えるには、[置換]をクリックします。[置換]をクリックすると、以前に定義されたすべてのルールが[ルールリスト]領域から削除されることに注意してください。
ルールをエクスポートするには、次の手順に従います。
-
[その他のアクションメニュー]をクリックし、以下に示すように [ルールをエクスポート] を選択します。
-
ルールファイルを保存するフォルダーに移動します。ファイルの名前を選択し、 [保存] ボタンをクリックします。ルールファイルのXMLコンテンツのプレビューがブラウザーウィンドウに表示されます。
-
使用が終了したらプレビューウィンドウを閉じます。エクスポートしたXMLファイルに再度アクセスするには、ファイルが保存されているフォルダーに移動します。
プロパティパネルの使用
プロパティパネルは、次の図のようになります。
ルール名の編集
プロパティパネルタイトルバー上で、 [ルール名の編集] ボタンをクリックしてルール名を変更できます。以下の図にあるように、ルール名がテキスト入力フィールドになります。
検索タブの使用
[検索タブ] では、 [検索モード] および [検索タイプ] メニューの下にあるオプションを使用して、検索条件を定義できます。[検索モード]メニューで使用できるオプションには、 「ノーマル」 (静的テキストなど)、 「正規表現」 、または 「パターン」 があります。[検索タイプ]メニューを使用して、これらの値を 「テキスト」 または 「バーコード」 検索に適用することを選択できます。たとえば、上の画像では、テキスト値「Date of Birth(生年月日)」の検索がノーマルモードで実行されています。
詳細については、次のセクションを参照してください。
サブルールの一致を必須にする
サブルールには、[検索]タブ上に追加のフィールドがあります。これを使って、前のルールが機能したように、サブルールが一致する必要があるかどうかを指定できます。
このオプション [一致が見つからない場合、親ルールのアクションを実行しない] を有効にした場合、サブルールが見つからないときに基本ルールは処理されません。次の図を参照してください。
場所タブの使用
[場所] タブを使って、処理するページ、およびページ上のルールのゾーン位置を指定できます。
基本ルールの場合
基本ルールの場合、処理するページ範囲、およびゾーンの位置/サイズを指定できます。次の操作を行います。
-
[ページの範囲] ドロップダウンリストを使って、次のオプションの1つを選択できます。
-
[すべてのページ] - 各ページを処理します。
-
[すべての偶数ページ] - 偶数ページを処理します。
-
[すべての奇数ページ] - 奇数ページを処理します。
-
[最初のページ] - 最初のページだけを処理します。
-
[最後のページ] - 最後のページだけを処理します。
-
[独自のページ範囲を定義] - 任意のページ範囲を処理します。このオプションを選択すると、ページ範囲を入力するための空のフィールドが表示されます。次の操作を行います。
-
ドキュメントの開始からカウントするダッシュ記号やカンマ記号(あるいはその両方)を使って、ページ範囲を指定します。たとえば、「1, 2, 5-7」と入力すると、1、2、5、6、7ページが処理されます。
-
ページ範囲内でスタンプを押す並びを指定するには、カッコを使用します。たとえば、「1-10(3)」と入力すると、1~10ページ目まで2ページおきのページが処理されます。
-
最後のページを指定するには、「end」を使用します。たとえば、「end(-5) - end」と入力すると、20ページあるドキュメントの15~20ページ目が処理されます。
その他の例は次のとおりです。
-
20ページあるドキュメントの1、2、5、6、7、19ページを処理するには、「1,2,5-7, end(-1)」と入力します。
-
20ページあるドキュメントの10~15ページを処理するには、「10-end(-5)」と入力します。
-
20ページあるドキュメントの10~15ページを1ページおきに処理するには、「10-end(-5)(2)」と入力します。
-
25ページあるドキュメントの15~20ページを処理するには、「(-10)-end(-5)」と入力します。
-
20ページあるドキュメントの10~20ページを処理するには、「end(-10)-end」と入力します。
注: 受け取るドキュメントのページ数に対応しないページ範囲を指定した場合(3ページのドキュメントに10~20ページの処理を指定した場合など)、ファイルはエラーになります。
-
-
-
-
[左] および [上] フィールドにピクセルまたはインチで計測値を入力して、ゾーンの位置を設定できます。
-
[高さ] および [幅] フィールドにピクセルまたはインチで計測値を入力して、ゾーンのサイズを変更できます。
サブルールの場合
サブルールの場合、検索する場所と時間、およびゾーンの位置/サイズを指定できます。次の操作を行います。
-
[検索するタイミング] ドロップダウンリストを使用して、検索する時間を指定します。オプションは次のとおりです。
-
[最初の出現] - 前のルールのゾーンから、サブルールが最初に出現するまで検索します。
-
[最後の出現] - 前のルールのゾーンから、サブルールが最後に出現するまで検索します。
-
[すべての出現] - 前のルールのゾーンから、サブルールがすべて出現するまで検索します。
-
[出現番号] - 前のルールのゾーンから、サブルール一致結果の範囲内で指定の出現があるまで検索します。このオプションを選択すると、数字を入力できる空のフィールドが表示されます。
-
-
プロパティパネルの[ゾーンの場所]領域、または[ゾーンのサイズ]領域を使用して、サブルールゾーンのサイズと位置を設定します。以下で説明するように、オプションはゾーンの種類によって異なります。
-
[固定位置]。サブルールゾーンの位置は、常に固定位置にあります。次の操作ができます。
-
[上] および [左] フィールドで、ゾーンの上/左側の位置を指定します。
-
[高さ] および [幅] フィールドで、ゾーンのサイズを指定します。また、プレビュー領域にあるゾーンの境界ボックスをドラッグして、ゾーンのサイズを指定することもできます。
-
位置決めに使用する計測単位(ピクセルまたはインチ)をカスタマイズします。
-
また、プレビュー領域に表示されているゾーンを適切な位置までドラッグアンドドロップすることもできます。それに応じて、ルールのプロパティパネル内のフィールドが変化します。
-
-
ゾーンの位置が[ ここより上 ]、[ これより後 ]、[ ここより下 ]、および[ これより前 ]に設定されている場合、サブルールのゾーンは 相対的な 前のルールのゾーンの位置に配置されます。これらのオプションのいずれかを選択すると、次の操作を実行できます。
-
[ゾーン サイズ]領域の [高さ] および [幅] フィールドを使用して、ゾーンのサイズを指定します。ゾーンサイズを示すために使用される測定単位 (ピクセル、インチ、またはミリメートル) をカスタマイズします。プレビュー領域でゾーンの境界ボックスをドラッグして、ゾーンのサイズを指定することもできます。
-
相対ゾーンの [位置] を変更するには、クリックしてプレビュー領域の新しい位置にドラッグします。
-
-
操作タブの使用
操作タブを使って、次の操作ができます。
-
[ドキュメントの変更] ボックスにチェックマークを付け、次に [墨消し] 、 [強調] 、または [取り消し線] のどれかを選択して、検索結果について実行する処理を選択します。
注: [メタデータ値の上書き]オプションと[重複の削除(Remove Duplicates)]オプションを有効にするには、まず[メタデータの関連付け]ボックスをオンにする必要があります。
-
[メタデータと関連付ける] ボックスにチェックマークを付け、メタデータを検索結果と関連付けます。また、 [メタデータキー] フィールドに、メタデータを識別する名前を入力する必要があります。メタデータのグループ名は[フォーム]になることに注意してください。たとえば、[メタデータキー]フィールドに名前を入力した場合、メタデータは、変数{forms:names}を使って参照できます。
-
[メタデータの値を上書き] ボックスにチェックマークを付け、次に下にある空のボックスに特定の値を入力することで、メタデータ値をハードコード値で上書きすることも選択できます。これは、特定の値に基づいてファイルを経路指定する場合に有効です。たとえば、(墨消しされたテキストの値に関係なく)墨消しされたテキストを含むすべてのファイルを経路指定したい場合、このフィールドに「墨消し」の値を入力し、次に「墨消し」のフォームメタデータを含むファイルを経路指定するメタデータ経路指定ノードを設定できます。
-
[Remove Duplicates(重複を削除)] を選択できます。既定では、このオプションは新しいワークフローではチェックされていないため、メタデータ キーに関連付けられたすべてのメタデータ値が保存されます。このボックスをチェックすると、ノードはそのメタデータキーに関連付けられた最初のメタデータ値のみを保存し、OCR処理中に見つかった他の値を無視します。
注: [Remove Duplicates(重複を削除)] オプションは、Dispatcher Phoenix 8.9.1以降で新しく追加されました。このリリースより前に作成されたワークフローの場合、ワークフロー機能を維持するために、 [Remove Duplicates(重複を削除)] ボックスが既定でオン(ON)になっています。
プレビュー領域の使用
プレビュー領域には、サンプルドキュメント上にルールの境界ボックスが表示されています。
プレビュー領域を使って、次の操作ができます。
-
境界ボックスを選択し、ボックスが希望するサイズになるまでハンドルを適切にドラッグして、ルールの境界ボックスの サイズを変更 します。
-
境界ボックスをクリックし、次にボックスを希望の位置までドラッグして、ルールの 位置を変更 します。
-
ツールバーの アップロード アイコンをクリックして、 別のサンプルドキュメント上でゾーンを定義します。
ヒント: プレビュー領域の幅と高さは、左と下の境界をクリックしてドラッグすることで調整できます。
ツールバーの使用
ウィンドウの上部にあるツールバーで、ノードのプロパティウィンドウのビューをカスタマイズできます。
ツールバーのドロップダウンパレットを使用するときは、Enter キーを押すか、パレット外の任意の場所をクリックすると、変更内容がゾーンに適用されます。
ツールバーアイコン | 説明 |
---|---|
ルール構成の実行のアイコン このアイコンをクリックして、定義したルールをテストします。 | |
ルール構成の設定の実行を示すアイコン このアイコンをクリックして、タイムアウトが発生するまでの通信なしの時間に割り当てられた秒数を変更します。 | |
削除アイコン 選択したルールを削除するには、このアイコンをクリックします。 | |
ページアイコン 矢印をクリックして、サンプルドキュメントの複数のページに移動します (利用可能な場合)。 | |
サンプルドキュメントアイコン このアイコンをクリックして、別のサンプルドキュメントを見つけてアップロードし、プレビュー領域で使用します。 | |
実際のサイズアイコン プレビュー領域の幅に合わせてサンプルドキュメントを引き伸ばします。 | |
幅に合わせるアイコン このアイコンをクリックすると、プレビュー領域の幅に合わせてサンプルドキュメントが引き伸ばされます。 | |
ページ全体アイコン このアイコンをクリックして、サンプルドキュメントをプレビュー領域に完全に合わせます。 | |
ズーム コントロール 拡大鏡アイコンまたはスライドバーを使用して、プレビュー領域を拡大または縮小します。 |
静的テキストの検索
ドキュメント内の静的テキストを検索するには、次の操作を行います。
-
[検索モード] ドロップダウンリストから [ノーマル] を選択します。
-
[検索タイプ] ドロップダウンリストから [テキスト] を選択します。
-
検索する静的テキストを、 [検索対象] フィールドに入力します。
-
次の 検索オプション を選択することで、さらに精緻な検索ができます。
-
[単語単位] - (単に指定した部分を含むワードではなく)完全なワードを検索するには、このボックスにチェックマークを付けます。
-
[大文字と小文字を区別] - 検索操作で大文字、小文字を問題にする場合は、このボックスにチェックマークを付けます。
-
[部分一致] - 入力した文字列と一致するか、ほぼ一致する単語やテキスト文字列を検索するには、このボックスにチェックマークを付けます。このオプションは、OCRの誤りを補正するために用意されています。
-
次の図では、「Patient Name (患者の名前)」が検索されています。
バーコードの検索
バーコード値を検索するには、通常検索、正規表現、またはパターン検索が使えます。検索モードをすでに選択してある場合は、次の操作を行います。
注: Tesseract OCRエンジン は、この機能をサポートしていません。
検索モードを選択したら、次の手順を実行します。
-
[検索タイプ] ドロップダウンリストから [バーコード] を選択します。
-
表示されたポップアップ画面から検索するバーコードのタイプを選択するには、 [バーコードの選択] ボタンを選択します。対象となるバーコードの隣にあるボックスにチェックマークを付け、次に [OK] ボタンを選択します。例については次の図を参照してください。
バーコード値を検索するとき、バーコードは単一の要素として扱われます。
たとえば、バーコード値の一部と一致する正規表現検索を設定した場合、バーコード値全体が処理(墨消し、強調、または取り消し線処理)され、結果的にメタデータとして抽出されます。
下の例では、バーコード値は「12345」です。「123」を見つけ出し、バーコードを墨消しし、メタデータとしてバーコード値を抽出するように、正規表現検索が設定されています。このケースでは、バーコード全体が墨消しされ、バーコードのメタデータ値が「12345」として戻されます。
次の図を参照してください。
バーコード検索ルール構成:
結果:
正規表現を使用した検索
検索で正規表現を使用するには、以下の操作を行います。
-
[検索モード] ドロップダウンリストから [正規表現] を選択します。
-
[検索タイプ] ドロップダウンリストから [テキスト] または [バーコード] を選択します。
-
使用する正規表現を [検索対象] フィールドに入力します。
検索条件を変更する
場合によっては、ルールまたはサブルールの検索条件を変更して、ドキュメント内の 別の位置 にあるコンテンツを検索することを決定する場合があります。このシナリオで、ルールリスト領域の他のサブルールより前にあるルール、またはサブルールの検索条件を変更し、新しい検索条件によって識別されるコンテンツと位置が一致するコンテンツを検出する場合は、次のいずれかを実行する必要があります。
- 検索条件が変更されたルール、またはサブルールの下にあるサブルールを 再作成 します。または、
- 検索条件が変更されたルール、またはサブルールの下にあるサブルールのゾーンを手動で サイズ変更/または再配置 します。
たとえば、以下の画像では、ルール1は「agency」という単語を検索するように構成されており、ルール2はこの用語より上のすべてを検索するように構成されています。ルール1の検索用語が「representative」に変更された場合、ルール2を再作成するか、新しい検索条件より上にあるコンテンツを検出するために手動で位置を変更する必要があります。
注: 他のサブルールの前にあるルールまたはサブルールの検索条件を変更した場合、その位置が検索で識別されるコンテンツと位置を合わせる必要がない場合は、これらのサブルールに関連付けられたゾーンは再作成、または再配置する必要はありません。たとえば、次の構成で、「Mary」ではなく「Smith」を検索するようにルール1を変更すると、引き続きルール2とルール3を使用して「Phone(電話)」と「Address(住所)」を検出できます。「Smith」という単語と具体的に一致させる必要はありません。
パターンマッチングツールの使用
高度な検索でパターンを使用するには、 [検索モード] ドロップダウンリストから [パターン] を選択し、[パターンの詳細]領域の [パターンの追加および編集] ボタンを選択します。次の図のように、パターンマッチングツールが表示されます。
パターンマッチングツールでウィンドウの左側に、あらかじめ定義されたパターンのグループが一覧表示されます。次の操作ができます。
-
各グループ内のパターンを表示するには、特定のカテゴリーを選択します。ウィンドウの右側にパターンが表示されます。たとえば、電話番号のパターンは次の図のようになります。
-
パターンをフォーム処理ノードに追加するには、以下の操作を行います。
-
パターンマッチングツールの [パターン] リストからカテゴリーを選択します。
-
目的のパターンの横にあるチェックボックスをオンにします。
-
[保存] ボタンを選択します。
-
パターンマッチングツールが閉じ、次の図のように、パターンに関連付けられている正規表現がフォーム処理ノードの [検索対象] フィールドに表示されます。
-
新しいパターンの作成
新しいパターンを作成するには、[パターン]領域の [+] ボタンをクリックします。次の図のように、[新規パターン]ウィンドウが表示されます。
次の操作を行います。
-
[グループ化] ドロップダウンリストを使用して新しいパターンのグループを選択します。新しいグループを作成する場合は、 [新規グループの作成…] オプションを選択します。
a. [新規グループの作成]オプションを選択すると、次の図のように、 [グループ化] ドロップダウンリストの下に空の [グループ名] フィールドが表示されます。
b. 新しいグループの名前を [グループ名] フィールドに入力する必要があります。[パターン]リストの下に新しいグループが表示されます。
-
[名前] フィールドに新しいパターンを識別するためのテキストを入力します。このテキストは、新しく作成したパターンの横の[パターンマッチングツール]ウィンドウに表示されます。
-
[マスク] フィールドに、新しいパターンを構成するマスク文字を入力します。
-
[正規表現] フィールドに新しいパターンの正規表現を入力します。
-
完了したら、 [保存] ボタンを選択します。
新しいパターンが[パターンマッチングツール]ウィンドウに表示され、指定したグループに分類されます。
たとえば、「(1) – XXX-XXX-XXXX」という書式の電話番号を検索するパターンを作成するには、以下の操作を行います。
-
新規パターン追加 のアイコンをクリックして、[新規パターン]ウィンドウを開きます。
-
[グループ化] ドロップダウンリストから[電話番号]を選択します。
-
[説明] フィールドに新しいパターンの説明(「Country Location」など)を入力します。
-
[マスク] フィールドに「1-XXX-XXX-XXXX」と入力します。
-
[正規表現] フィールドに「1-\d{3}-\d{3}-\d{4}」と入力します。
-
[保存] ボタンを選択します。
次の図のように、新しいパターンが電話番号パターンに追加されます。
パターンを使用した作業
パターンマッチングツールウィンドウに一覧表示される各パターンには、コピー、編集、および削除のアイコンが含まれています。アプリケーションに標準で用意されているパターンは、コピーのみできます(編集や削除はできません)。自分で作成したパターンは、コピー、編集、削除することができます。次の図を参照してください。
パターンのコピー
パターンをコピーするには、コピーしたいパターンの横で [パターンのコピー] アイコンをクリックします。次の図のように、パターンのコピーウィンドウが表示されます。
この画面で、パターンに関連付けられているグループ、名前、マスク、および正規表現を変更できます。完了したら、 [保存] ボタンを選択します。元のパターンのコピーがパターンマッチングウィンドウのリストの末尾に自動的に表示されます。
パターンの編集
以前に作成したパターンを編集するには、編集したいパターンの横で [パターンの編集] アイコンをクリックします。次の図のように、[パターンの編集]ウィンドウが表示されます。
この画面で、パターンに関連付けられているグループ、名前、マスク、および正規表現を変更できます。完了したら、 [保存] ボタンを選択します。編集したパターンがパターンマッチングウィンドウのリストの末尾に自動的に表示されます。
パターンの削除
以前に作成したパターンを削除するには、削除したいパターンの横で [パターンの削除] アイコンをクリックします。削除操作の確認を求めるメッセージが表示されます。
ルール構成の実行
フォーム処理ノードを使用すると、ワークフローを実行する前に、作成したルールとサブルールをテストすることができます。ルールリスト領域のすべてのルールをテストするか、選択したルールのサブセットをテストするかを選択できます。
すべてのルールのテスト
すべてのルールをテストするには、ツールバーの[ルールの構成]ボタンを選択して、処理の結果を確認します。次の図のように、ルールクエリー結果パネルがページの下部に表示されます。
注: ルール構成を実行すると、現在表示されているページのみの結果が返されます。
特定のルールグループのテスト
特定のルールグループのみをテストするには、[ルールリスト]領域でグループの基本ルールを右クリックし、以下に示すように [このグループをテスト] を選択します。基本ルールの名前の右側にある アイコンをクリックするか、キーボードの [F5] キーを押して表示されるメニューにアクセスすることもできます。
このアクションは、基本ルールとそれに関連付けられたすべてのサブルールをテストします。テストの結果は、ノードで構成されたすべてのルールをテストする前のセクションで示した例と同様の形式でプレビュー領域に表示されます。
正規表現の例
マッチング対象 正規表現
電子メールアドレス
「john@example.com」のようなメールアドレスにマッチさせるには、1つ以上の小文字、数字、アンダースコア、ピリオド、またはハイフンと、それに続く@記号、およびドメイン名とマッチするように正規表現を設定してください。ドメイン名も1つ以上の小文字、数字、アンダースコア、ピリオド、またはハイフンで構成されます。
^([a-z0-9_\.-]+)@([\a-z0-9_\.-]+)\.([a-z\.]{2,6})$
Where:
^ は行頭を示します。
[a-z0-9_\.-] は、ユーザー名またはドメイン名に含まれる文字、数字、アンダースコア、ピリオド、またはハイフンに一致します。
+ は1個以上を示します。@は、すべてのメールアドレスのドメイン名の前にある記号です。
. は、ドメイン名の拡張子の前にある記号です。
[a-z\.] は、文字またはピリオドに一致します。
{2,6} は、2~6個の文字が許容されることを示します。
$ は行末を表します。
例: ^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$
マッチ例: john@doe.com
ユーザー名
ユーザー名に一致させるには、文字、数字、アンダースコア、またはハイフンに一致するように正規表現を設定します。
例:
/^[a-z0-9_-]{3,16}$
Where:
^ は行頭を示します。
[a-z0-9_-] は、文字、数字、アンダースコア、またはハイフンに一致します。
{3,16} は、それらの文字が3個以上、16個以下出現する必要があることを意味します。
$ は行末を表します。
マッチ例: my-us3r-n4m3
クレジットカード番号
クレジットカードは、基本的な採番体系に準拠しており、先頭の数字列の後ろに一定の桁数が続きます。たとえば、Master Cardの番号は16桁で、最初の1桁は常に「5」に固定されており、2桁目は1~5までの数字です。
例:
5[1-5]\d{14}
Where:
5 は最初の1桁です。
[1-5] は、1~5の範囲の数字に一致します。
d{ 14} は、続く14桁に一致します。
マッチ例: 5212345678901234