高度なOCR

22 分読む 最終更新日 2023年09月06日

高度なOCR処理ノードを使用して、光学式文字認識(OCR)の結果を調整し、ゾーンを使用してメタデータを抽出します。ゾーンを介して、OCR エンジンがページ上のテキスト、フォーム、表、グラフィックなどのさまざまな要素を認識する方法を定義できます。たとえば、受信ドキュメントから請求書番号を取得するために、請求書番号が表示されるドキュメントの領域にゾーンを作成できます。さらに、ゾーンはメタデータを自動的に抽出して、メタデータを元のドキュメントに関連付けることができます。

このノードは、次のファイルタイプで機能します。

  • TIFF
  • JPG
  • PNG
  • BMP
  • PDF

注:

  • Microsoft.NET Framework 3.5またはそれ以上が存在しない場合、このノードの機能の一部は正しく機能しない可能性があります。FrameworkをWindows Updateからインストールするか、MicrosoftのWebサイトからダウンロードしてください。

  • スキャンされたドキュメントの推奨最小DPIは200です。300 DPI以上のドキュメントではより良い結果が期待できます。

  • このノードには、Tesseract OCR エンジン と、aiDocuDroid OCR エンジン が含まれます。OmniPage OCRエンジン、もしくはaiDocuDroid 手書き文字認識 ICRエンジンのライセンスを購入することもできます。

  • このページはおもにTesseractとOmniPageに当てはまります。aiDocuDroidおよびaiDocuDroid 手書き文字認識の要件と機能はわずかに異なり、ここで説明されています。

プロパティウインドウ

高度なOCR処理ノードを構成するには、ノードをワークフロービルダーの作業領域にドラッグアンドドロップしてダブルクリックします。次の図のように、[高度なOCR]ノードのプロパティウィンドウが表示されます。

上の図は、TesseractをOCRエンジンとして使用し、選択オプションを使用しないプロパティウィンドウの既定の構成を表しています。

複数のOCRエンジンにアクセスできる場合は、[OCRエンジン]フィールドがドロップダウンメニューで表示されます。オプションは次のとおりです。

高度なOCRプロパティウィンドウで、OCR処理のゾーンを完全に定義およびカスタマイズできます。ウィンドウは次の領域で構成されています。

一般的な設定

  • [有効] - 現在のワークフローでこのノードを有効にするには、このフィールドのチェックボックスをオンにします。ボックスを空白のままにすると、ワークフローはノードを無視し、ドキュメントはノードが存在しないかのように通過します。無効化されたノードは論理条件やエラー条件をチェックしないことに注意してください。

  • [ノード名] - ノード名は既定でこのフィールドに入力されます。この名前はワークフローのノードアイコンの下に表示されます。このフィールドを使用して、ワークフローでの使用を表すノードの意味のある名前を指定します。

  • 「説明」 - このノードのオプションの説明を入力します。説明はワークフロー内のノードの目的を思い出したり、ノードを互いに区別したりするのに役立ちます。説明が長い場合は、フィールドの上にマウスを置くとその内容全体を読み取ることができます。

  • [OCR エンジン] - 複数のOCRエンジン がライセンスされ、Dispatcher Phoenixにインストールされている場合、ドロップダウンメニューが表示され、そこから使用するエンジンを選択することができます。システムで使用できるエンジンが1つしかない場合は、エンジンの名前がこのフィールドに表示されます。

    注: 別のOCRエンジンに変更すると、 [有効] チェックボックスと [ノード名] を除くすべての構成設定が破棄され、既定の設定に戻されます。

ボタン

  • [詳細設定] - 高度なOCR設定ウインドウにアクセスするには、このボタンをクリックします。
  • [ヘルプ] - Dispatcher Phoenixのオンラインヘルプにアクセスするには、このボタンをクリックします。
  • [保存] - ノード定義を保持してウィンドウを終了するには、このボタンをクリックします。
  • [キャンセル] - 変更を保存せずにウィンドウを終了するには、このボタンをクリックします。

プレビュー領域

プレビュー領域を使用して、ゾーンの定義に使用するサンプルドキュメントをアップロードします。ドキュメントはスキャンするドキュメントに類似している必要があります。

高度なOCRノードのプロパティウィンドウを最初に開いたとき、プレビュー領域には ドキュメントをアップロード ウィンドウのみが含まれ、画面上の多くのオプションは非アクティブです。ドキュメントをアップロードすると、画像がプレビュー領域に表示され、オプションがアクティブになります。

ドキュメントをアップロードするには、 ドキュメントをアップロード ウィンドウのアイコンをクリックするか、ツールバー[アップロード] アイコンをクリックします。 「サンプルを開く」ウィンドウが表示されるので、そこからドキュメントを選択できます。さらに、このアプリケーションは、さまざまなサイズのサンプルドキュメントをいくつか提供しており、これらも使用できます。次の図を参照してください。

ドキュメントを選択して [開く] をクリックします。プレビュー領域にサンプルドキュメントが表示されます。

注: サンプルドキュメントを選択した後、ツールバーの [アップロード] アイコンをクリックして別のドキュメントを選択することができます。すでにゾーンを作成している場合、新しいドキュメントを選択するとウィンドウが表示され、既存のゾーンを保存するか削除するかを選択することができます。

ツールバー

ウィンドウの上部にあるツールバーを使用して、ゾーンをさらに定義し、ノードのプロパティウィンドウのビューをカスタマイズします。サンプルドキュメントをプレビュー領域にアップロードするまで、多くのツールバーのオプションはアクティブにならないことに注意してください。

ツールバーのドロップダウンパレットを使用する場合、 [Enter] キーを押すか、パレットの外側をクリックすると、それらの変更がゾーンに適用されます。

ツールバーアイコン 説明
テストゾーン - クリックして、現在プレビューされているページ上のすべてのゾーンをテストします。結果はプレビュー領域の下のセクションに表示されます。
ゾーン座標 - クリックして、ゾーンの特定の座標を定義します。 [幅] フィールドと [高さ] フィールドに値(ピクセル単位)を入力することで、ゾーンのサイズを変更できます。 [左] フィールドと [上] フィールドに値(ピクセル単位)を入力して、ゾーンの位置を移動することもできます。
ゾーンのタイプ - このアイコンをクリックして、選択したゾーンの設定を定義します。
ゾーンのページ範囲 - クリックして、ゾーンを適用するページを指定します。オプションは次のとおりです。
  • 許容範囲内のすべてのページ - このラジオボタンを選択して、ゾーンが範囲内のすべてのページに適用されるようにします。
  • 使用可能な範囲の次のページのみ - このラジオボタンを選択して、ゾーンが指定された範囲内のページにのみ適用されるようにします。次に、下の空のフィールドにページ範囲を入力します。
削除 - クリックして、選択したゾーンを削除します。
OCR - クリックすると、アプリケーションがゾーンを自動的に検出して適用します。ページで定義されている既存のゾーンは、この処理が開始されるとすべて削除されます。
ページ - 矢印をクリックして、サンプルドキュメントの複数のページをナビゲートします(必要な場合)。
サンプルドキュメントのアップロード - クリックして、プレビュー領域で使用する別のサンプルドキュメントを見つけてアップロードします。
実際のサイズ - クリックして、プレビューサンプルドキュメントを元のサイズに戻します。
幅に合わせる - クリックして、サンプルドキュメントを拡大し、プレビュー領域の幅に合わせます。
ページ全体 - クリックして、サンプルドキュメントをプレビュー領域に完全に合わせます。
ズームコントロール - 虫眼鏡アイコンまたはスライドバーのいずれかを使用して、プレビュー領域をズームインおよびズームアウトします。

ゾーンリスト

この領域を使用して、検出ゾーンを作成、編集、または削除します。ゾーンは、OCRエンジンで使用する画像ドキュメントの領域を定義し、ドキュメントからテキストを出力することができます。ノードをゾーンを手動で作成するか、ゾーンを自動で作成するように構成できます。たとえば、受信ドキュメントから請求書番号を取得するために、ドキュメントの請求書番号が表示される領域にゾーンを作成できます。

プレビュー領域にドキュメントをアップロードすると、ゾーンリストがアクティブになります。ノードに定義されているすべてのゾーン(存在する場合)が、次の図のようにリストに表示されます。

ゾーンの追加オプションにアクセスするには、以下に示すように、[ゾーンリスト]領域の右上にある アクションアイコンをクリックして、[ その他のアクションメニュー ] を開きます。

ゾーン 領域の3つのドットをクリックすると、 その他のアクションメニュー が開き、次の操作ができます。

メニューオプション メニューアクション ショートカットキー
すべてのゾーンを表示/非表示 キャンバス上のすべてのゾーンの表示を切り替え、リストの各ゾーンが非表示になっている場合は、その横に「非表示」アイコン アクション を表示します。現在の選択に表示と非表示のゾーンが混在している場合、このオプションをクリックするとすべてのゾーンが非表示になります。 F6

すべてのゾーンを削除 | ゾーンエディター/キャンバスからすべてのゾーンを削除します。 | Ctrl+Shift+Del

ゾーンの横にある3つのドットをクリックすると、次の操作ができます。

メニューオプション メニューアクション ショートカットキー
ゾーンを表示/非表示 次の表を参照 次の表を参照
削除 ゾーンエディター/キャンバスから選択したゾーンを削除します。 Del
名前の変更 選択したゾーンの名前を変更します。 F2
このゾーンをテスト ユーザーが個々のゾーンをテストおよびデバッグできるように、選択した単一のゾーンを実行およびテストします。 F5

注:

  • ゾーンのテストに成功すると、ゾーンの結果クエリーセクションがプレビュー領域の下部に表示され、テストされたすべてのゾーンの値が示されます。
  • ゾーン領域、プレビュー領域、およびゾーンのテスト後に表示されるゾーン結果クエリーセクションのサイズを調整するには、これらの2つの領域の間のエッジをクリックしてドラッグします。たとえば、ゾーン領域とプレビュー領域の間の境界線を右にドラッグすることで、ゾーン領域を大きく(またはプレビュー領域を小さく)することができます。
  • テストされたゾーンの値をコピーするには、次の2つの方法があります。
    1. ゾーンを右クリックして、 ゾーン値をコピー を選択します。
    2. ゾーンの結果クエリーセクションでゾーンの結果を右クリックし、 コピー を選択します。

ゾーンを表示/非表示 には、より多くのオプションを備えた2番目のメニューがあります。

メニューオプション メニューアクション ショートカットキー
すべてのゾーンを表示/非表示 キャンバス上のすべてのゾーンの表示を切り替え、リストの各ゾーンが非表示になっている場合は、その横に「非表示」アイコン アクション を表示します。現在の選択に表示と非表示のゾーンが混在している場合、このオプションをクリックするとすべてのゾーンが非表示になります。 F6
このゾーンを表示/非表示 キャンバス上の選択したゾーンの表示を切り替えます。 F7
これ以外のすべてのゾーンを非表示 選択したゾーンを除く、キャンバス上のすべてのゾーンを非表示にします。 F9

このノードは追加のアクションもサポートします。

メニューオプション メニューアクション ショートカットキー
選択したゾーンをテスト ユーザーが一度に複数の選択されたゾーンをテストおよびデバッグすることができるように、複数の選択されたゾーンを実行およびテストします。 F5
ゾーン値をWindowsクリップボードにコピー 検出されたゾーン値をWindowsクリップボードにコピーします。このコマンドには、 テストゾーン 機能を使用した後に生成されるゾーン結果の右クリックメニューからアクセスできます。 Ctrl+c
選択したゾーンを削除 ゾーンエディター/キャンバスから選択したゾーンを削除します。 Del

注: ゾーンリスト領域、またはプレビュー領域を右クリックして表示されるメニューからオプションを選択することによって、個々のゾーンのプロパティを 名前の変更削除 、または 表示/非表示 することもできます。

複数のゾーンは、次の2つの方法で選択することができます。

  1. プレビュー領域でマウスをクリックしてドラッグし、複数のゾーンを一度に強調表示します。
  2. Ctrlキーを押しながらクリックして、複数のゾーンを選択します。この方法は、ゾーン領域とプレビュー領域で機能します。 複数のゾーンを選択している場合は、選択したゾーンのいずれかから その他のアクション メニューを選択する必要があります。複数のゾーンを変更またはテストするためのオプションが表示されます。

ゾーンを手動で作成

ゾーンを手動で作成するには、次の操作を実行します。

  1. [新しいゾーンを追加] - 次の図のように、このボタンをクリックしてドロップダウンパレットにアクセスします。

  2. [新しいゾーンを追加]ドロップダウンパレットで、次の手順を実行します。

    • [ゾーン名] - ゾーンの識別名を入力します(例: 請求書 または 住所 )。最大15文字まで入力できます。
    • [左] および [上] - ドキュメントの左と上からゾーン位置の値(ピクセル単位)を入力します。
    • [幅] - ゾーンの適切な幅を定義する値(ピクセル単位)を入力します。
    • [高さ] - ゾーンの適切な高さを定義する値(ピクセル単位)を入力します。
    • [ゾーンのページ範囲] - ゾーンが適用されるページを指定します。オプションは次のとおりです。
      • [許容範囲内のすべてのページ] - このラジオボタンを選択して、指定した範囲内のすべてのページにゾーンを適用します。これはドキュメントの最初のページで構成されたゾーンが、ドキュメント内の残りのページに自動的に適用されることを意味します(処理する指定されたページ範囲がすべてのページの場合)。
      • [使用可能な範囲の次のページのみ] - このラジオボタンを選択すると、指定した範囲内の特定の範囲のページにのみゾーンが適用されます。次に表示された空のフィールドにページ範囲を入力します。
    • [保存] - 完了したら、このボタンをクリックします。ゾーンは、プレビュー領域の指定された場所に表示されます。下の図を参照してください。
    • [キャンセル] - このボタンをクリックして、変更を保存せずにドロップダウンパレットを終了します。

ゾーンを自動で作成

高度なOCRノードは、サンプルドキュメントをアップロードするかどうかに関わらず、ゾーンを自動的に検出できます。サンプルドキュメントをアップロードしないことを選択した場合は、[処理するページの範囲] フィールドと [出力] フィールドを使用して、それぞれページ範囲と出力形式を指定できます。次に [保存] ボタンを選択します。

サンプルドキュメントをアップロードすることを選択した場合、OCR エンジン は、ページのコンテンツを順序付けられたゾーンに自動的に分割します。以下の操作を行います。

  • [OCR] - ゾーンを自動的に作成するには、ツールバーのアイコンをクリックします。複数ページのドキュメントでは、ゾーンは現在プレビューしているページに表示されます。たとえば、4ページのドキュメントで、2ページのプレビュー中にこのボタンをクリックすると、ゾーンが2ページに表示されます。複数ページのドキュメントの別のページにゾーンを適用するには、そのページをプレビューしてからこのボタンをクリックします。

ゾーンの編集

ゾーンを編集するには、ゾーンリスト またはプレビュー領域でゾーンをクリックします。選択したゾーンを編集するには、次のオプションがあります。

  • プレビュー領域
    • 再配置 - ゾーンをクリックして、パレットの新しい領域にドラッグします。
    • サイズを変更 - ゾーンの境界にあるハンドルの1つをクリックし、エッジをパレットの新しい場所にドラッグします。サンプルドキュメントのサイズを大幅に変更すると、ハンドルが使用できなくなる場合があることに注意してください。このような場合は、ツールバーのアイコンをクリックして、[ゾーン座標]オプションを使用します。ゾーンのサイズを変更します。

ゾーンのタイプ/コンテンツの定義

ゾーンコンテンツの特定の形式に一致するように、各ゾーンの設定を選択できます。プレビュー領域でゾーンを選択した状態で、ツールバーのアイコンをクリックしてゾーンを表示します。ドロップダウンパレットを入力します。次にゾーンのタイプを選択します。次の表にオプションを示します。

注: ドロップダウンパレットで使用可能なゾーンタイプは、エンジンの機能機能に基づいてOCR エンジンによって決定されます。次の表に各OCRエンジンで使用できるオプションを示します。

ゾーンタイプ OmniPage Tesseract
テキストゾーン - ゾーンのコンテンツは、フローテキストとして扱われます。 Y Y
テーブルゾーン - ゾーンのコンテンツはテーブルとして扱われます。 Y Y
グラフィックゾーン - ゾーンのコンテンツは、認識されたテキスト(写真、ロゴ、描画など)としてではなく、埋め込み画像として扱われます。 Y Y
アジア言語の縦書きの対応 - ゾーンのコンテンツは、縦書きのアジアのテキストとして扱われます。 Y N
文字を左へ90度回転させた書き方 - ゾーンのコンテンツは、左回転した縦書きテキストとして扱われます(例: ) Y N
文字を右へ90度回転させた書き方 - ゾーンのコンテンツは、右回転した縦書きテキストとして扱われます(例: ) Y N

注: 自動画像回転は、垂直左回転または垂直右回転オプションと競合します。これらのオプションのいずれかを選択する場合は、自動画像回転の既定の設定を無効にします。

OCR メタデータ

OCRゾーンを定義すると、ワークフロー内の他のノードはそれを参照できるようになります。

  • OCRゾーン参照の構文は次のとおりです。

    • {ocr:zone.nameofzone.[<page>]}

    これにより、このゾーンで抽出された値が提供されます。

  • OCRアプリケーションがゾーン内の値を検出した場所の構文は次のとおりです。

    • {ocr:zone.nameofzone.[zonecoordinate]}

    [zonecoordinate] は、ピクセル単位で定義された、「上」、「左」、「幅」、または「高さ」のいずれかです。

次の図のように、メタデータブラウザーウィンドウを使用してOCRゾーン変数を選択することもできます。

追加の設定

OCR処理に含めるページと出力形式を指定できます。これらのフィールドは、高度なOCRノードのプロパティウィンドウの左下隅に表示されます。

処理するページの範囲の指定

OCR処理に含めるページを指定できます。次のオプションがあります。

  • [処理するページの範囲] - この領域は、ページの左側、ゾーンリストの下に表示されます。ドロップダウンをクリックすると、次のオプションが表示されます。

    • [すべてのページ] - すべてのページを処理します。

    • [すべての偶数ページ] - 偶数ページを処理します。

    • [すべての奇数ページ] - 奇数ページを処理します。

    • [最初のページ] - 最初のページだけを処理します。

    • [最後のページ] - 最後のページだけを処理します.

    • [独自のページ範囲を定義] - カスタムページ範囲を処理します。このオプションを選択すると、ページ範囲を入力できる空のフィールドが表示されます。次のオプションがあります。 - ドキュメントの先頭から数えてカンマやダッシュ記号を使用してページ範囲を指定します。たとえば、「1, 2, 5-7」と入力して、1、2、5、6、および7ページを処理します。 - カッコを使用して、ページ範囲内の特定のシーケンスを指定します。たとえば、「1-10(3)」と入力して、1ページから10ページまでの3ページごとに処理します。 - 「end」を使用して最後のページを指定します。たとえば、「end(-5)」と入力します。20ページのドキュメントの15-20ページで処理を終了します。

      その他の例は次のとおりです。

      - 20ページのドキュメントの1、2、5、6、7、および19ページを処理するには、「1,2,5-7, end(-1)」と入力します。 - 20ページのドキュメントの10-15ページを処理するには、「10-end(-5)」と入力します。 - 20ページのドキュメントの10-15ページから1ページおきに処理するには、「10-end(-5)(2)」と入力します。 - 25ページのドキュメントの15-20ページを処理するには、「end(-10)-end(-5)」と入力します。 - 20ページのドキュメントの10-20ページを処理するには、「end(-10)-end」と入力します。

    注: 受信ドキュメントのページ数に適応しないページ範囲を指定した場合(たとえば、3ページのドキュメントのページ10〜20を処理する場合)、ファイルはエラーへ出力されます。

  • [ユーザー定義ゾーンがない場合、自動ゾーン機能を使用してページを処理] - 複数ページのドキュメントを処理する場合、既定の動作では、ゾーンが作成されているページのみが処理されます。ドキュメントにゾーンが定義されていない複数のページが含まれている場合は、 [ユーザー定義ゾーンがない場合、自動ゾーン機能を使用してページを処理] チェックボックスをオンにすることで、それらのページの自動ゾーニングを有効にできます。ゾーンは、ゾーンのないページに対して自動的に定義されます。空白のページにはゾーンが定義されていないことに注意してください。

    注: このオプションをオンにすると、{ocr:zone}が利用可能なユーザー定義ゾーンとともにメタデータブラウザーウィンドウに表示されます。

出力フォーマットの選択

[出力]フィールドを使用して、出力ファイルの形式を指定します。この領域は、ページの左側、ゾーンリストの下に表示されます。

[出力]フィールドで、ドロップダウンをクリックすると、出力オプションのリストが表示されます。OCR エンジンはこのフィールドで使用できるオプションのリストに影響を与える可能性があります。オプションが[出力]フィールドに表示されない場合、OCRエンジンではサポートされていません。以下の表を参照してください。

注: 処理された出力ファイルには、次の例外を除いて、ユーザー定義ゾーンでキャプチャされたコンテンツのみが含まれます。これらの出力形式には、ゾーンでキャプチャされたコンテンツとともに元のファイルが含まれます。

  • 元のドキュメント + メタデータ
  • 検索可能なPDF
出力オプション OmniPage Tesseract
元のドキュメント + メタデータ - 定義されたゾーンから抽出されたメタデータとともに元のファイルを出力します。これは既定の設定であり、さらに処理するために、ワークフロー内の他のノード(メタデータ/ファイル、メタデータ経路指定など)でメタデータを使用するために必要です。 Y Y
PDF - 多くのPDF機能をサポートし、認識された文字の位置に大きく依存する、高度な構成が可能な一般的なPDF出力コンバーター。PDFは元のドキュメントと非常によく似た外観になります。 Y N
検索可能なPDF - 前景にある元イメージを、背景に隠れている認識されたテキストと共に(正確な位置で)保持するPDF出力コンバーターです。ドキュメントのアーカイブとインデックス処理用にお薦めします。この形式では、入力ドキュメント全体が出力に含まれます。 Y Y
イメージ置き換え付きのPDF - 元の画像から切り取られた画像で、疑わしい単語をカバーする特別なPDFコンバーター。 Y N
Microsoft Word オプション - ドキュメントをさまざまなバージョンのWordに出力します。選択肢は、Word 2000、XP、97、2003です。Microsoft Wordの長さ/高さの制限は22インチであることに注意してください。 Y N
Microsoft Excel - ドキュメントをさまざまなバージョンのExcelに出力します。選択肢は、Excel 2003、XP、97です。 Y N
Microsoft PowerPoint - Microsoft PowerPointで解釈できるプレーンでシンプルなRTFファイルを生成します。 Y N
検索可能なXPS - ドキュメントを、検索可能なXPSファイルに出力します。XPSは、PDFに似たXMLベースの固定レイアウトドキュメント形式です。 Y N
RTF オプション - ドキュメントをさまざまなバージョンのRTFに出力します。選択肢は、RTF Word 2000、97、またはWord 6.0/95です。RTF 2000 Exact Word(Microsoft Wordでページをより正確にレンダリングします)。Microsoft Wordの長さ/高さの制限は22インチであることに注意してください。 Y N
テキスト - ほとんどのテキストエディタやワードプロセッサで読み取れるプレーンテキスト (*.TXT) にドキュメントを出力します。 Y Y
カンマ区切りテキスト - ドキュメントを、Excel (*.CSV) で読み取ることができるテーブル化されたテキストファイルに出力します。 Y Y
フォーマット済みテキスト - ドキュメントを (*.TXT) ファイルに出力し、余分なスペースを挿入することによってページのレイアウトを保持しようとします。 Y N
テキストと改行 - 各行の後に改行を付けてドキュメントをテキストに出力します。 Y Y
Unicode テキスト - 2バイトのUnicode文字を使用して、ドキュメントをプレーンテキストに出力します。 Y Y
Unicodeのカンマ区切りテキスト - 2バイトのUnicode文字を使用して、ドキュメントをテーブル化されたテキストファイルに出力します。出力されたファイルはExcelで読み取ることができます。 Y Y
Unicodeのフォーマット済みテキスト - 2バイトのUnicode文字を使用して、フォーマットされたテキストにドキュメントを出力します。 Y N
改行を含むUnicodeのテキスト - 各行の後に改行を付けてドキュメントをテキストに出力し、2バイトのUnicode文字を使用します。 Y Y
XML - ドキュメントをXMLファイル形式で出力します。 Y N
eBook - Open Ebook Specification 1.0 XMLコンバーターを使用しています。 Y N