OCRとバーコードの設定

25 分読む 最終更新日 2024年11月08日

このトピックでは、OCR設定ウィンドウについて説明します。このウィンドウは、光学式文字認識(OCR)をサポートするDispatcher Phoenixノードで使用できます。これらのノードには、OCR設定ウィンドウにアクセスする [詳細設定] ボタン( 高度なOCR設定 ボタンと呼ばれることもあります)が含まれています。次の図を参照してください。

前処理

注: このページは主にTesseractとOmniPageに適用されます。ZXingバーコードエンジンの設定については 以下 で説明します。

OCRエンジン

光学式文字認識は、OCRエンジンによって駆動されます。Dispatcher Phoenixは現在、次のOCRエンジンをサポートしています。

  • Tesseract
  • OmniPage

各OCR対応ノードは、1つ以上のOCRエンジンをサポートします。ノードが1つのOCRエンジンのみをサポートする場合、そのエンジンは既定になります。既定がTesseractであるノードの場合、ノードのプロパティウィンドウの「OCRエンジン」フィールドに「Tesseract」と表示されます。ただし、Tesseractをサポートしないノードの場合、OmniPageが既定になりますが、OCRエンジンフィールドには「OmniPage」が表示されません。

ノードが複数のエンジンをサポートしており、さらに複数のエンジンのライセンスを取得している場合、ノードの OCRエンジン フィールドにドロップダウンメニューが表示され、エンジンを選択することができます。

OCR設定ウィンドウにアクセスすると、使用可能なオプションのセットはエンジンの特徴/機能に基づいてOCRエンジンによって決定されます。

注: OCR対応ノードの場合、OCRエンジンは、ノードのプロパティウィンドウの 出力 フィールドで使用できる出力オプションのリストにも影響を与える可能性があります。

OCR対応ノード

次のDispatcher Phoenix処理ノードには、OCR機能が搭載されています。

OmniPage ノード

すべてのOCR対応ノードは、OmniPage OCRエンジンをサポートしています。これらのノードは、以下の例外を除いたDispatcher Phoenix基本ライセンス用のアドインノード、または、Dispatcher Phoenixバーティカル市場パッケージの一部として購入する必要があります。

  • 高度なOCR - 高度なOCRは、DispatcherPhoenix 基本ライセンスに含まれています。TesseractとOmniPageのサポートが含まれています。高度なOCR用OmniPageは個別に購入できます。
  • PDFに変換 - PDFに変換は、Dispatcher Phoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。PDFに変換用OmniPageは個別に購入できます。

重要! OmniPage OCRエンジンを使用して英語以外の言語をスキャンする場合、スキャンされた文字列に3文字以上が含まれ、各文字が30x30から48x48ピクセルの場合に最適な結果が返されます。

すべてのバーコード対応ノードは、OmniPageバーコードエンジンをサポートします。

  • 2Dバーコード処理 - 2Dバーコード処理は、ZXingバーコードエンジンを備えたDispatcher Phoenix基本ライセンスに含まれています。OmniPageによる2Dバーコード処理はアドインノードとして利用することができます。
  • バーコード処理 - バーコード処理は、ZXingバーコード エンジンを備えたDispatcher Phoenix基本ライセンスに含まれています。OmniPageによるバーコード処理はアドインノードとして利用することができます。

Tesseractノード

次のノードはTesseract OCRエンジンをサポートしています。

  • 高度なOCR - 高度なOCRは、DispatcherPhoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。
  • PDFに変換 - PDFに変換は、Dispatcher Phoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。
  • フォーム処理 - フォーム処理ノードを購入すると、TesseractとOmniPage OCRエンジン両方のサポートが含まれています。

注: Tesseract OCRエンジンには、OCR認識処理で使用する追加の言語をインストールするオプションが含まれています。これらの追加言語はTesseract OCRエンジンに含まれており、追加のライセンスや購入は必要ありません。

複数のOCRエンジンノード

このセクションにはOmniPageとTesseractの両方のOCRエンジンをサポートする各Dispatcher Phoenixノードの表が含まれています。この表は、各OCRエンジンでサポートされているDispatcher Phoenixの機能と機能を示しています。

高度なOCRノード - OCR機能表

OCR 特徴/機能 OmniPage Tesseract
自動ゾーン Yes Yes
処理するページ範囲 すべてのページ
すべての偶数ページ
すべての奇数ページ
最初のページ
最後のページ
独自のページ範囲を定義
すべてのページ
すべての偶数ページ
すべての奇数ページ
最初のページ
最後のページ
独自のページ範囲を定義
出力 元のドキュメント+メタデータ
PDF
検索可能なPDF
イメージ置き換え付きのPDF
Microsoft Word 2000 XP (*.doc)
Microsoft Word 2003 (WordML)
Microsoft Word 2003 XP (*.xls)
Microsoft Powerpoint 97 (*.ppt)
検索可能なXPS
RTF Word 2000
テキスト
カンマ区切りテキスト
フォーマット済みテキスト
テキストと改行
Unicodeのテキスト
Unicodeのカンマ区切りテキスト
Unicodeのフォーマット済みテキスト
改行を含むUnicodeのテキスト
XML
eBook
元のドキュメント+メタデータ
検索可能なPDF
テキスト
カンマ区切りテキスト
テキストと改行
Unicodeのテキスト
Unicodeのカンマ区切りテキスト
改行を含むUnicodeのテキスト
高度な設定 Yes Yes
前処理 ノイズ除去
傾き補正
ファクス補正
ネガポジ反転
イメージ解像度の向上
回転
傾き補正
回転
認識 127 言語
9 辞書
スペルチェック
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
- フォーム
- 法律的訴答
OCR処理の最適化
イメージの最大サイズを指定
タイムアウト
113 言語
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
OCR処理の最適化
最大画像サイズを指定
タイムアウト
OCR設定の出力 出力フォーマットのレベル
入力されたフォームデータを保持する
反転したテキストを保持する
テキストと背景色を保持
空白ページの削除
認識されない文字の代替文字
なし

PDFに変換 - OCR機能表

OCR 特徴/機能 OmniPage Tesseract
ファイルタイプ PDF
編集済みPDF
PDFイメージのみ
検索可能なPDF
イメージ置き換え付きのPDF
検索可能なPDF
PDFイメージのみ
PDFバージョン 品質の最適化
サイズの最適化
PDF 1.3
PDF 1.4
PDF 1.5
PDF 1.6
PDF 1.7
PDF/A-1a
PDF/A-2a
PDF/A-3a
PDF/A-1b
PDF/A-2b
PDF/A-3b
PDF/A-2u
PDF/A-3u
なし
空白のページを削除 Yes Yes
自動画像回転 Yes Yes
セキュリティの設定 Yes Yes
詳細設定 Yes Yes
前処理 ノイズ除去
傾き補正
ファクス補正
ネガポジ反転
イメージ解像度の向上
回転
傾き補正
回転
認識 127 言語
9 辞書
スペルチェック
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
- フォーム
- 法律的訴答
OCR処理の最適化
イメージの最大サイズを指定
タイムアウト
113 言語
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
OCR処理の最適化
イメージの最大サイズを指定
タイムアウト
OCR設定出力 出力フォーマットのレベル
塗りつぶしフォームデータを保持
反転したテキストを保持
テキストと背景色を保持
空白ページの削除
認識されない文字の代替文字
空白ページの削除

フォーム処理 - OCR機能表

OCR 特徴/機能 OmniPage Tesseract
ルール構成の実行 Yes Yes
詳細設定 Yes Yes
前処理 ノイズ除去
傾き補正
ファクス補正
ネガポジ反転
イメージ解像度の向上
回転
傾き補正
回転
認識 127 言語
9 辞書
スペルチェック
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
- フォーム
- 法律的訴答
OCR処理の最適化
イメージの最大サイズを指定
タイムアウト
113 言語
レイアウトの説明:
- 自動
- 1列、表なし
- 複数列、表なし
- 1列、表あり
- スプレッドシート
OCR処理の最適化
イメージの最大サイズを指定
タイムアウト

高度なOCR設定ウィンドウの使用

高度なOCR設定ウィンドウには、OCR結果の精度とOCR処理の実行時間を調整するために使用できる設定が含まれています。

高度なOCR設定ウィンドウには、次のタブがあり、それぞれに関連する設定のセットがあります。次の設定を指定できます。

  • 前処理

  • OCR認識

  • 出力 (このタブはドキュメントを別の形式に変換するノードでのみ表示されます)

ボタン

次のボタンはOCR設定ウィンドウの各タブから使用することができます。

  • [既定値に戻す] - カスタマイズされたすべての設定を既定値にリセットするには、このボタンをクリックします。
  • [ヘルプ] - このウィンドウのオンラインヘルプにアクセスするには、このボタンをクリックします。
  • [保存] - 現在のOCR設定を保持するには、このボタンをクリックします。
  • [キャンセル] - 変更を保存せずにOCR設定ウィンドウを終了し、ノードのプロパティウィンドウに戻るには、このボタンをクリックします。

前処理タブ

このタブを使用して、OCR分析と認識を開始する前に、イメージを準備、および前処理する方法を指定するパラメーターを設定します。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCRエンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCRエンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCRエンジンで使用可能なオプションを示しています。すべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

前処理

Tesseractオプション

前処理

イメージの前処理

OCR認識を実行する前に、イメージに前処理を適用してイメージの品質を向上することができます。これらのオプションを有効、または無効にすると、出力の品質やOCR処理のパフォーマンス時間が向上する場合があります。

  • [イメージのノイズ除去] - この設定を有効にすると、準備処理中にOCR用にイメージのノイズが自動的に除去されます。OCR処理は低品質のイメージを許容しますが、最良の結果を得るにはイメージからノイズや汚れを取り除く必要があります。ノイズ除去は、スキャンされたイメージのノイズを探し、取り除きます。既定値は「有効」です。

    • [自動] - この設定を有効にすると、OCRエンジンは斑点除去のピクセル半径を自動的に選択します。

    • [半径 (ピクセル)] - この設定を有効にすると、ユーザーはOCRエンジンが斑点除去に使用するピクセル半径を設定します。

    注: このオプションは、2Dバーコード処理、高度なOCR、バーコード処理、PDFへ変換、およびフォーム処理ノードでのみ使用できます。このオプションは、Officeへ変換、仕分け、強調/取り消し線、および墨消しノードでは使用できません。

  • [イメージの傾き補正] - この設定を有効にすると、曲がってスキャンされたイメージは準備処理中に自動的に矯正されます。既定値は「有効」です。

  • [ファクス補正] - この設定を有効にすると、FAXイメージの解像度が2倍になります。既定値は「有効」です。

    注: [イメージのノイズ除去][イメージの傾き補正]、または [ファクス補正] の前処理オプションをオフにすると、OCR処理が失敗する場合があります。これらのオプションをオフにした場合、ドキュメントを適切に処理できるようにワークフローに「ノイズ除去」ノードや、「傾き補正」ノードを追加する必要があります。

  • [ネガポジ反転] - OCRを実行する前に、暗い背景に対して白いテキストを含むイメージを準備処理中に一時的に反転して、OCR結果の精度を高めることができます。オプションは次のとおりです。

    • [自動] - この設定を有効にすると、イメージ反転の必要性が検出され、前処理中に反転が実行されます。既定値は「有効」です。

    • [すべてのイメージを反転] - この設定を有効にすると、すべてのイメージが自動的に反転され、検出手順がスキップされます。

    • [ネガポジ反転を適用しない] - この設定を有効にすると、OCR処理が開始される前に入力イメージは反転されません。このオプションを有効にすると、OCR結果の精度が影響を受ける可能性があることに注意してください。

  • [イメージ解像度の向上] - 入力イメージの解像度は、OCR処理の精度を向上させるために、準備処理中に一時的に向上させることができます。オプションは次のとおりです。

    • [160 dpi以下のすべてのイメージの解像度を上げる] - この設定を有効にすると、イメージの解像度が検出され、160dpi以下の場合は2倍になります。既定値は「有効」です。

    • [イメージの解像度を倍にする] - この設定を有効にすると、イメージの解像度が自動的に2倍になり、検出手順がスキップされます。

    • [イメージの解像度を上げない] - この設定を有効にすると、元のイメージの解像度は変更されません。このオプションを有効にすると、OCR結果の精度が影響を受ける可能性があることに注意してください。

回転

OCRを実行する前に、向きが正しくないページが検出され、修正が試みられます。入力ファイルの向きの誤りをすでに正確に把握しており、この自動検出処理を回避して処理時間を短縮したい場合は、ここで特定のオプションを選択できます。

  • [自動画像回転] - このオプションを有効にすると、OCRの実行前に入力画像の向きが検出され、不適切な向きのページ画像が自動的に回転します(90度、180度、または270度)。この[有効]オプションは回転と反転の既定値です。このチェックボックスをオフにすると、処理ノードウィンドウの「自動画像回転」オプションもオフになります。

  • [イメージを右に90°回転] - この設定を有効にすると、不適切な向きのページ画像が時計回りに90度回転します。

  • [イメージを左に90°回転] - この設定を有効にすると、不適切な向きのページ画像が反時計回りに90度回転します。

  • [イメージを180°回転] - この設定を有効にすると、不適切な向きのページ画像が上下が反転されます。

  • [イメージを回転しない] - この設定を有効にすると、画像は回転しません。

認識タブ

OCRの精度と処理時間を改善するために、認識処理を支援する特定の設定を指定できます。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCR エンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCRエンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCRエンジンで使用可能なオプションを示しています。各OCRエンジンで使用可能な言語を含むすべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

認識設定

Tesseractオプション

認識設定

言語と辞書

  • [ドキュメントで使用されている言語] - このウィンドウには、現在システムにロードされているすべての言語が表示されます。OCR認識処理に含める言語の横にあるチェックボックスをオンにします。複数の言語を選択することができますが、少なくとも1つ選択する必要があります。このフィールドの既定の設定は、オペレーティングシステムの既定の言語を反映しています。

    • [言語を追加] - このオプションは、Tesseract OCRエンジンにのみ表示されます。既定のTesseract言語は、ドキュメントの「言語」ウィンドウに表示されます。Tesseract OCR認識処理にその他の言語を含めるには、このボタンをクリックします。「言語を追加」ウィンドウが表示されます。含める言語の横にあるチェックボックスをオンにして、 [インストール] ボタンをクリックします。一度に最大5つの言語をインストールすることができます。インストールが完了すると、選択した言語がドキュメントの「言語」ウィンドウに表示されます。
  • [専門用語辞書] - このパネルは、OmniPage OCRエンジンの場合にのみ表示されます。利用可能な専門用語辞書が一覧表示されます。複数の辞書を選択することができます。OmniPage OCR認識処理中に使用したい辞書の横にあるチェックボックスをオンにします。次の表に、使用可能な辞書の種類とそれぞれサポートされている言語を示します。

    辞書 Dutch(オランダ語) English(英語) French(フランス語) German(ドイツ語)
    Financial N Y N N
    Legal Y Y Y Y
    Medical Y Y Y Y
  • [スペルチェックの有効化] - このオプションは、OmniPage OCRエンジンでのみ使用できます。OCR認識中にスペルチェックを有効にするには、このボックスをオンにします。

    この設定を有効にすると、OmniPage OCRエンジンのスペルチェッカーが認識できない単語を推定します(通常、低解像度のスキャンで)。スペルチェックの見積もりは単語の長さを変更しないことに注意してください。たとえば、「optica」は「optical」に変更されません。この設定を無効にすると、専門用語辞書リストが非アクティブになり、辞書を選択できなくなります。

OmniPage OCR言語

次の表に、OmniPage OCR エンジンでサポートされている言語を示します。

言語 言語 言語 言語 言語
Afrikaans Albanian *Arabic Aymara Basque
Bemba Blackfoot Breton Bugotu Bulgarian (Cyrillic)
Byelorussian (Cyrillic) Catalan Chamorro Chechen (Cyrillic) Chuana (Tswana)
Corsican Croatian Crow Czech Danish
Dutch English Eskimo Esperanto Estonian
Faroese Fijian Finnish French Frisian
Friulian Gaelic Irish Gaelic Scottish Galician Ganda or Luganda
German Greek Guarani Hani Hawaiian
*Hebrew Hungarian Icelandic Ido Indonesian
Interlingua Italian *日本語 Kabardian (Cyrillic) Kashubian
Kawa Kikuyu Kongo *Korean Kpelle
Kurdish Latin Latvian Lithuanian Luba
Lule Sami Luxembourgian Macedonian (Cyrillic) Malagasy Malay
Malinke Maltese Maori Mayan Miao
Minangkabau Mohawk Moldavian (Cyrillic) Nahuatl Northern Sami
Norwegian Nyanja Occidental Ojibway Papiamento
Pidgin Polish Portuguese Portuguese (Brazilian) Provencal
Quechua Rhaetic Romanian Romany Ruanda
Rundi Russian (Cyrillic) Sami Samoan Sardinian
Serbian (Cyrillic) Serbian (Latin) Shona *Simplified Chinese Sioux
Slovak Slovenian Somali Sotho Southern Sami
Spanish Sundanese Swahili Swazi Swedish
Tagalog Tahitian *Thai Tinpo Tongan
*Traditional Chinese Tun Turkish Ukrainian (Cyrillic) Vietnamese
Visayan Welsh Wend Wolof Xhosa
Zapotec Zulu

* 言語をアクティブ化する前に、Asian FontPack(アジアンフォントパック)アドインを購入してインストールする必要があります。

Tesseract OCR言語

次の表に、Tesseract OCRエンジンでサポートされている言語を示します。

言語 言語 言語 言語 言語
Afrikaans Albanian Amharic Ancient Greek Arabic
Armenian Assamese Azerbaijani Azerbaijani - Cyrilic Basque
Belarusian Bengali Bosnian Breton Bulgarian
Burmese Catalan Cebuano Cherokee Corsican
Croatian Czech Danish Dutch Dzongkha
English Esperanto Estonian Faroese Filipino
Finnish French Gaelic Irish Galician Georgian
German Gujarati Haitian Hebrew Hindi
Hungarian Icelandic Indonesian Inuktitut Italian
日本語 Javanese Kannada Kazakh Khmer
Korean Kurmanji Kyrgyz Lao Latvian
Lithuanian Luxembourgish Macedonian Malay Malayalam
Maltese Maori Marathi Middle English Middle French
Modern Greek Mongolian Nepali Norwegian Occitan
Oriya Pashto Persian Polish Portuguese
Punjabi Quechua Romanian Russian Sanskrit
Scottish Gaelic Serbian Serbian - Latin Simplified Chinese Sindhi
Sinhala Slovak Slovenian Spanish Sundanese
Swahili Swedish Syriac Tajik Tamil
Tatar Telugu Thai Tibetan Tigrinya
Tongan Traditional Chinese Turkish Uighur Ukrainian
Urdu Uzbek Uzbek - Cyrilic Vietnamese Welsh
Western Frisian Yiddish Yoruba

認識オプション

OCR処理中のテキストの認識を向上させるために、レイアウトの処理方法を反映して、元のドキュメントのレイアウトの説明を提供することができます。

[レイアウトの説明]

  • [自動] - レイアウトを自動検出するには(たとえば、テキストが列にあるかどうかなど)このオプションを選択します。このオプションによって、処理時間を最速にすることができます。このオプションは次のような場合に役立ちます。

    • ドキュメントをすばやく処理したい。

    • ドキュメントにレイアウトが異なる/不明なページが含まれている。

    • ドキュメントに複数の列と表を持つページがある。

    • ドキュメントに複数の表を含むページがある。

    注: フォームが自動的に検出されることはありません。OCRフォームを検出するには、レイアウトとして フォーム を選択します。

  • [1列、表なし] - ページに次のいずれかが含まれている場合、この設定を有効にします。

    • 1つの列で、表はなし(例:ビジネスレターや本のページ)。
    • 1つの列に編成する必要がある列に配置された単語または数字。
  • [複数列、表なし] - 元のレイアウトと同様に、ページの列にテキストが含まれていて、別々の列に保持する必要がある場合は、この設定を有効にします。表のようなデータが検出された場合、グリッドテーブルではなく列に配置されます。

  • [1列、表あり] - ページに1列のテキストと1つの表しかない場合は、この設定を有効にします。

  • [スプレッドシート] - ページにスプレッドシートプログラムにエクスポートする表が含まれている場合、または表として扱われる場合は、この設定を有効にします。

  • [フォーム] - ページにフォームが含まれている場合は、この設定を有効にします。フォームオブジェクトと要素が検出されます。

  • [法律的訴答] - ページに法的弁論番号が含まれている場合は、この設定を有効にします。有効にすると、次のオプションが使用可能になります。

    • [法律的訴答番号の削除] - このオプションを選択して、受信ドキュメントからすべての法律的訴答番号を削除します。

    • [法律的訴答番号を保持] - このオプションを選択すると、受信ドキュメントにすべての法律的訴答番号が保持されます。この場合、番号は表示、編集、および検索可能になります。

  • [OCR処理の最適化方法]:

    • [高速認識] - この設定を有効にすると、認識処理の速度が最適化されます。この設定では精度が最も低くなりますが、受信するドキュメントの品質が高く、許容できる正確な結果が得られることがわかっている場合に役立ちます。この設定を有効にすると、色付きのテキスト/背景や反転したテキストなどの高度な書式設定が保持されない場合があります。

    • [中間レベルの精度/速度での認識] - この設定を有効にすると、迅速な処理と正確な結果のバランスが取れます。

    • [最大限の精度の認識] - この設定を有効にすると、認識処理が最適化され、正確になります。

  • [使用可能なイメージの最大サイズの指定] - 入力イメージの [幅][高さ] の制限(ピクセル単位)を設定します。これらの指定された値を超えるすべての入力イメージは処理されません。既定値は8400x8400ピクセルです。

  • [タイムアウト] - OCR認識処理がタイムアウトするまでの経過時間を秒単位で指定します。

出力タブ

OCR処理の出力の設定を指定することもできます。出力タブは、ドキュメントを別の形式に変換するノードに対してのみ表示されることに注意してください。さらに、高度なOCRノードからこのウィンドウにアクセスし、出力オプションとして「元のドキュメント+メタデータ」を指定した場合、このタブは表示されません。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCR エンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCR エンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCR エンジンで使用可能なオプションを示しています。すべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

出力

Tesseractオプション

出力

出力

  • [出力フォーマットのレベル]

    • [自動] - この設定を有効にすると、OCRエンジンは指定または検出されたレイアウトに基づいて、使用する出力形式を自動的に決定します。

    • [プレーンテキスト] - この設定を有効にすると、OCR処理は左揃えのプレーンなテキストを1つの列に出力します。

    • [フォーマット済みテキスト] - この設定を有効にすると、OCR処理はグラフィックスと表とともに、フォントと段落のスタイルを含むテキストを出力します。

    注: Excelファイルとして保存する場合、ドキュメント内で検出された表やスプレッドシートはそれぞれ別のワークシートに保存されます。

    • [Trueページ] - この設定を有効にすると、列を含むページの元のレイアウトが、テキスト、イメージ、表のボックスとフレームを使用して出力時に保持されます。

    • [ページフロー] - この設定を有効にすると、段落を含むページの元のレイアウトが(テキストボックスやフレームの代わりに)可能な限り段落とインデント設定を使用して出力時に保持されます。テキストは段から段へ流し込まれます。

    • [スプレッドシート] - この設定を有効にすると、表計算アプリケーションでの使用に適した表の形式で結果が出力されます。各ページは別々のワークシートに配置されます。

  • [塗りつぶしフォームデータを保持] - この設定を有効にすると、塗りつぶされたフォームデータは変換処理中も保持されます。 このボックスは既定ではチェックされていません。

  • [テキストと背景色を保持] - この設定を有効にすると、色付きのテキストと背景が検出されて出力に使用されます。ドキュメントにカラー写真は必要であるが、色付きのテキスト/背景が必要ない場合はこの設定を無効にしてください。 このボックスは既定でチェックされています。

  • [反転したテキストを保持] - このオプションを有効にすると、色反転テキスト(黒または濃い色の背景に白または淡い色の文字)が出力で保持されます。色反転テキストを通常のテキストに変換するには、この設定を無効にします。 OCR処理の最適化方法 オプションを設定した場合、このオプションは使用できません。

  • [空白のページを削除] - この設定を有効にすると、空白のページは出力ファイルに含まれません。 このボックスは既定ではチェックされていません。

    • [コンテンツ感度] - 空白ページのマークや傷に対する感度のしきい値を指定します。
      • クリーン - スライダーをクリーン(100)の方向に動かして、感度のしきい値を上げます。
      • ノイズ - スライダーをノイズ(0)の方向に動かして、感度のしきい値を下げます。

Dispatcher Phoenixでサポートされている出力フォーマット/タイプ

出力フォーマット/タイプ プレーンテキスト フォーマット済テキスト スプレッドシート Trueページ ページフロー
eBook YES YES NO NO NO
Microsoft Excel YES YES YES NO NO
Microsoft PowerPoint / Microsoft Publisher YES YES NO NO NO
Microsoft Word YES YES NO YES YES
PDF NO NO NO YES NO
編集済みPDF YES YES NO YES NO
テキスト上の画像またはイメージ置き換え付きのPDF NO NO NO YES NO
RTF Word 2000 YES YES NO YES YES
WordPad YES YES NO NO NO
WordPerfect 9, 10 YES YES NO YES YES
XML Paper Specification (XPS) NO NO NO YES NO

注: すべての出力形式の既定のオプションは「自動」です。

フォントと文字

[認識されない文字の代替文字] - 既定では、OCRエンジンによって検出された認識できない文字は、出力で「赤いチルダ文字(〜)」で表されます。たとえば、OCR処理が「reject」の「j」を認識できなかった場合、出力は「re~ect」のようになります。このフィールドで、使用する独自の文字を指定することができます。

バーコードエンジン

光学式文字認識はOCRエンジンによって駆動されます。Dispatcher Phoenixは現在、次のOCRエンジンをサポートしています。

ZXingノード

次のノードはZXingバーコードエンジンをサポートします。

ZXingの高度な設定

ZXing 高度な設定

ZXingバーコードエンジンの詳細オプションは次の通りです。

  • [バーコードスキャン処理を最適化]: - この設定は、エンジンがバーコードをスキャンする方法を制御します。
    • [精度] - この設定を有効にすると、認識処理を最適化して精度を高めます。
    • [パフォーマンス] - この設定を有効にすると、認識処理を速度に合わせて最適化することができます。この設定では結果の精度が低下する可能性がありますが、受信したドキュメントの品質が良好で、許容範囲内で正確な結果が得られることがわかっている場合に有効です。
  • [ゾーンを回転してバーコードを検出] - バーコードをスキャンする前に、アプリケーションはバーコード検出用のゾーンを検出し、正しい方向に向けようとします。受信ファイルの正確な位置ずれがすでにわかっていて、この自動検出処理を回避して処理時間を短縮したい場合は、ここで特定のオプションを選択することができます。
    • [スキャン中にゾーンを90度、180度、および270度回転] - この設定を有効にすると、ゾーンの方向が検出され、OCRが実行される前に不適切な向きのページ画像が自動的に回されます(90度、180度、または270度)。このオプションは回転と反転で既定で有効です。
    • [イメージを回転しない] - この設定を有効にすると、画像は回転されません。
  • [ゾーンを反転してバーコードを検出] - バーコードをスキャンする前に、準備処理中に暗い背景に対して白いテキストの画像を 一時的に 反転させて、OCR結果の精度を向上させることができます。
    • [スキャン中にゾーンを反転] - この設定を有効にすると、色反転の必要性が検出され、前処理中にゾーンで反転が実行されます。このオプションは既定で有効です。
    • [ゾーンを反転しない] - この設定を有効にすると、ゾーンはOCR処理が開始される前に反転されません。このオプションを有効にすると、OCR結果の精度が影響を受ける場合があります。
  • [ゾーンをダウンスケールして処理速度を向上] - この設定では、エンジンが大きなファイルのバーコードをスキャンする方法を制御します。
    • [バーコード検出を試行する前にゾーンをダウンスケール] - この設定を有効にすると、エンジンはバーコードを検出するために 一時的に ゾーンをダウンサイズしようとします。これにより、パフォーマンスが向上する可能性があります。
    • [ゾーンをダウンスケールしない] - この設定を有効にすると、ゾーンはスキャン前にダウンスケールされません。