OCRとバーコードの設定

25 分読む最終更新日 2024年11月08日

このトピックでは、OCR設定ウィンドウについて説明します。このウィンドウは、光学式文字認識（OCR）をサポートするDispatcher Phoenixノードで使用できます。これらのノードには、OCR設定ウィンドウにアクセスする [詳細設定] ボタン（ 高度なOCR設定 ボタンと呼ばれることもあります）が含まれています。次の図を参照してください。

前処理

注: このページは主にTesseractとOmniPageに適用されます。ZXingバーコードエンジンの設定については以下で説明します。

OCRエンジン

光学式文字認識は、OCRエンジンによって駆動されます。Dispatcher Phoenixは現在、次のOCRエンジンをサポートしています。

Tesseract
OmniPage

各OCR対応ノードは、1つ以上のOCRエンジンをサポートします。ノードが1つのOCRエンジンのみをサポートする場合、そのエンジンは既定になります。既定がTesseractであるノードの場合、ノードのプロパティウィンドウの「OCRエンジン」フィールドに「Tesseract」と表示されます。ただし、Tesseractをサポートしないノードの場合、OmniPageが既定になりますが、OCRエンジンフィールドには「OmniPage」が表示されません。

ノードが複数のエンジンをサポートしており、さらに複数のエンジンのライセンスを取得している場合、ノードの OCRエンジン フィールドにドロップダウンメニューが表示され、エンジンを選択することができます。

OCR設定ウィンドウにアクセスすると、使用可能なオプションのセットはエンジンの特徴/機能に基づいてOCRエンジンによって決定されます。

注: OCR対応ノードの場合、OCRエンジンは、ノードのプロパティウィンドウの出力フィールドで使用できる出力オプションのリストにも影響を与える可能性があります。

OCR対応ノード

次のDispatcher Phoenix処理ノードには、OCR機能が搭載されています。

OmniPage ノード

すべてのOCR対応ノードは、OmniPage OCRエンジンをサポートしています。これらのノードは、以下の例外を除いたDispatcher Phoenix基本ライセンス用のアドインノード、または、Dispatcher Phoenixバーティカル市場パッケージの一部として購入する必要があります。

高度なOCR - 高度なOCRは、DispatcherPhoenix 基本ライセンスに含まれています。TesseractとOmniPageのサポートが含まれています。高度なOCR用OmniPageは個別に購入できます。
PDFに変換 - PDFに変換は、Dispatcher Phoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。PDFに変換用OmniPageは個別に購入できます。

重要! OmniPage OCRエンジンを使用して英語以外の言語をスキャンする場合、スキャンされた文字列に3文字以上が含まれ、各文字が30x30から48x48ピクセルの場合に最適な結果が返されます。

すべてのバーコード対応ノードは、OmniPageバーコードエンジンをサポートします。

2Dバーコード処理 - 2Dバーコード処理は、ZXingバーコードエンジンを備えたDispatcher Phoenix基本ライセンスに含まれています。OmniPageによる2Dバーコード処理はアドインノードとして利用することができます。
バーコード処理 - バーコード処理は、ZXingバーコードエンジンを備えたDispatcher Phoenix基本ライセンスに含まれています。OmniPageによるバーコード処理はアドインノードとして利用することができます。

Tesseractノード

次のノードはTesseract OCRエンジンをサポートしています。

高度なOCR - 高度なOCRは、DispatcherPhoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。
PDFに変換 - PDFに変換は、Dispatcher Phoenix基本ライセンスに含まれています。Tesseractのサポートが含まれています。
フォーム処理 - フォーム処理ノードを購入すると、TesseractとOmniPage OCRエンジン両方のサポートが含まれています。

注: Tesseract OCRエンジンには、OCR認識処理で使用する追加の言語をインストールするオプションが含まれています。これらの追加言語はTesseract OCRエンジンに含まれており、追加のライセンスや購入は必要ありません。

複数のOCRエンジンノード

このセクションにはOmniPageとTesseractの両方のOCRエンジンをサポートする各Dispatcher Phoenixノードの表が含まれています。この表は、各OCRエンジンでサポートされているDispatcher Phoenixの機能と機能を示しています。

高度なOCRノード - OCR機能表

OCR 特徴/機能	OmniPage	Tesseract
自動ゾーン	Yes	Yes
処理するページ範囲	すべてのページすべての偶数ページすべての奇数ページ最初のページ最後のページ独自のページ範囲を定義	すべてのページすべての偶数ページすべての奇数ページ最初のページ最後のページ独自のページ範囲を定義
出力	元のドキュメント+メタデータ PDF 検索可能なPDF イメージ置き換え付きのPDF Microsoft Word 2000 XP (.doc) Microsoft Word 2003 (WordML) Microsoft Word 2003 XP (.xls) Microsoft Powerpoint 97 (*.ppt) 検索可能なXPS RTF Word 2000 テキストカンマ区切りテキストフォーマット済みテキストテキストと改行 Unicodeのテキスト Unicodeのカンマ区切りテキスト Unicodeのフォーマット済みテキスト改行を含むUnicodeのテキスト XML eBook	元のドキュメント+メタデータ検索可能なPDF テキストカンマ区切りテキストテキストと改行 Unicodeのテキスト Unicodeのカンマ区切りテキスト改行を含むUnicodeのテキスト
高度な設定	Yes	Yes
前処理	ノイズ除去傾き補正ファクス補正ネガポジ反転イメージ解像度の向上回転	傾き補正回転
認識	127 言語 9 辞書スペルチェックレイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート - フォーム - 法律的訴答 OCR処理の最適化イメージの最大サイズを指定タイムアウト	113 言語レイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート OCR処理の最適化最大画像サイズを指定タイムアウト
OCR設定の出力	出力フォーマットのレベル入力されたフォームデータを保持する反転したテキストを保持するテキストと背景色を保持空白ページの削除認識されない文字の代替文字	なし

PDFに変換 - OCR機能表

OCR 特徴/機能	OmniPage	Tesseract
ファイルタイプ	PDF 編集済みPDF PDFイメージのみ検索可能なPDF イメージ置き換え付きのPDF	検索可能なPDF PDFイメージのみ
PDFバージョン	品質の最適化サイズの最適化 PDF 1.3 PDF 1.4 PDF 1.5 PDF 1.6 PDF 1.7 PDF/A-1a PDF/A-2a PDF/A-3a PDF/A-1b PDF/A-2b PDF/A-3b PDF/A-2u PDF/A-3u	なし
空白のページを削除	Yes	Yes
自動画像回転	Yes	Yes
セキュリティの設定	Yes	Yes
詳細設定	Yes	Yes
前処理	ノイズ除去傾き補正ファクス補正ネガポジ反転イメージ解像度の向上回転	傾き補正回転
認識	127 言語 9 辞書スペルチェックレイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート - フォーム - 法律的訴答 OCR処理の最適化イメージの最大サイズを指定タイムアウト	113 言語レイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート OCR処理の最適化イメージの最大サイズを指定タイムアウト
OCR設定出力	出力フォーマットのレベル塗りつぶしフォームデータを保持反転したテキストを保持テキストと背景色を保持空白ページの削除認識されない文字の代替文字	空白ページの削除

フォーム処理 - OCR機能表

OCR 特徴/機能	OmniPage	Tesseract
ルール構成の実行	Yes	Yes
詳細設定	Yes	Yes
前処理	ノイズ除去傾き補正ファクス補正ネガポジ反転イメージ解像度の向上回転	傾き補正回転
認識	127 言語 9 辞書スペルチェックレイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート - フォーム - 法律的訴答 OCR処理の最適化イメージの最大サイズを指定タイムアウト	113 言語レイアウトの説明: - 自動 - 1列、表なし - 複数列、表なし - 1列、表あり - スプレッドシート OCR処理の最適化イメージの最大サイズを指定タイムアウト

高度なOCR設定ウィンドウの使用

高度なOCR設定ウィンドウには、OCR結果の精度とOCR処理の実行時間を調整するために使用できる設定が含まれています。

高度なOCR設定ウィンドウには、次のタブがあり、それぞれに関連する設定のセットがあります。次の設定を指定できます。

前処理
OCR認識
出力 (このタブはドキュメントを別の形式に変換するノードでのみ表示されます)

ボタン

次のボタンはOCR設定ウィンドウの各タブから使用することができます。

[既定値に戻す] - カスタマイズされたすべての設定を既定値にリセットするには、このボタンをクリックします。
[ヘルプ] - このウィンドウのオンラインヘルプにアクセスするには、このボタンをクリックします。
[保存] - 現在のOCR設定を保持するには、このボタンをクリックします。
[キャンセル] - 変更を保存せずにOCR設定ウィンドウを終了し、ノードのプロパティウィンドウに戻るには、このボタンをクリックします。

前処理タブ

このタブを使用して、OCR分析と認識を開始する前に、イメージを準備、および前処理する方法を指定するパラメーターを設定します。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCRエンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCRエンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCRエンジンで使用可能なオプションを示しています。すべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

前処理

Tesseractオプション

前処理

イメージの前処理

OCR認識を実行する前に、イメージに前処理を適用してイメージの品質を向上することができます。これらのオプションを有効、または無効にすると、出力の品質やOCR処理のパフォーマンス時間が向上する場合があります。

[イメージのノイズ除去] - この設定を有効にすると、準備処理中にOCR用にイメージのノイズが自動的に除去されます。OCR処理は低品質のイメージを許容しますが、最良の結果を得るにはイメージからノイズや汚れを取り除く必要があります。ノイズ除去は、スキャンされたイメージのノイズを探し、取り除きます。既定値は「有効」です。
- [自動] - この設定を有効にすると、OCRエンジンは斑点除去のピクセル半径を自動的に選択します。
- [半径 (ピクセル)] - この設定を有効にすると、ユーザーはOCRエンジンが斑点除去に使用するピクセル半径を設定します。
注: このオプションは、2Dバーコード処理、高度なOCR、バーコード処理、PDFへ変換、およびフォーム処理ノードでのみ使用できます。このオプションは、Officeへ変換、仕分け、強調/取り消し線、および墨消しノードでは使用できません。
[イメージの傾き補正] - この設定を有効にすると、曲がってスキャンされたイメージは準備処理中に自動的に矯正されます。既定値は「有効」です。
[ファクス補正] - この設定を有効にすると、FAXイメージの解像度が2倍になります。既定値は「有効」です。

注: [イメージのノイズ除去] 、 [イメージの傾き補正]、または [ファクス補正] の前処理オプションをオフにすると、OCR処理が失敗する場合があります。これらのオプションをオフにした場合、ドキュメントを適切に処理できるようにワークフローに「ノイズ除去」ノードや、「傾き補正」ノードを追加する必要があります。
[ネガポジ反転] - OCRを実行する前に、暗い背景に対して白いテキストを含むイメージを準備処理中に一時的に反転して、OCR結果の精度を高めることができます。オプションは次のとおりです。
- [自動] - この設定を有効にすると、イメージ反転の必要性が検出され、前処理中に反転が実行されます。既定値は「有効」です。
- [すべてのイメージを反転] - この設定を有効にすると、すべてのイメージが自動的に反転され、検出手順がスキップされます。
- [ネガポジ反転を適用しない] - この設定を有効にすると、OCR処理が開始される前に入力イメージは反転されません。このオプションを有効にすると、OCR結果の精度が影響を受ける可能性があることに注意してください。
[イメージ解像度の向上] - 入力イメージの解像度は、OCR処理の精度を向上させるために、準備処理中に一時的に向上させることができます。オプションは次のとおりです。
- [160 dpi以下のすべてのイメージの解像度を上げる] - この設定を有効にすると、イメージの解像度が検出され、160dpi以下の場合は2倍になります。既定値は「有効」です。
- [イメージの解像度を倍にする] - この設定を有効にすると、イメージの解像度が自動的に2倍になり、検出手順がスキップされます。
- [イメージの解像度を上げない] - この設定を有効にすると、元のイメージの解像度は変更されません。このオプションを有効にすると、OCR結果の精度が影響を受ける可能性があることに注意してください。

回転

OCRを実行する前に、向きが正しくないページが検出され、修正が試みられます。入力ファイルの向きの誤りをすでに正確に把握しており、この自動検出処理を回避して処理時間を短縮したい場合は、ここで特定のオプションを選択できます。

[自動画像回転] - このオプションを有効にすると、OCRの実行前に入力画像の向きが検出され、不適切な向きのページ画像が自動的に回転します（90度、180度、または270度）。この[有効]オプションは回転と反転の既定値です。このチェックボックスをオフにすると、処理ノードウィンドウの「自動画像回転」オプションもオフになります。
[イメージを右に90°回転] - この設定を有効にすると、不適切な向きのページ画像が時計回りに90度回転します。
[イメージを左に90°回転] - この設定を有効にすると、不適切な向きのページ画像が反時計回りに90度回転します。
[イメージを180°回転] - この設定を有効にすると、不適切な向きのページ画像が上下が反転されます。
[イメージを回転しない] - この設定を有効にすると、画像は回転しません。

認識タブ

OCRの精度と処理時間を改善するために、認識処理を支援する特定の設定を指定できます。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCR エンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCRエンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCRエンジンで使用可能なオプションを示しています。各OCRエンジンで使用可能な言語を含むすべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

認識設定

Tesseractオプション

認識設定

言語と辞書

[ドキュメントで使用されている言語] - このウィンドウには、現在システムにロードされているすべての言語が表示されます。OCR認識処理に含める言語の横にあるチェックボックスをオンにします。複数の言語を選択することができますが、少なくとも1つ選択する必要があります。このフィールドの既定の設定は、オペレーティングシステムの既定の言語を反映しています。
- [言語を追加] - このオプションは、Tesseract OCRエンジンにのみ表示されます。既定のTesseract言語は、ドキュメントの「言語」ウィンドウに表示されます。Tesseract OCR認識処理にその他の言語を含めるには、このボタンをクリックします。「言語を追加」ウィンドウが表示されます。含める言語の横にあるチェックボックスをオンにして、 [インストール] ボタンをクリックします。一度に最大5つの言語をインストールすることができます。インストールが完了すると、選択した言語がドキュメントの「言語」ウィンドウに表示されます。
[専門用語辞書] - このパネルは、OmniPage OCRエンジンの場合にのみ表示されます。利用可能な専門用語辞書が一覧表示されます。複数の辞書を選択することができます。OmniPage OCR認識処理中に使用したい辞書の横にあるチェックボックスをオンにします。次の表に、使用可能な辞書の種類とそれぞれサポートされている言語を示します。

辞書 Dutch(オランダ語) English(英語) French(フランス語) German(ドイツ語)

Financial N Y N N

Legal Y Y Y Y

Medical Y Y Y Y
[スペルチェックの有効化] - このオプションは、OmniPage OCRエンジンでのみ使用できます。OCR認識中にスペルチェックを有効にするには、このボックスをオンにします。

この設定を有効にすると、OmniPage OCRエンジンのスペルチェッカーが認識できない単語を推定します（通常、低解像度のスキャンで）。スペルチェックの見積もりは単語の長さを変更しないことに注意してください。たとえば、「optica」は「optical」に変更されません。この設定を無効にすると、専門用語辞書リストが非アクティブになり、辞書を選択できなくなります。

辞書	Dutch(オランダ語)	English(英語)	French(フランス語)	German(ドイツ語)
Financial	N	Y	N	N
Legal	Y	Y	Y	Y
Medical	Y	Y	Y	Y

OmniPage OCR言語

次の表に、OmniPage OCR エンジンでサポートされている言語を示します。

言語	言語	言語	言語	言語
Afrikaans	Albanian	*Arabic	Aymara	Basque
Bemba	Blackfoot	Breton	Bugotu	Bulgarian (Cyrillic)
Byelorussian (Cyrillic)	Catalan	Chamorro	Chechen (Cyrillic)	Chuana (Tswana)
Corsican	Croatian	Crow	Czech	Danish
Dutch	English	Eskimo	Esperanto	Estonian
Faroese	Fijian	Finnish	French	Frisian
Friulian	Gaelic Irish	Gaelic Scottish	Galician	Ganda or Luganda
German	Greek	Guarani	Hani	Hawaiian
*Hebrew	Hungarian	Icelandic	Ido	Indonesian
Interlingua	Italian	*日本語	Kabardian (Cyrillic)	Kashubian
Kawa	Kikuyu	Kongo	*Korean	Kpelle
Kurdish	Latin	Latvian	Lithuanian	Luba
Lule Sami	Luxembourgian	Macedonian (Cyrillic)	Malagasy	Malay
Malinke	Maltese	Maori	Mayan	Miao
Minangkabau	Mohawk	Moldavian (Cyrillic)	Nahuatl	Northern Sami
Norwegian	Nyanja	Occidental	Ojibway	Papiamento
Pidgin	Polish	Portuguese	Portuguese (Brazilian)	Provencal
Quechua	Rhaetic	Romanian	Romany	Ruanda
Rundi	Russian (Cyrillic)	Sami	Samoan	Sardinian
Serbian (Cyrillic)	Serbian (Latin)	Shona	*Simplified Chinese	Sioux
Slovak	Slovenian	Somali	Sotho	Southern Sami
Spanish	Sundanese	Swahili	Swazi	Swedish
Tagalog	Tahitian	*Thai	Tinpo	Tongan
*Traditional Chinese	Tun	Turkish	Ukrainian (Cyrillic)	Vietnamese
Visayan	Welsh	Wend	Wolof	Xhosa
Zapotec	Zulu

* 言語をアクティブ化する前に、Asian FontPack(アジアンフォントパック)アドインを購入してインストールする必要があります。

Tesseract OCR言語

次の表に、Tesseract OCRエンジンでサポートされている言語を示します。

言語	言語	言語	言語	言語
Afrikaans	Albanian	Amharic	Ancient Greek	Arabic
Armenian	Assamese	Azerbaijani	Azerbaijani - Cyrilic	Basque
Belarusian	Bengali	Bosnian	Breton	Bulgarian
Burmese	Catalan	Cebuano	Cherokee	Corsican
Croatian	Czech	Danish	Dutch	Dzongkha
English	Esperanto	Estonian	Faroese	Filipino
Finnish	French	Gaelic Irish	Galician	Georgian
German	Gujarati	Haitian	Hebrew	Hindi
Hungarian	Icelandic	Indonesian	Inuktitut	Italian
日本語	Javanese	Kannada	Kazakh	Khmer
Korean	Kurmanji	Kyrgyz	Lao	Latvian
Lithuanian	Luxembourgish	Macedonian	Malay	Malayalam
Maltese	Maori	Marathi	Middle English	Middle French
Modern Greek	Mongolian	Nepali	Norwegian	Occitan
Oriya	Pashto	Persian	Polish	Portuguese
Punjabi	Quechua	Romanian	Russian	Sanskrit
Scottish Gaelic	Serbian	Serbian - Latin	Simplified Chinese	Sindhi
Sinhala	Slovak	Slovenian	Spanish	Sundanese
Swahili	Swedish	Syriac	Tajik	Tamil
Tatar	Telugu	Thai	Tibetan	Tigrinya
Tongan	Traditional Chinese	Turkish	Uighur	Ukrainian
Urdu	Uzbek	Uzbek - Cyrilic	Vietnamese	Welsh
Western Frisian	Yiddish	Yoruba

認識オプション

OCR処理中のテキストの認識を向上させるために、レイアウトの処理方法を反映して、元のドキュメントのレイアウトの説明を提供することができます。

[レイアウトの説明]

[自動] - レイアウトを自動検出するには（たとえば、テキストが列にあるかどうかなど）このオプションを選択します。このオプションによって、処理時間を最速にすることができます。このオプションは次のような場合に役立ちます。
- ドキュメントをすばやく処理したい。
- ドキュメントにレイアウトが異なる/不明なページが含まれている。
- ドキュメントに複数の列と表を持つページがある。
- ドキュメントに複数の表を含むページがある。
注: フォームが自動的に検出されることはありません。OCRフォームを検出するには、レイアウトとして フォーム を選択します。
[1列、表なし] - ページに次のいずれかが含まれている場合、この設定を有効にします。
- 1つの列で、表はなし（例:ビジネスレターや本のページ）。
- 1つの列に編成する必要がある列に配置された単語または数字。
[複数列、表なし] - 元のレイアウトと同様に、ページの列にテキストが含まれていて、別々の列に保持する必要がある場合は、この設定を有効にします。表のようなデータが検出された場合、グリッドテーブルではなく列に配置されます。
[1列、表あり] - ページに1列のテキストと1つの表しかない場合は、この設定を有効にします。
[スプレッドシート] - ページにスプレッドシートプログラムにエクスポートする表が含まれている場合、または表として扱われる場合は、この設定を有効にします。
[フォーム] - ページにフォームが含まれている場合は、この設定を有効にします。フォームオブジェクトと要素が検出されます。
[法律的訴答] - ページに法的弁論番号が含まれている場合は、この設定を有効にします。有効にすると、次のオプションが使用可能になります。
- [法律的訴答番号の削除] - このオプションを選択して、受信ドキュメントからすべての法律的訴答番号を削除します。
- [法律的訴答番号を保持] - このオプションを選択すると、受信ドキュメントにすべての法律的訴答番号が保持されます。この場合、番号は表示、編集、および検索可能になります。
[OCR処理の最適化方法]:
- [高速認識] - この設定を有効にすると、認識処理の速度が最適化されます。この設定では精度が最も低くなりますが、受信するドキュメントの品質が高く、許容できる正確な結果が得られることがわかっている場合に役立ちます。この設定を有効にすると、色付きのテキスト/背景や反転したテキストなどの高度な書式設定が保持されない場合があります。
- [中間レベルの精度/速度での認識] - この設定を有効にすると、迅速な処理と正確な結果のバランスが取れます。
- [最大限の精度の認識] - この設定を有効にすると、認識処理が最適化され、正確になります。
[使用可能なイメージの最大サイズの指定] - 入力イメージの [幅] と [高さ] の制限（ピクセル単位）を設定します。これらの指定された値を超えるすべての入力イメージは処理されません。既定値は8400x8400ピクセルです。
[タイムアウト] - OCR認識処理がタイムアウトするまでの経過時間を秒単位で指定します。

出力タブ

OCR処理の出力の設定を指定することもできます。出力タブは、ドキュメントを別の形式に変換するノードに対してのみ表示されることに注意してください。さらに、高度なOCRノードからこのウィンドウにアクセスし、出力オプションとして「元のドキュメント+メタデータ」を指定した場合、このタブは表示されません。

注: このタブで使用できるオプションのセットは、エンジンの特徴/機能に基づいて、 OCR エンジン によって決定されます。オプションがタブに表示されない場合、そのオプションはOCR エンジンでサポートされていません。以下の図は、OmniPageおよびTesseract OCR エンジンで使用可能なオプションを示しています。すべてのオプションは、図の下のセクションで説明されています。

OmniPageオプション

Tesseractオプション

出力

[出力フォーマットのレベル]
- [自動] - この設定を有効にすると、OCRエンジンは指定または検出されたレイアウトに基づいて、使用する出力形式を自動的に決定します。
- [プレーンテキスト] - この設定を有効にすると、OCR処理は左揃えのプレーンなテキストを1つの列に出力します。
- [フォーマット済みテキスト] - この設定を有効にすると、OCR処理はグラフィックスと表とともに、フォントと段落のスタイルを含むテキストを出力します。
注: Excelファイルとして保存する場合、ドキュメント内で検出された表やスプレッドシートはそれぞれ別のワークシートに保存されます。
- [Trueページ] - この設定を有効にすると、列を含むページの元のレイアウトが、テキスト、イメージ、表のボックスとフレームを使用して出力時に保持されます。
- [ページフロー] - この設定を有効にすると、段落を含むページの元のレイアウトが（テキストボックスやフレームの代わりに）可能な限り段落とインデント設定を使用して出力時に保持されます。テキストは段から段へ流し込まれます。
- [スプレッドシート] - この設定を有効にすると、表計算アプリケーションでの使用に適した表の形式で結果が出力されます。各ページは別々のワークシートに配置されます。
[塗りつぶしフォームデータを保持] - この設定を有効にすると、塗りつぶされたフォームデータは変換処理中も保持されます。 このボックスは既定ではチェックされていません。
[テキストと背景色を保持] - この設定を有効にすると、色付きのテキストと背景が検出されて出力に使用されます。ドキュメントにカラー写真は必要であるが、色付きのテキスト/背景が必要ない場合はこの設定を無効にしてください。 このボックスは既定でチェックされています。
[反転したテキストを保持] - このオプションを有効にすると、色反転テキスト（黒または濃い色の背景に白または淡い色の文字）が出力で保持されます。色反転テキストを通常のテキストに変換するには、この設定を無効にします。 OCR処理の最適化方法 オプションを設定した場合、このオプションは使用できません。
[空白のページを削除] - この設定を有効にすると、空白のページは出力ファイルに含まれません。 このボックスは既定ではチェックされていません。
- [コンテンツ感度] - 空白ページのマークや傷に対する感度のしきい値を指定します。
  - クリーン - スライダーをクリーン（100）の方向に動かして、感度のしきい値を上げます。
  - ノイズ - スライダーをノイズ（0）の方向に動かして、感度のしきい値を下げます。

Dispatcher Phoenixでサポートされている出力フォーマット/タイプ

出力フォーマット/タイプ	プレーンテキスト	フォーマット済テキスト	スプレッドシート	Trueページ	ページフロー
eBook	YES	YES	NO	NO	NO
Microsoft Excel	YES	YES	YES	NO	NO
Microsoft PowerPoint / Microsoft Publisher	YES	YES	NO	NO	NO
Microsoft Word	YES	YES	NO	YES	YES
PDF	NO	NO	NO	YES	NO
編集済みPDF	YES	YES	NO	YES	NO
テキスト上の画像またはイメージ置き換え付きのPDF	NO	NO	NO	YES	NO
RTF Word 2000	YES	YES	NO	YES	YES
WordPad	YES	YES	NO	NO	NO
WordPerfect 9, 10	YES	YES	NO	YES	YES
XML Paper Specification (XPS)	NO	NO	NO	YES	NO

注: すべての出力形式の既定のオプションは「自動」です。

フォントと文字

[認識されない文字の代替文字] - 既定では、OCRエンジンによって検出された認識できない文字は、出力で「赤いチルダ文字（〜）」で表されます。たとえば、OCR処理が「reject」の「j」を認識できなかった場合、出力は「re~ect」のようになります。このフィールドで、使用する独自の文字を指定することができます。

バーコードエンジン

光学式文字認識はOCRエンジンによって駆動されます。Dispatcher Phoenixは現在、次のOCRエンジンをサポートしています。

OmniPage
ZXing

ZXingノード

次のノードはZXingバーコードエンジンをサポートします。

2Dバーコード処理 - 2Dバーコード処理ノードは、ZXingエンジンのサポートを含むDispatcher Phoenix基本ライセンスに含まれています。OmniPageのサポートは個別に購入することができます。 ZXingエンジンの詳細設定について は、以下で詳しく説明します。
バーコード処理 - バーコード処理ノードは、ZXingエンジンのサポートを含むDispatcher Phoenix基本ライセンスに含まれています。OmniPageのサポートは個別に購入することができます。 ZXingエンジンの詳細設定について は、以下で詳しく説明します。

ZXingの高度な設定

ZXing 高度な設定

ZXingバーコードエンジンの詳細オプションは次の通りです。

[バーコードスキャン処理を最適化]: - この設定は、エンジンがバーコードをスキャンする方法を制御します。
- [精度] - この設定を有効にすると、認識処理を最適化して精度を高めます。
- [パフォーマンス] - この設定を有効にすると、認識処理を速度に合わせて最適化することができます。この設定では結果の精度が低下する可能性がありますが、受信したドキュメントの品質が良好で、許容範囲内で正確な結果が得られることがわかっている場合に有効です。
[ゾーンを回転してバーコードを検出] - バーコードをスキャンする前に、アプリケーションはバーコード検出用のゾーンを検出し、正しい方向に向けようとします。受信ファイルの正確な位置ずれがすでにわかっていて、この自動検出処理を回避して処理時間を短縮したい場合は、ここで特定のオプションを選択することができます。
- [スキャン中にゾーンを90度、180度、および270度回転] - この設定を有効にすると、ゾーンの方向が検出され、OCRが実行される前に不適切な向きのページ画像が自動的に回されます（90度、180度、または270度）。このオプションは回転と反転で既定で有効です。
- [イメージを回転しない] - この設定を有効にすると、画像は回転されません。
[ゾーンを反転してバーコードを検出] - バーコードをスキャンする前に、準備処理中に暗い背景に対して白いテキストの画像を 一時的に 反転させて、OCR結果の精度を向上させることができます。
- [スキャン中にゾーンを反転] - この設定を有効にすると、色反転の必要性が検出され、前処理中にゾーンで反転が実行されます。このオプションは既定で有効です。
- [ゾーンを反転しない] - この設定を有効にすると、ゾーンはOCR処理が開始される前に反転されません。このオプションを有効にすると、OCR結果の精度が影響を受ける場合があります。
[ゾーンをダウンスケールして処理速度を向上] - この設定では、エンジンが大きなファイルのバーコードをスキャンする方法を制御します。
- [バーコード検出を試行する前にゾーンをダウンスケール] - この設定を有効にすると、エンジンはバーコードを検出するために 一時的に ゾーンをダウンサイズしようとします。これにより、パフォーマンスが向上する可能性があります。
- [ゾーンをダウンスケールしない] - この設定を有効にすると、ゾーンはスキャン前にダウンスケールされません。