メタデータ/ファイル
メタデータ/ファイル処理ノードを使用して、受信ファイルからメタデータを抽出し、その情報を別のファイルに保存します。さまざまなメタデータファイル形式または カスタマイズされた出力ファイル形式の作成 に出力して、独自の特定のニーズに合わせることができます。
ワークフローに追加するメタデータ/ファイル処理ノードごとに、以下を指定します。
-
抽出するメタデータ。1つ以上のメタデータタイプを選択できます。以下のリストは、いくつかの可能な選択オプションを示しています。
- ベイツスタンプ
- SMTP
- 電子メール
- LPR
- 高度なOCR
- バーコード (標準)
- 2D バーコード
-
その情報を保存するファイルのタイプ。
-
新しいメタデータファイルの拡張子の形式。
以下に、新しく作成されたメタデータファイルの使用例をいくつか示します。
- 記録の保存。
- 検索目的で他のシステムにインポート。
- 解析と配信 ノードなど、Dispatcher Phoenix ワークフローの他のノードでのルーティング。
注: この処理はすべてのファイルタイプで機能します。
メタデータ/ファイルノードの使用
メタデータ/ファイルウィンドウを開くには、メタデータ/ファイル処理ノードを追加して、このノードをダブルクリックします。次の図に、メタデータ/ファイルウィンドウの一例を示します。
注: この図には、すべてのメタデータが表示されているわけではありませんのでご注意ください。
一般設定
- [有効] - 現在のワークフローでこのノードを有効にするには、このフィールドのボックスをオンにします。ボックスを空白のままにすると、ワークフローはノードを無視し、ドキュメントはノードが存在しないかのように通過します。無効化されたノードは、ロジックまたはエラー条件をチェックしないことに注意してください。
- [ノード名] - ノード名がこのフィールドに既定で設定されます。この名前は、ノードアイコンの下のワークフローに表示されます。このフィールドを使用して、ワークフローでの使用を示す意味のあるノード名を指定します。
- [説明] - このノードのオプションの説明を入力します。説明は、ワークフローでのノードの目的を思い出したり、ノードを互いに区別したりするのに役立ちます。説明が長い場合は、フィールドの上にマウスを置くと、その内容全体を読むことができます。
- [ヘルプ] - Dispatcher Phoenix オンラインヘルプにアクセスするには、このボタンをクリックします。
- [保存] - ノードの定義を保持してウィンドウを終了するには、このボタンをクリックします。
- [キャンセル] - 変更を保存せずにウィンドウを終了するには、このボタンをクリックします。
出力設定
この領域には次のオプションがあります。
-
元のファイルを出力 - 新しく作成されたメタデータファイルと共に元のファイルを出力するには、チェックボックスをオンにします。メタデータのみを出力するには、ボックスを空白のままにします。
-
メタデータ ファイル形式 - メタデータを保存するファイルの形式を選択します。次のオプションがあります。
- XML (拡張マークアップ言語)
- INI (INIファイル)
- CSV (カンマ区切り値)
- JSON (JavaScript オブジェクト表記)
- カスタム - 詳細については、以下の カスタム出力ファイルの作成 セクションを参照してください。
- カスタム (バッチ) - このオプションを使用すると、バッチで処理されたすべてのドキュメントのすべてのメタデータを含む単一のCSVファイルを作成できます。
注: 以下のDispatcher Phoenixライセンスで使用する場合、カスタムおよびカスタム(バッチ)出力ファイル形式オプションは使用できません。
-
メタデータ ファイル拡張子 - 新しく作成されたメタデータファイルの拡張子を選択します。選択肢は次のとおりです。
-
[出力ファイルの拡張子プラスメタデータファイルの拡張子] - このオプションでは、出力ファイルの拡張子とともにメタデータファイルの拡張子が付けられます。たとえば、このノードで、 123.TIFF というファイルを処理しているときに、INIファイルの作成を選択した場合、このオプションが有効であると、新たに作成されるメタデータファイルは 123.TIFF.INI になります。
-
[メタデータファイル拡張子のみ] - このオプションでは、メタデータファイルのファイル拡張子が付けられます。たとえば、このノードで、 123.TIFF というファイルを処理しているときに、XMLファイルの作成を選択した場合、このオプションが有効であると、新たに作成されるメタデータファイルは 123.XML になります。
注: 新たに作成されるメタデータファイルの名前には、出力ファイルと同じ名前が使用されます。
-
抽出するメタデータの選択
この領域には、ワークフロー内で使用可能なすべてのメタデータタイプが一覧表示されます。たとえば、ゾーンが定義されたワークフローに高度なOCRノードを追加した場合、高度なOCRのチェックボックスが表示されます。別のファイルに抽出する1つ以上のメタデータの横にあるボックスをオンにします。次の表に、この領域に表示される可能性のあるメタデータタイプの一部を示します。
メタデータ | 説明 |
---|---|
2Dバーコード | 2Dバーコードのメタデータを抽出するには、ワークフローのある時点で、2Dバーコード処理ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
高度なOCR | OCRのメタデータを抽出するには、ワークフローのある時点で、高度なOCRノードが、メタデータ/ファイル処理よりも前に来なければなりません。高度なOCRノードの処理を定義するときには、ゾーンを(手動または自動で)指定し、OCR出力について[元のドキュメントプラスメタデータ]オプションを選択する必要があります。 |
注釈 | 注釈のメタデータを抽出するには、ワークフローのある時点で、注釈処理ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
バーコード | 標準のバーコードのメタデータを抽出するには、ワークフローのある時点で、バーコード処理ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
ベイツスタンプ | ベイツスタンプのメタデータを抽出するには、ワークフローのある時点で、高度なベイツスタンプノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
複合機パネル | 複合機パネルのメタデータを抽出するには、ワークフローのある時点で、複合機パネルノードがメタデータ/ファイル処理よりも前に来なければなりません。 |
電子メール | 電子メールのメタデータを抽出するには、ワークフローのある時点で、電子メール解析ノードが、メタデータ/ファイル処理よりも前に来なければなりません。電子メール解析ノードの処理を定義するときには、抽出された電子メールの添付ファイルとともに、転送するメタデータを選択する必要があります。 |
フォーム処理 | フォーム処理のメタデータを抽出するには、ワークフローのある時点で、フォーム処理ノードが、メタデータ/ファイル処理よりも前に来なければなりません。フォーム処理ゾーンを定義するときには、そのゾーンで使用するメタデータキーを指定する必要があります。 |
インデックスフォーム | インデックスフォームのメタデータを抽出するには、ワークフローのある時点で、関連するインデックスフォームを持つ複合機パネルノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
LPR 入力 | 送信時に受け取ったLPRメタデータはすべて、出力ファイルから抽出されます。 |
ODBC | ODBCのメタデータを抽出するには、ワークフローのある時点で、ODBC処理ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
解析 | 正規表現を使った検索操作から値を抽出するには、ワークフローのある時点で、解析ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
解析と配信 | 正規表現を使った検索操作から値を抽出するには、ワークフローのある時点で、解析と配信ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
PDF データ | PDFのメタデータを抽出するには、ワークフローのある時点で、PDFからメタデータ抽出ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
Release2Me | Release2Meのメタデータを抽出するには、ワークフローのある時点で、Release2Meノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
SMTP | 送信時に受け取ったSMTPメタデータはすべて、出力ファイルから抽出されます。 |
分割 | 分割のメタデータを抽出するには、ワークフローのある時点で、分割ノードが、メタデータ/ファイル処理よりも前に来なければなりません。 |
XMLファイルの構造
XMLファイルは、<file\>
という名前のルート要素1つと、次の必須属性から構成されます。
-
name - このXMLドキュメントが関連付けられているファイルの名前。
-
size - ’name’ ファイルのバイト数。
-
mtime - ’name’ ファイルが変更されてから経過したUNIXエポック秒数。
<file\>
要素に、1つ以上の<meta>要素が含まれることがあります。<file\>
の直接の子要素となるXML要素は他には存在しません。
<meta/>要素には必須属性が2つあります。
-
group - 変数の出自を区別するために使用される短いが使いやすい記述子。
-
name - システム、またはインデックスフォームデザイナーによって定義された変数名。
<meta/>要素は、次の2つの子要素のいずれかを持つことがあります。
-
document - 変数の値を保持。
-
page - 特定のページに関連する変数の値を保持。
INIファイルの構造
INIファイルの形式は次の構造です。
[file]
name=sample-file.pdf
size=205491
ctime=0
mtime=1622651543
[group]
metadata-variable-name1=matadata-value1
metadata-variable-name2=matadata-value2
注: 「ctime」は、ノードがファイルを作成するのにかかった時間を指します。「mtime」は、ノードがファイルを変更するのにかかった時間を指します。
CSVファイルの構造
CSVファイルの形式は次の構造です。
file,name,sample-file.pdf
file,size,205491
file,ctime,0
file,mtime,1622651543
group,metadata-variable-name1,"matadata-value1"
group,metadata-variable-name2,"matadata-value2"
JSONファイルの構造
JSONファイルの形式は次の構造です。
{name:’’, size:0, ctime:0, mtime:0, meta: [
{group:’’, name:’’, values: {
Document = {doc: %VALUE%}
Per Page = {%PAGE%: %VALUE%}
}
}
]
}
例:
{
"name" : "pdf_form_maker1_new.pdf",
"size" : 58750,
"ctime" : 0,
"mtime" : 1427808953,
"meta" : [
{
"group" : "pdf",
"name" : "editable",
"values" : {
"doc" : "true"
}
}
]
}
カスタム出力ファイルの作成
Dispatcher Phoenixには、メタデータを格納するための独自のファイル形式を作成するオプションも用意されています。これは、使用しているシステムに合わせてファイルの出力をコントロールする必要がある場合に便利です(たとえば、使用しているコンテンツ管理システムやアプリケーションでは、XMLなどの標準形式がうまく機能しない場合)。
注: 以下のDispatcher Phoenixライセンスで使用する場合、カスタムおよびカスタム(バッチ)出力ファイル形式オプションは使用できません。
カスタマイズしたファイル形式を作成するには、 [メタデータファイル形式] ドロップダウンリストから [カスタム] オプションを選択します。選択すると、さまざまなメタデータタイプを含む [抽出するメタデータの選択] ボックスが消え、 [メタデータを抽出するためのスクリプトを作成] ボックスに置き換わります。このテキストボックスには、Luaの構文強調表示が事前に入力されています (Luaの詳細については、 Lua 5.3 リファレンスマニュアルを参照してください。)。この非常に簡単な例を使用して、開始することができます。次の図を参照してください。
エクスポート機能
Luaスクリプトは、2つの引数を受け入れる「export」という関数を実装する必要があります。
-
最初の引数(以下
file
)は、ファイルの基本情報とメタデータを表します。-
file.name
-
file.ext
-
file.fullname
-
file.size
-
file.mtime
-
file.ctime
-
file.contents
-
read(count)
-
readline()
-
seek(whence, offset)
-
lines([format])
注: オプションのフォーマット文字列を “base64” にして変換を実行できます。
-
-
file.{metadata group name} (例: pdf、bates、ocrなど)
-
file.pdf.author
-
file.pdf[‘author’]
-
file.bates.Stamp1
-
file.ocr[‘zone.MyZone’][1] = 1ページ目のzone.MyZoneの値
-
file.ocr[‘zone.MyZone’][2] = 2ページ目のzone.MyZoneの値
注: メタデータにピリオドが含まれている場合は、[“zone.MyZone”]のように角カッコと二重引用符で囲む必要があります。
-
-
-
第2引数(
jid
以下)はユーザー情報を表します。-
jid.userにはすべての
{user:****}
値が含まれます- 例: jid.user.name, jid.user.domain, jid.user.email(定義されている場合)
-
jid.fs にはすべての
{fs:****}
値が含まれます- 例: jid.fs.DesktopDirectory, jid.fs.CommonApplicationData
-
「export」関数は’File.new()‘または’nil’のインスタンスを返します。出力ファイルを作成するには、次の構文を使用します。
local out = File.new(“my filename here”)
または
local out = File.new(file.fullname)
ファイルオブジェクトメソッド
使用可能なファイルオブジェクトメソッドは次のとおりです。
-
write(“データ”)
-
writeln(“末尾に改行が付いたデータ”)
-
ext(“ファイル拡張子の変更”)
-
ext(“txt”)
-
ext(“xml”)
-
-
eol(“改行文字の変更”)
-
eol("\n")
-
eol("\r\n")
-
また、メッセージのログに使用できるグローバル関数「Print」もあります。
例
請求書からデータを抽出するワークフローでは、次のXMLファイルが作成されます。
しかし、このXMLの書式やコンテンツは、カスタマーの既存のシステムではうまく機能しません。このため、次のカスタムファイルを作成しました。
このカスタムファイル作成のために使用されたカスタムスクリプトは次のとおりです。