![]() |
![]() |
![]() |
ChupaTextリファレンスマニュアル | ![]() |
---|
説明
ChupaTextは様々な形式のファイルからテキスト情報とメタ情報を抽出するツールです。全文検索システムの構築などに有用です。抽出された情報はMIME形式で出力されるため、一般的なメールパーサで解析できます。
以下のファイル形式に対応しています。(暗号化されたファイルには対応していません。)
Adobe PDF形式ファイル
Microsoft Word形式ファイル
Microsoft Excel形式ファイル
Microsoft PowerPoint形式ファイル
HTMLファイル
また、以下のアーカイブ形式・圧縮形式にも対応しています。
zip
tar
gz
出力フォーマット
ChupaTextで抽出されたテキスト情報とメタ情報はMIME形式で出力されます。出力のヘッダーフィールドはメタ情報を、本文はテキスト情報を表しています。ChupaTextがメタ情報として必ず出力するフィールドは以下のものがあります。
常に"text/plain; charset=UTF-8"。 |
|
出力されたテキストのバイト数。実際に出力されるテキストには最後に必ず改行が付きます。そのため、chupatextは実際には本文としてテキストのバイト数 + 1バイト(改行分)のデータを出力します。 例えば、出力テキストが「Sample」の6バイトだった場合は、「Sample」+「改行(\n)」で合計7バイト出力します。 |
|
入力ファイル名。 |
|
入力ファイルのMIMEタイプ。可能であれば以下のパラメータも加わる。
|
|
入力ファイルを表示するときに利用する情報。タイプは常に"inline"。
|
また、以下のフィールドはメタ情報が存在する場合のみ出力されます。
終了ステータス
指定されたすべてのファイルのテキスト情報とメタ情報を抽出できた場合は0です。1つでも抽出に失敗した場合は0以外になります。ただし、 --ignore-errors を指定した場合は、失敗した場合でも0になります。