Rubyでgroonga使って全文検索 - ラングバ

はじめに

はじめに — テキスト抽出ユーティリティChupaTextの概要

名前

ChupaText

作者

  • Nobuyoshi Nakada <nakada@clear-code.com>

  • Kouhei Sutou <kou@clear-code.com>

ライセンス

  • ソースコード: LGPLバージョン2.1またはそれ以降のバージョン(詳細: license/lgpl-2.1.txt )です。

  • ドキュメント: LGPLとGFDLとクリエイティブ・コモンズ・ライセンスのトリプルライセンス。

  • 例外:

    • modules/excel/: GPLバージョン2(詳細: license/gpl-2.txt )です。 Gnumeric に含まれているファイルです。

    • ...

ChupaText?

ChupaTextはPDFやオフィス文書からテキストとメタデータを抽出するユーティリティです。ライブラリ、コマンドライン、Webサービス経由で利用できます。

依存ライブラリ・ソフトウェア

必須:

  • GLib >= 2.24

  • libgsf

任意:

  • Poppler

  • wv

  • libgoffice

  • Gnumeric

  • LibreOfficeまたはOpenOffice.orgまたはunoconv

  • ruby >= 1.9.2

リポジトリ

ChupaTextのリポジトリは GitHub 上にあります。

% git clone git://github.com/ranguba/chupatext.git

インストール

インストール を見てください。

使い方

% chupatext [オプション ...] ファイル ...

ファイルにテキストを抽出したいファイルを指定します。

詳細は chupatext を見てください。

感謝

  • Yuto Hayamizu