様々なファイルからテキストとメタデータを抽出できるライブラリ「Apache Tika」

投稿者: | 2014年10月1日

Apache Tikaは既存のパーサーライブラリを使用してファイルの分析とデータの取得を行うことができるライブラリです。様々なファイル形式に対応していて、テキストとメタデータの取得を行うことができます。
※メタデータは、あるデータに関連する情報のことです。

Apache Tika(以下Tika)の特徴と使用方法、使用例を紹介します。

1.特徴
数千種類以上のファイル形式に対応しています。確認しただけでもHTML、XML、Word、Excel、PDF、txt、mp3、jpgに対応しています。Javaコマンド・Java GUIアプリケーション・開発で利用できます。日本語に対応しています。

2.使用方法
検証に使用した開発言語とTikaのバーションは下記の通りです。
■Java 1.7.0_55 64bit
■Tika 1.6

・Tikaをダウンロード
参考サイトのApache TikaのDownloadページから最新のjarをダウンロードします。ダウンロードしたjarは任意の場所に配置します。

・Javaコマンドでの利用
Javaコマンドが提供されておりコマンドを実行するだけでデータの取得ができます。
コマンドプロンプトを開き下記のコマンドを実行します。
java -jar tika-app-1.6.jar [o] < sample.pdf
デフォルトではXML形式で取得されます。
[o]は付加できるオプションでこれを指定することによりHTML形式での取得やメタデータのみの取得などができます。

・Java GUIアプリケーションの利用
JavaコマンドからJava GUIアプリケーションが使用できます。
コマンドプロンプトを開き下記のコマンドを実行します。
java -jar tika-app-1.6.jar -g
実行すると下記のようなアプリケーションが表示されます。 

 メニューの「File」から「Open…」「Open URL…」を選択しファイルまたはURLを指定します。指定したものが解析され、デフォルトで「Metadata」が表示されます。メニューの「View」から「Metadata」「Formatted text」「Plan text」「Main content」「Structured text」を選び表示内容を変更することができます。

表示を「Structured text」にすると下記のようなXML・HTMLが取得できます。

・開発での利用
統合開発環境のEclipseを用いた例を下記に示します。
Eclipseでパッケージを作成し、外部jarとしてtika-app-1.6.jarを追加します。
そしてTikaを用いたプログラムを記述し実行するとデータが取得できます。

 

3.ライセンス
TikaのライセンスはApache License Version 2.0です。
※Apache License Version 2.0に関しては、参考サイトのカレンダー処理のライブラリ「AJD4JP」の中に記述してあるので参考にされてください。

4.まとめ
このライブラリを用いると、簡単にExcelの表データをWebページに反映させることができます。Excelをライブラリの機能でHTMLに変換すると、表データをHTMLのテーブルとして取得できます。取得したテーブルをWebページに貼り付けるだけで簡単に反映させることができます。

工夫次第で便利になるので、使用を検討してみてはいかがでしょうか。

<参考サイト>
Apache Tika
カレンダー処理のライブラリ「AJD4JP」

 

システム構築に関してのご依頼、ご質問等がある場合は弊社ホームページ上のお問い合わせフォームもしくは下記連絡先までお問い合わせ下さい。

お問い合わせフォーム

株式会社ヴィンテージ

TEL:093-513-7255