Hyper Estraier Redmine Redmineのプラグイン紹介

Redmine2.0のDMSFファイルをHyper Estraierで全文検索~PDF検索編

投稿日:2012年8月14日 更新日:

参照

PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf

 

 

estcmdの-fxオプションは「ファイル名の接尾辞に関連づけた外部コマンドを指定」する。

そして、Hyper Estraierにはpdfやマイクロソフトオフィス用のフィルタが付属している。

ubuntuのapt-getでインストールした場合、/usr/share/hyperestraier/filter/以下にある。パスは通っていない。

ただ、このフィルタ、エラーがあっても飲み込んでしまうらしい(Hyper Estraier(全文検索エンジン)で、PDFやWordなどのファイルがうまくクロールされない場合の対処)ので注意が必要。

サンプルで試した私のpdfファイルはestfxpdftohtmlで問題なくhtmlに変換したが、うまく登録されない場合は次の順序で確かめるといいかもしれない。

①pdftohtmlは動作するか、②estfxpdftohtmlは動作するか、③インデックスに登録されているか。(いまpdftohtmlをやってみたらError: Invalid Font Weightとか出てきたけどうまくhtmlファイルを出力できたのでみなかったことにしよう。)

注意が必要なのはhtmlに変換されるのでコマンドの指定の先頭にはH@をつけなければうまくインデックスに登録されない。

 

 

結論的にこのような感じでうまく登録できた。

 

ちなみに、登録されたかを簡単に確かめるにはこんな感じで

*また、30MBを超えるファイルはうまく登録されないかも。とりあえずわたしの環境ではA4数枚の予定なので問題ない。

pdftotextで PDFからのテキスト抜き出し

 

 

追記:docファイルとxlsファイルもできた

付属のフィルタはdocとxlsも問題なくhtmlに変換できた。

あわせてこんな感じで

 

 

タイミング的にはcronじゃなくてアップロードされたタイミングでインデックスに登録したいなあ。

たぶん、dmsf_upload.rbのafter_filterにNative Ruby Bindingにあるサンプルのgathererを参考に書けばいいんだろうけど、これはしばらく様子みた後の課題としたい。

-Hyper Estraier, Redmine, Redmineのプラグイン紹介
-,

執筆者:

関連記事

Redmineではじめてのプロジェクト

目次1 プロジェクト作成2 バージョンを作成3 チケットを作成4 チケットのステータスを編集5 チケットを終了する6 バージョンを終了する7 プロジェクトを終了する8 Redmine運用についての情報 …

Redmine2.5.0でファイル管理プラグイン(未完)〜redmine_dmsf

目次1 環境2 特徴3 インストール4 問題5 HyperEstraierへ検索エンジン変更 環境 Redmine version 2.5.0.devel Ruby version 2.1.1-p76 …

Ubuntu server12.04にRedmine2.4.1をインストール

目次1 環境2 ダウンロード3 データベースの準備4 config/database.yml5 bundle6  セッションストアシークレットジェネレーション7 データベーススキーマ構築8 とりあえず …

PDFの全文検索環境を整える4〜hyper estraierのcgiを使ってみる

参考: PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf 環境: Ubuntu Server 12.04 LTS 目次1 apacheを準備2 hyperestraierを …

no image

Redmine 2.0のマイページを拡張するプラグイン~vividtone_my_page_blocks

Redmine2.0は対応しているプラグインがまだ少ない様子。 ダウンロード場所 github.com/vividtone/redmine_vividtone_my_page_blocks ruby …