Hyper Estraier

PDFの全文検索環境を整える4〜hyper estraierのcgiを使ってみる

投稿日:

参考: PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf

環境: Ubuntu Server 12.04 LTS

apacheを準備

/etc/apache2/site-enabled/default を確認すると、

  • ドキュメントルート  /var/www
  • cgi-binエイリアス  /usr/lib/cgi-bin

 

hyperestraierをインストールしてestseek.cgiなどをコピー

  • 実行ファイル estseek.cgi
  • 設定ファイルestseek.conf
  • トップページ用テンプレート estseek.top
  • 検索用テンプレート estseek.tmpl

*ubuntuのapt-getからインストールしたhyperestraierはデフォルトでフィルターを問題なく利用できた

今回は検索結果のpdfをダウンロードできるようにしたいので検索対象のpdfをドキュメントルート以下においてインデックスを作成しておく ホーム以下にdata ディレクトリを作成し、www以下にシンボリックリンクをおくことにした

インデックス作成は次のような感じで

 

参考 Redmine2.0のDMSFファイルをHyper Estraierで全文検索~PDF検索編

estseek.confに設定

最低限インデックスの場所を指定すれば動作確認できる

 

そして、ファイルのアドレスを変換できるように指定する

また、検索フォームをファイルサーバ用にする

 

サーバアドレス/cgi-bin/estseek.cgiにアクセスすると検索画面が表示される

htmlからestseek.cgiを使う

通常のフォームからも検索できる、サンプルに次のようなindex.htmlを作成してみる

検索語をハイライトするestproxy.cgiを使う

1 estproxy.cgiなどをcgi-binにコピーする

2 estseek.confでestproxyの場所を指定する

3 estproxy.confを設定する

また、対象が日本語ならlanguage: 1に

4 テスト

ブラウザから再度検索してみると検索結果に[display]というリンクが現れる

Googleキャッシュのように検索語がハイライトされる

pdfもいけるよ

*インデックスがロックされるので検索を使っているときに登録できないことと、クロールでインデックスが壊れやすいことから常用は慣れが必要。とにかくクロールと検索のスピードが早いのでなにかpdf資料をまとめたいときに使うかも。コピペに便利だし(ただし、ScanSnapのOCRに期待してはいけない)。ほかには優秀なクローラが付属しているので、あるWebサーバだけを対象にした専用の検索エンジンとしても使える。官公庁のホームページとかpdfばかりだし。

-Hyper Estraier
-,

執筆者:

関連記事

no image

Redmine2.0のDMSFファイルをHyper Estraierで全文検索~PDF検索編

参照 PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf     estcmdの-fxオプションは「ファイル名の接尾辞に関連づけた外部コマンドを指定」する …

no image

PDFの全文検索環境を整える2〜estwaver

目次1 はじめに2 クローラの登録・設定・起動 はじめに PDFの全文検索環境を整える1〜Hyper Estraierのインストールの続き。 クローラの登録・設定・起動 クローラはweb上のリンクをた …

Bash on WindowsでDocumentsのpdfを全文検索〜hyperestraier

By: Samm – CC BY 2.0 目次1 Bash on Windows2 HyperEstraierのインストール3 ドキュメントのインデックス登録4 apache2のインストー …

Ubuntu Serverで簡単に全文検索付きの共有ファイルサーバをつくる〜samba4、HyperEstraier

By: Kevin Jarrett – CC BY 2.0 目次1 環境2 Samba43 HyperEstraier 環境 Ubuntu Server 14.04 Samba4 参考 ほ …

no image

Redmine2.0のDMSFファイルをHyper Estraierで全文検索

環境 Redmine2.0にファイル管理プラグインを導入~redmine_dmsf Ubuntu12.04でRubyからHyper Estraierを使う~Ruby Binding 目次1 ソース修正 …