Hyper Estraier

PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf

投稿日:

はじめに

Hyper Estraierはpdfの全文検索にも対応している。estfxpdftohtmlというプログラムでテキスト化してからインデックスに登録する仕組みのようだ。

しかし、このestfxpdftohtmlが使っているpdftohtmlを含むxpdfが日本語に対応していない(というかxpdf自体も標準のリポジトリからも除外されてしまった)。

そこで、xpdfをepelリポジトリからインストールして日本語用に設定しておく。

前の記事

PDFの全文検索環境を整える1〜Hyper Estraierのインストール

PDFの全文検索環境を整える2〜クローラの設定

xpdfのインストール

epelリポジトリを登録していれば、yumでインストールできる。

pdftohtml version 0.36 pdftohtml.sourceforge.net/, based on Xpdf version 3.00
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2004 Glyph & Cog, LLC

日本語に対応させる

PDFにもいろいろな作成方法や設定があるのですべてがうまくいくわけではないが、とりあえず。

日本語用の設定ファイルをxpdfrcというxpdf設定用のファイルに追加する。

テスト

適当な日本語pdfファイルを用意して

とすると同一フォルダに同一ファイル名のテキストファイルができている。

docやxlsなどのMS Officeファイル

同様にestfxmsotohtmlを通じてwvWare、xlhtml、ppthtmlなどのコマンドを利用している。

wvはyumでインストールできたが、xlhtml、ppthtmlはコンパイルするしかないみたい(未検証)。

docx、xlsxはHyper Estraier で OpenDocument & Office Open XML を検索対象にするを参照(未検証)

クローラの設定

対象PDFはWebサーバで見られるところに置いておきます。ブラウザで検索をしたらそのまま閲覧できるように。

_confファイル

 

参考

Hyper Estraier(全文検索エンジン)で、PDFやWordなどのファイルがうまくクロールされない場合の対処Add Star

estcmd gatherを使う場合

ファイルサーバの指定したディレクトリ以下のファイルをすべて登録する場合などはestcmd gatherを使う。

 

-Hyper Estraier
-,

執筆者:

関連記事

Bash on WindowsでDocumentsのpdfを全文検索〜hyperestraier

By: Samm – CC BY 2.0 目次1 Bash on Windows2 HyperEstraierのインストール3 ドキュメントのインデックス登録4 apache2のインストー …

no image

PDFの全文検索環境を整える1〜Hyper Estraierのインストール

目次1 環境2 コンパイラとzlibのインストール3 libconvインストール4 mecabインストール5 QDBMインストール6 hyper estraierコンパイル7 簡単なテスト 環境 Ce …

no image

PDFの全文検索環境を整える2〜estwaver

目次1 はじめに2 クローラの登録・設定・起動 はじめに PDFの全文検索環境を整える1〜Hyper Estraierのインストールの続き。 クローラの登録・設定・起動 クローラはweb上のリンクをた …

no image

Ubuntu12.04でRubyからHyper Estraierを使う~Ruby Binding

1 Hyper Estraierの準備

libestraier-devはruby bindingのコンパイルに必要 2 ソースの準備 …

no image

RubyからHyper Estraierを使う2~Ruby Binding

環境:Ruby 1.9.3 Hyper Estraierのソースに含まれるRubyバインディングから検索する。 Rubyバインディングの文書 1 RubyGemはコンパイルが通らない [crayon- …