Hyper Estraier

PDFの全文検索環境を整える1〜Hyper Estraierのインストール

投稿日:

環境

CentOS 5.8(32bit)

hyper estraierをインストールする前に、libconv、zlib、QDBMが必要

また、形態素解析を行うmecabを組み込めるので、mecabもインストールしておく。

 

コンパイラとzlibのインストール

 

libconvインストール

現時点で日本語エンコーディング版パッチが対応した最新版をダウンロードしてコンパイルする。

 

mecabインストール

*0.994が最新バージョンだがgcc44でもコンパイルが通らなかったので0.98をダウンロードした。

次にmecab用の辞書をインストールする。

試してみる。

すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

Ctrl+cで終了。

*本家にEUC-JPでコンパイルしろって書いてあった。。。あとで確認する

QDBMインストール

簡易なデータベースライブラリ。zlibオプションをつけてコンパイルするとインデックスファイルが圧縮される。

 

hyper estraierコンパイル

現在はテキストが32kバイト、ファイルが32Mバイトというサイズ制限があるらしいのでソースを変更する(自己責任)。

estcmd.cを書き換えた

コンパイル

 

簡単なテスト

準備

インデックスの作成と文書の登録

検索

 

-Hyper Estraier
-,

執筆者:

関連記事

no image

Redmine2.0のDMSFファイルをHyper Estraierで全文検索

環境 Redmine2.0にファイル管理プラグインを導入~redmine_dmsf Ubuntu12.04でRubyからHyper Estraierを使う~Ruby Binding 目次1 ソース修正 …

Ubuntu Serverで簡単に全文検索付きの共有ファイルサーバをつくる〜samba4、HyperEstraier

By: Kevin Jarrett – CC BY 2.0 目次1 環境2 Samba43 HyperEstraier 環境 Ubuntu Server 14.04 Samba4 参考 ほ …

no image

PDFの全文検索環境を整える3〜日本語PDFを検索できるようにする xpdf

目次1 はじめに2 xpdfのインストール3 日本語に対応させる4 テスト5 docやxlsなどのMS Officeファイル6 クローラの設定7 estcmd gatherを使う場合 はじめに Hyp …

Bash on WindowsでDocumentsのpdfを全文検索〜hyperestraier

By: Samm – CC BY 2.0 目次1 Bash on Windows2 HyperEstraierのインストール3 ドキュメントのインデックス登録4 apache2のインストー …

no image

Ubuntu12.04でRubyからHyper Estraierを使う~Ruby Binding

1 Hyper Estraierの準備

libestraier-devはruby bindingのコンパイルに必要 2 ソースの準備 …