はじめに
PDFの全文検索環境を整える1〜Hyper Estraierのインストールの続き。
クローラの登録・設定・起動
クローラはweb上のリンクをたどって文書を登録してくれるプログラム。クローラは別PCでも構いません。
クローラのルートディレクトリの作成
1 | estwaver init test_crawl |
クローラの設定
“test_crawl/_conf”ファイルで設定します。
とりあえず、seed先、対象言語を設定。
1 2 3 | # seed documents (weight and URL) seed: 1.5|http://怒られなさそうなところ seed: 1.0|http://怒られなさそうなところ |
1 2 | # preferred language (0:English, 1:Japanese, 2:Chinese, 3:Korean, 4:misc) language: 1 |
必要に応じて、proxyや検索先ホストの限定など。
クローラの起動
1 | estwaver crawl test_crawl |
*メモリが足りないと止まってしまうことがある。そういう時はスレッド数や一度に登録する文書数を減らす。
1 2 3 4 5 | # number of threads running in parallel threadnum: 1 # number of documents to collect docnum: 1000 |
インデックスが壊れてアクセス出来ないときは”estcmd repair”を試す。(未検証)
1 | estcmd repair ~/test_nm/_node/test1/ |