[fess-user 66] Re: クロール中のはずが3時間ほど何も起こらないのですが...

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 1月 5日 (火) 18:18:42 JST


菅谷です。

> というログが何行か続いているものの、ほかになにもログを吐いてい
> ない時間が3時間ほど続いているようです。

AuthChallengeProcessor のログを除いた、最後の数行ログは
何になっているでしょうか? あとは、Tomcat の logs/catalina.out に
何か出ていないでしょうか?

> Stopped all crawler threads.  You have XXX unprocessed documents.
> Sent XXX documents. The execution time is XXXms.

クロールと同時に Solr へドキュメントを投入していますが
パフォーマンス向上のため、しきい値以上に未処理の
ドキュメントがたまった場合は、クロールを停止して、
未処理のドキュメントを Solr に投入して、DB 内から
不要な部分を削除するようにしています。ですので、
これらのメッセージが表示後にクロールが再開されるのは
期待通りの動きになります。

しかし、その場合に3時間も返ってこないのは期待通り
ではない感じです・・・。「You have XXX unprocessed
documents.」のXXXがかなりの数になっていると別ですが。
(数千など) あとは、「The execution time is XXXms.」の
XXX (Solrにドキュメントを送って処理した時間) が大体
どれくらいかも気になります。

クロールを停止する未処理のドキュメント数のしきい値は
現在、100 となっています。変更する場合は、webapps/
fess/WEB-INF/classes/app.dicon の

<component name="indexUpdater" class="jp.sf.fess.solr.IndexUpdater"
instance="prototype">
	<property name="unprocessedDocumentSize">1000</property>
</component>

とすると 1000 に変わると思います。

あとは、Solr に送るドキュメント数を増やすとパフォーマンスが
改善されるかもしれません(デフォルト10)。上記と同様に
IndexUpdater で

<component name="indexUpdater" class="jp.sf.fess.solr.IndexUpdater"
instance="prototype">
	<property name="unprocessedDocumentSize">1000</property>
	<property name="maxDocumentCacheSize">20</property>
</component>

とすると、21 個ずつ Solr に送信されると思います。

shinsuke


2010年1月5日17:40 Masayuki Shibata <mshib****@shima*****>:
> 柴田@亀岡市です。
>
> 本日 1/5 朝 8:40 ごろダウンロードした SNAPSHOT で動かしています。
>
> 例によって Subversion 上をクロールしておりましたら 5000件でコミ
> ットした後ドキュメント数が増えていかなくなりました。
>
> ログを見ると「システム設定」画面をクローラープロセスの実行中 or
> 停止の確認のため何度も開いたため...
>
> INFO  org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme
> selected
>
> というログが何行か続いているものの、ほかになにもログを吐いてい
> ない時間が3時間ほど続いているようです。
>
> 管理画面ではクローラープロセス実行中のままなのですが...
>
> 黙り込む前に...
>
> Stopped all crawler threads.  You have XXX unprocessed documents.
>
> ...や
>
> Sent XXX documents. The execution time is XXXms.
>
> ...というログを何行か吐いてますが、お昼ごろにも同様のログを何行
> も吐いている時間帯はあって、それはそのまま復帰してきてクロールを
> 続けていたのでシロなのかなぁとは思うのですが、エラーらしき行はそ
> の周辺にはありませんし...
>
> パスワードのかかっている PDF やマクロを含んでいて開くときにマク
> ロを実行するか聞いてくる Excel などをクロールするときは流石にエ
> ラーは出ていますが、黙り込んだ時間帯とはかなり離れていますし...
>
> 一応お知らせしておきます。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index