[fess-user 69] Re: クロール中のはずが3時間ほど何も起こらないのですが...

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 1月 5日 (火) 23:16:49 JST


菅谷です。

情報をありがとうございます。

> #unprocessed documents は 400 台のようです。

これくらいで3時間ですと、期待外の動きです…。

ドキュメントサイズによると思いますが、「Sent 11
documents.〜」で Solr への投入が秒レベルの時間が
かかるのも気になります。私のテストデータですと
(Apache 系プロジェクトのソースコード)、数十ミリ秒で
投入している感じです。もしかしたら、
maxDocumentCacheSize を増やすのではなく、5とか
減らすと良いかもしれません。

あとは、クロール全般の「ドキュメント数毎にコミット 」を
500 とか減らしてしまってもよいかもしれません。

3時間近く止まる件ですが、こちらの継続動作テストで
全クロール停止のインデックス更新中に、管理画面で
停止すると、止まらなくなる問題が発覚したので修正
しました。(これでしたら、すいません…)

http://sourceforge.jp/ticket/browse.php?group_id=4342&tid=20133

あとは問題を絞り込んでいくためには対象部分の
ログレベルを DEBUG にしていただけると、より
分かってくるかと思います。webapps/fess/WEB-INF/
classes/log4j.xml の

  <logger name="jp.sf.fess.solr" >
    <level value ="debug" />
  </logger>

をコメントアウトから出していただけると、IndexUpdaterが
よりいろいろと出力します。

> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停
> 止したことはありますので、何か条件が異なるのだと思います。

対象データによるというのもありますが、現在、手元の
テストデータでは 2 日くらいで 60 万件くらいはいけてます。
さすがにここら辺で遅くなってきていますが…。

shinsuke


2010年1月5日19:34 Masayuki Shibata <mshib****@shima*****>:
> 柴田@亀岡市です。
>
>>AuthChallengeProcessor のログを除いた、最後の数行ログは
>>何になっているでしょうか?
> ...
>>しかし、その場合に3時間も返ってこないのは期待通り
>>ではない感じです・・・。「You have XXX unprocessed
>>documents.」のXXXがかなりの数になっていると別ですが。
>>(数千など) あとは、「The execution time is XXXms.」の
>>XXX (Solrにドキュメントを送って処理した時間) が大体
>>どれくらいかも気になります。
>
> ファイル名 (URL) のみ伏せ字にしてますが、以下が生ログです。
> #unprocessed documents は 400 台のようです。
>
> 2010-01-05 12:22:42,875 [Robot-20100105092954-1-5] INFO
> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://hostname/svn/project/XXXXXXXXXXXXXX/
> 2010-01-05 12:22:42,890 [Robot-20100105092954-1-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - digest authentication scheme selected
> 2010-01-05 12:22:42,921 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
> The execution time is 593ms.
> 2010-01-05 12:29:36,640 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all crawler
> threads.  You have 497 unprocessed documents.
> 2010-01-05 12:29:43,750 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 document
> to a server.
> 2010-01-05 12:29:43,906 [IndexUpdater] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 12:29:44,250 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
> The execution time is 500ms.
> 2010-01-05 12:36:48,125 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all crawler
> threads.  You have 487 unprocessed documents.
> 2010-01-05 12:49:21,562 [http-8080-2] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 12:49:25,750 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 13:27:47,578 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 document
> to a server.
> 2010-01-05 13:27:47,953 [IndexUpdater] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 13:27:48,593 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
> The execution time is 1015ms.
> 2010-01-05 14:01:57,734 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Stopped all crawler
> threads.  You have 477 unprocessed documents.
> 2010-01-05 14:08:13,906 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 14:08:17,281 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 14:11:18,875 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sending 11 document
> to a server.
> 2010-01-05 14:11:19,406 [IndexUpdater] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 14:11:20,187 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - Sent 11 documents.
> The execution time is 1312ms.
> 2010-01-05 14:32:07,828 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 14:32:12,218 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> 2010-01-05 14:35:34,312 [http-8080-5] INFO
> org.apache.commons.httpclient.auth.AuthChallengeProcessor - basic authentication scheme selected
> ... (同じ内容のログが20行ほど続く)
>
>>あとは、Tomcat の logs/catalina.out に
>>何か出ていないでしょうか?
>
> 黙り込む直前 14:11:20 頃まで 「情報: {add=[http://...」という
> ログが出ているのですが、最後の3回分がかなり時間間隔が開いてい
> ます。
>
> それ以前は1〜2秒間隔だったのが、最後の3つの間隔は1時間程度、
> (その1つ前とは7分くらい) ですので、急激にのろくなった感じで
> 止まっています。
>
> そのログの間に、クロール実行中の確認や、生きているかの確認のた
> めの検索のログがはさまっているくらいで、特に不審なものは見あた
> りません。
>
> 少しずつ設定をチューニングしているので同じ条件ではありませんが
> 以前 6000 を少し越えるところまで溜まった段階で時間切れで手動停
> 止したことはありますので、何か条件が異なるのだと思います。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index