[fess-user 772] Re: CommandExtractorとxdco2txtの連携について

Back to archive index

monolith モノリス monyo****@hotma*****
2013年 8月 7日 (水) 21:28:10 JST


お世話になっております。
やまです。

xdoc2txtをCommandExtractorにて実行しております。
ログレベルをDEBUGにして実施したところ、
以下のエラーが出力されておりました。

セルに設定した「text」、オートシェイプに設定した「objtext」が抽出されており、
xdoc2txtのコマンド実行は問題ないように見えるのですが、
txtが出力されずにDefaultResponseProcessorでNo dataとなっているのでしょうか?

抽象的な説明で申し訳ありませんが、原因や対策方法などわかりましたら
教えていただけませんでしょうか。

宜しくお願い致します。


<fess_crawler.out抜粋>
2013-08-07 20:04:16,612 [Robot-20130807200400-1-1] INFO  org.seasar.robot.extractor.impl.CommandExtractor - Command: [cmd, /c, c:/fess-server/xdoc2txt/xdoc2txt, -8, -i, c:\fess-server\temp\fessTmpDir_20130807200400\cmdextin_autoshape_LV1_1228139699739982293.xlsx, >, c:\fess-server\temp\fessTmpDir_20130807200400\cmdextout_autoshape_LV1_5102778779021473776.txt]

2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - 
2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - text
2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - 
2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - objtext
2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - error in >
2013-08-07 20:04:16,704 [Thread-23] DEBUG org.seasar.robot.extractor.impl.CommandExtractor - error in c:\fess-server\temp\fessTmpDir_20130807200400\cmdextout_autoshape_LV1_5102778779021473776.txt
2013-08-07 20:04:16,709 [Robot-20130807200400-1-1] INFO  org.seasar.robot.extractor.impl.CommandExtractor - Exit Code: 0 - Process Output:

text

objtext
error in >
error in c:\fess-server\temp\fessTmpDir_20130807200400\cmdextout_autoshape_LV1_5102778779021473776.txt

2013-08-07 20:04:16,712 [Robot-20130807200400-1-1] WARN  org.seasar.robot.processor.impl.DefaultResponseProcessor - No data for (file:/C:/fess-server/TESTFILE/autoshape_LV1.xlsx, application/vnd.openxmlformats-officedocument.spreadsheetml.sheet)
2013-08-07 20:04:16,712 [Robot-20130807200400-1-1] DEBUG org.seasar.robot.helper.impl.LogHelperImpl - Finished file:/C:/fess-server/TESTFILE/autoshape_LV1.xlsx



2013/07/18 9:33、"monolith モノリス" <monyo****@hotma*****> のメッセージ:

やまです。
ご回答ありがとうございます。

バージョン下げる必要がないとのこと、了解いたしました。
コマンドについては御指摘点を見直してみます。

まずはログ確認してみます。
ありがとうございました。


2013/07/13 8:25、"Shinsuke Sugaya" <shins****@yahoo*****> のメッセージ:

菅谷です。

Fessに含まれるS2Robotのバージョンは
より高いものに差し替えるのは動くと思いますが
低いものに下げると動かないと思います。
また、0.5.1に入れてある修正はそれ以上の
バージョンには含まれているので、S2Robotの
バージョンを下げる必要はないと思います。

設定で気になるところは
     <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE >
$OUTPUT_FILE"</property>
のコマンド内の>が&gt;のような気もします。
あとは、ログをDEBUGで出力してみて確認など
するしかないかと思います。

よろしくお願いいたします。

shinsuke

2013年7月12日 23:47 monolith モノリス <monyo****@hotma*****>:
> お世話になっております。やまです。
> 
> お忙しいところ、ご回答ありがとうございます。
> 教えていただいた箇所よりダウンロードし、
> 0.5.7のjarを以下3つと差し換えました。
> 
> s2-robot-0.5.1.jar
> s2-robot-db-0.5.1.jar
> s2-robot-db-h2-0.5.1.jar
> 
> しかし、クロール時にインデックスが作成されず、
> fess.outに以下エラーが出力されました。(文字化けは無視してください)
> 
> Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
> Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)?????????????
>       at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137)
>       at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48)
>       at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41)
>       at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56)
>       at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43)
>       at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111)
>       at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129)
>       at org.seasar.robot.S2Robot.run(S2Robot.java:209)
>       at java.lang.Thread.run(Thread.java:722)
> WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
> WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
> 
> 
> s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、
> s2robot_db.diconの
>       <component name="robotThread" class="jp.sf.fess.robot.FessS2RobotThread" instance="prototype" >
>               <property name="noWaitOnFolder">true</property>
>       </component>
> を削除すると以下ログが出力されました。
> 
> Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
> Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)?????????????
>       at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165)
>       at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158)
>       at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62)
>       at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124)
>       at org.seasar.robot.S2Robot.run(S2Robot.java:209)
>       at java.lang.Thread.run(Thread.java:722)
> WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
> WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
> 
> 今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。
> 
> fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか?
> またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら
> 教えていただけないでしょうか。
> 
> お忙しいところ申し訳ありませんが宜しくお願い致します。
> 
> 以上
> 
> 
> 
> 2013/07/12 21:43、"Shinsuke Sugaya" <shins****@yahoo*****> のメッセージ:
> 
> 菅谷です。
> 
> SNAPSHOTバージョンのjarファイルは長期的に
> 管理していませんので
> http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/
> を利用していただければ良いかと思います。
> よろしくお願いいたします。
> 
> shinsuke
> 
> 
> 2013年7月8日 12:15 monolith モノリス <monyo****@hotma*****>:
>> お世話になっております。やまです。
>> 
>> S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、
>> テキスト抽出を検討しております。
>> (xdoc2txtがi filterを使用することで、xlsx形式の
>>   テキストボックス内文字列抽出が行えるためです。)
>> 
>> 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、
>> インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。
>> (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様)
>> 
>> [fess-user 452] Re: CommandExtractor 仕様について提案
>> http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html
>> 
>> トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した
>> S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、
>> 入手できませんでした。
>> 
>> 以下サイトに該当のjarは見つかりませんでした。
>> http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/
>> 
>> 
>> 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか?
>> また、その他必要な設定ありましたら教えて頂きたいです。
>> 宜しくお願い致します。
>> 
>> 
>> ■s2robot_extractor.diconの設定内容
>> <?xml version="1.0" encoding="UTF-8"?>
>> <!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN"
>>     "http://www.seasar.org/dtd/components24.dtd">
>> <components>
>> <component name="tikaExtractor" class="org.seasar.robot.extractor.impl.TikaExtractor"/>
>> 
>> <component name="officeCmdExtractor" class="org.seasar.robot.extractor.impl.CommandExtractor">
>>     <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE"</property>
>>     <property name="outputEncoding">"UTF-8"</property>
>>     <property name="outputExtension">".txt"</property>
>> </component>
>> <component name="extractorFactory" class="org.seasar.robot.extractor.ExtractorFactory">
>>     <initMethod name="addExtractor">
>>         <arg>{
>> "application/vnd.openxmlformats-officedocument.presentationml.presentation",
>> "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
>> "application/vnd.ms-excel.sheet.macroenabled.12",
>> "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
>> }</arg>
>>         <arg>officeCmdExtractor</arg>
>>     </initMethod>
>> </component>
>> </components>
>> 
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> 
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> 
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user

_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/fess-user

_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index