Ticket #21388

CreateCorpusでの自動判定の改良

오픈 날짜: 2010-04-12 21:43 마지막 업데이트: 2010-04-12 21:43

Reporter:
소유자:
(None)
Status:
Open
Component:
(None)
MileStone:
(None)
Priority:
6
Severity:
5 - Medium
Resolution:
None
File:
None

Details

ディレクトリを指定してのインポートもほぼ問題はないのですが、Input Typeを指定せずにAutoにしておくと、 ディレクトリに含まれるファイルのいくつかでInput Typeの判定が失敗し、最後に謎のエラーとして 表れることがありました。

このエラーは、一文が長すぎたために最初の100行を読んだだけではEOSを検出できず、 フォーマット判定に失敗してPlainTextReaderが使われたのが原因でした。 白書ではCaboChaフォーマットで500行を超える文もあるので、フォーマット判定のために読む行数を 多めにすることと、このエラーの原因をわかりやすく(各Readerの使用回数を最後に表示するなど) していただけるとありがたいです。

Ticket History (1/1 Histories)

2010-04-12 21:43 Updated by: tomorita
  • New Ticket "CreateCorpusでの自動判定の改良" created

Attachment File List

No attachments

Edit

Please login to add comment to this ticket » Login