Takashi Nakamoto
blued****@openo*****
2006年 11月 23日 (木) 11:18:26 JST
中本です。 もはや、anthy-dic-toolは使われていない気がしますが、文字エンコーディン グ周りでとても怪しい挙動をするので報告(anthy-8317)。 問題1. anthy-dic-tool --dump すると「品詞 = 人名」などの文字列が化けて いる これについては、明らかなバグだったのでパッチを添付しておきます。 (anthy-8317_dump_encoding.diff) 問題2. anthy-dic-tool --dump と anthy-dic-tool --dump --utf8では出力の 結果が異なる これは何も指定しないときには、 encoding = ANTHY_EUC_JP_ENCODING prefix = " " となり、prefixが" "のもののみしか検索せず、逆に --utf8 を指定すると encoding = ANTHY_UTF8_ENCODING prefix = " p" となり、prefixが" p"のもののみしか検索しないためdumpの結果が異なってい るようです。 解決策としては、 1. 指定された文字エンコーディングに関わらず2つのprefixに対して検索し、 出力時に指定された文字エンコーディングに変換する 2. 辞書内の文字エンコーディングはどちらかに統一する 3. このまま仕様ということにする がありますが、2つのエンコーディングをどうやって併用していくのかという 方針を知らないので保留しておきます。 p.s. 最近(というか昨日の深夜)、 http://bd.tank.jp/anthy_reading/index.html こんなん書きました。 まずは辞書周りを改造しようかなとか思っています。これについては、また後 でメールを投げます。 -- 中本 崇志 (Takashi Nakamoto) E-mail: blued****@bpost***** Blog: http://bd.tank.jp/diary/