anthy-dic-toolと文字エンコーディング (Anthy-dev 3235) - Anthy

中本です。

もはや、anthy-dic-toolは使われていない気がしますが、文字エンコーディン
グ周りでとても怪しい挙動をするので報告(anthy-8317)。

問題1. anthy-dic-tool --dump すると「品詞 = 人名」などの文字列が化けて
       いる

これについては、明らかなバグだったのでパッチを添付しておきます。
(anthy-8317_dump_encoding.diff)

問題2. anthy-dic-tool --dump と anthy-dic-tool --dump --utf8では出力の
       結果が異なる

これは何も指定しないときには、
 encoding = ANTHY_EUC_JP_ENCODING
 prefix = "  "
となり、prefixが"  "のもののみしか検索せず、逆に --utf8 を指定すると
 encoding = ANTHY_UTF8_ENCODING
 prefix = "  p"
となり、prefixが" p"のもののみしか検索しないためdumpの結果が異なってい
るようです。

解決策としては、
 1. 指定された文字エンコーディングに関わらず2つのprefixに対して検索し、
    出力時に指定された文字エンコーディングに変換する
 2. 辞書内の文字エンコーディングはどちらかに統一する
 3. このまま仕様ということにする
がありますが、2つのエンコーディングをどうやって併用していくのかという
方針を知らないので保留しておきます。

p.s.
最近(というか昨日の深夜)、
http://bd.tank.jp/anthy_reading/index.html
こんなん書きました。
まずは辞書周りを改造しようかなとか思っています。これについては、また後
でメールを投げます。

-- 
 中本 崇志 (Takashi Nakamoto)
 E-mail: blued****@bpost*****
 Blog: http://bd.tank.jp/diary/

Anthy

[Anthy-dev 3235] anthy-dic-toolと文字エンコーディング