Yusuke TABATA
yusuk****@w5*****
2005年 9月 2日 (金) 21:30:00 JST
田畑です。 UTUMI Hirosi wrote: > anthy の辞書はファイルが多岐に分かれている上に > (gcanna.ctd, base.t, katakana.t, compound.t, extra.t, name.t) > Anthy形式/Canna形式/adjust.t/*.depword などがあるので、 > 誤変換が起きたときどの辞書に問題があるのか分かりづらいです。 これは確かに僕も苦労します。 > > 語句のダブり欠落を防いだり表記の統一を図るには > 一覧性が大事だと思います。また > 辞書編集ツールからすれば辞書形式が統一されていないと > 統合的に辞書を編集することができません。 でも、これについては編集ツールが複数の形式に対応する方が 簡単だと思います。 > カンマ区切りの CSV 形式にすると、 > 表計算ソフトで開く -> 頻度で並べ替え -> > 一定頻度以下の特殊な単語を削除 > ということができるかもしれません。 > (管腔 や 京濤 や 趣味語をまとめて削れる) > 私の環境で何万行も開けるかどうかは分かりませんが。:-) これはほとんど無理のようで、表計算ソフトもスクリプト言語の処理系も 普通のPCでは20万語も読み込むとまともな効率で作業ができません。 さらに単語数も増えて、属性も増えることが予想されるので、SQLサーバか 手書きの専用コードを使うしか無いという覚悟を固めつつある今日このごろ です。 誰か(徳永さんor僕or?)が何か使えるコードを書くのを気長に待ってください というのが現状です。 データのやりとりについては、 http://lists.sourceforge.jp/mailman/archives/anthy-dev/2005-August/002269.html で書いたとおり、cogitoというソースコード管理ツールが使えるのではないかと 見ています。