Re: anthy-dic: 形式の統一とファイル構成の簡素化 (Anthy-dev 2346) - Anthy

田畑です。

UTUMI Hirosi wrote:
> anthy の辞書はファイルが多岐に分かれている上に
> (gcanna.ctd, base.t, katakana.t, compound.t, extra.t, name.t)
> Anthy形式/Canna形式/adjust.t/*.depword などがあるので、
> 誤変換が起きたときどの辞書に問題があるのか分かりづらいです。
これは確かに僕も苦労します。

> 
> 語句のダブり欠落を防いだり表記の統一を図るには
> 一覧性が大事だと思います。また
> 辞書編集ツールからすれば辞書形式が統一されていないと
> 統合的に辞書を編集することができません。
でも、これについては編集ツールが複数の形式に対応する方が
簡単だと思います。

> カンマ区切りの CSV 形式にすると、
> 表計算ソフトで開く -> 頻度で並べ替え ->
> 一定頻度以下の特殊な単語を削除
> ということができるかもしれません。
> (管腔 や 京濤 や 趣味語をまとめて削れる)
> 私の環境で何万行も開けるかどうかは分かりませんが。:-)
これはほとんど無理のようで、表計算ソフトもスクリプト言語の処理系も
普通のPCでは20万語も読み込むとまともな効率で作業ができません。
さらに単語数も増えて、属性も増えることが予想されるので、SQLサーバか
手書きの専用コードを使うしか無いという覚悟を固めつつある今日このごろ
です。
誰か(徳永さんor僕or?)が何か使えるコードを書くのを気長に待ってください
というのが現状です。

データのやりとりについては、
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2005-August/002269.html
で書いたとおり、cogitoというソースコード管理ツールが使えるのではないかと
見ています。

Anthy

[Anthy-dev 2346] Re: anthy-dic: 形式の統一とファイル構成の簡素化