[Anthy-dev 2342] anthy-dic: 形式の統一とファイル構成の簡素化

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2005年 9月 2日 (金) 15:15:37 JST


内海です。

anthy の辞書はファイルが多岐に分かれている上に
(gcanna.ctd, base.t, katakana.t, compound.t, extra.t, name.t)
Anthy形式/Canna形式/adjust.t/*.depword などがあるので、
誤変換が起きたときどの辞書に問題があるのか分かりづらいです。

語句のダブり欠落を防いだり表記の統一を図るには
一覧性が大事だと思います。また
辞書編集ツールからすれば辞書形式が統一されていないと
統合的に辞書を編集することができません。

*.depword はやむを得ないにしても、その他のファイルは
形式を揃えてひとつのファイルにまとまっているほうが
良いと思います。
辞書編集を多人数で行うための布石にもなります。

以前 田畑さんが変換エンジン間で辞書形式を統一するプロジェクトを
提唱されていたと思うのですが、Anthy だけでもその形式に
準拠できないでしょうか。

http://ukai.org/wiliki/wiliki.cgi?%BC%AD%BD%F1%B6%A6%C4%CC%B2%BD&l=jp
----------------------------------
たたき台 
tabata 案 
例:
<word name="雨" yomi="あめ">
  <entry>
    <pos>一般名詞</pos>
    <cclass>無活用</cclass>
    <freq>100</freq>
  </entry>
</word>
<!--
;name 見出し
;yomi 読み
;pos (Part Of Speech) 品詞
;cclass (Conjugate Class) 活用型
;freq (Frequency) 頻度
-->
----------------------------------

一語を複数行に分けて登録すると一覧性が落ちるので、
私は
----------------------------------
;見出し,読み,品詞,活用型,頻度
雨,あめ,無活用,100
----------------------------------
のような形が良いと思います。

カンマ区切りの CSV 形式にすると、
表計算ソフトで開く -> 頻度で並べ替え ->
一定頻度以下の特殊な単語を削除
ということができるかもしれません。
(管腔 や 京濤 や 趣味語をまとめて削れる)
私の環境で何万行も開けるかどうかは分かりませんが。:-)

また見出しで並べ替えて "御" で始まる語を "お" に
表記を統一することも易しいと思います。


__________________________________
 Take an action against poverty
 http://pr.mail.yahoo.co.jp/whiteband/




Anthy-dev メーリングリストの案内
Back to archive index