[Anthy-dev 2434] Re: anthyの開発TODO

Back to archive index

Yusuke TABATA yusuk****@w5*****
2005年 9月 25日 (日) 22:00:33 JST


田畑です。

まず、簡単な(a)と(d)と(b)に返事します。
>>(a)地名辞書の分離
> これは特に問題無いと思います。やってしまいましょう。
別のメールにも書いたとおり、やりました。

>>(d)形態素解析器の命名
>> 考えても決まらないのでanthy-morphological-analyzerにしてしまおうと
>> 思います。
> この名前を宣伝に使うわけでもないので、これでOKです。
その名前にして、src-util/に移動しました。
現時点ではコンパイルされるけど、インストールされないコマンドという
扱いです。

>>(b)接頭辞、接尾辞の指定方法の拡張
> (c)で
> (名詞あるいは名詞をクラスタリングしたもの)x(接頭辞、接尾辞)
> の行列を作ることで、なんとかならないでしょうか。
> 接頭辞、接尾辞の指定だけなら、接頭辞、接尾辞付きの単語をそのまま登録し
てしまえば良いので、
> この方式の肝は継承にあると思うのですが、あんまり再利用できる気がしない
んですよねぇ。

ここで念頭にあるのは地名の扱いで、ちょっと考えるだけで
「〜市」「〜町」「〜村」「〜人」「〜駅」「〜川」など色々あって
それをあらかじめ展開しておくのはもったいない気がしてました。
継承を実際に使うかどうかはわからないです。
一度、この形式で作っておけば、wordlist.cの中から接尾辞を検索する
時に使うだけではなく、その時の都合で
*辞書ファイルを適当なスクリプトに入力して、いままでの形式に
 展開した辞書を作る
*mkanthydicコマンド内でいままでの形式に展開する
*無視する
といった選択が可能です
;;展開について、
;;「おおさか #CN #<ふ*府 大阪」を展開すると
;;「おおさか #CN 大阪」と「おおさかふ #CNS 大阪府」の2語になる

確かに有用性が読めない面もあるので、とりあえず、
「mkanthydicでこの形式を展開できるようにしておく」ところまで
コードを書いてみようと思いますが、どうでしょうか?

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA




Anthy-dev メーリングリストの案内
Back to archive index