Yusuke TABATA
yusuk****@w5*****
2005年 9月 25日 (日) 22:00:33 JST
田畑です。 まず、簡単な(a)と(d)と(b)に返事します。 >>(a)地名辞書の分離 > これは特に問題無いと思います。やってしまいましょう。 別のメールにも書いたとおり、やりました。 >>(d)形態素解析器の命名 >> 考えても決まらないのでanthy-morphological-analyzerにしてしまおうと >> 思います。 > この名前を宣伝に使うわけでもないので、これでOKです。 その名前にして、src-util/に移動しました。 現時点ではコンパイルされるけど、インストールされないコマンドという 扱いです。 >>(b)接頭辞、接尾辞の指定方法の拡張 > (c)で > (名詞あるいは名詞をクラスタリングしたもの)x(接頭辞、接尾辞) > の行列を作ることで、なんとかならないでしょうか。 > 接頭辞、接尾辞の指定だけなら、接頭辞、接尾辞付きの単語をそのまま登録し てしまえば良いので、 > この方式の肝は継承にあると思うのですが、あんまり再利用できる気がしない んですよねぇ。 ここで念頭にあるのは地名の扱いで、ちょっと考えるだけで 「〜市」「〜町」「〜村」「〜人」「〜駅」「〜川」など色々あって それをあらかじめ展開しておくのはもったいない気がしてました。 継承を実際に使うかどうかはわからないです。 一度、この形式で作っておけば、wordlist.cの中から接尾辞を検索する 時に使うだけではなく、その時の都合で *辞書ファイルを適当なスクリプトに入力して、いままでの形式に 展開した辞書を作る *mkanthydicコマンド内でいままでの形式に展開する *無視する といった選択が可能です ;;展開について、 ;;「おおさか #CN #<ふ*府 大阪」を展開すると ;;「おおさか #CN 大阪」と「おおさかふ #CNS 大阪府」の2語になる 確かに有用性が読めない面もあるので、とりあえず、 「mkanthydicでこの形式を展開できるようにしておく」ところまで コードを書いてみようと思いますが、どうでしょうか? -- -- CHAOS AND CHANCE! Yusuke TABATA