[Anthy-dev 2446] Re: anthyの開発TODO

Back to archive index

Yusuke TABATA yusuk****@w5*****
2005年 9月 26日 (月) 23:42:02 JST


田畑です。

Yuichi Yoshida wrote:
>>ここで念頭にあるのは地名の扱いで、ちょっと考えるだけで
>>「〜市」「〜町」「〜村」「〜人」「〜駅」「〜川」など色々あって
>>それをあらかじめ展開しておくのはもったいない気がしてました。
>>継承を実際に使うかどうかはわからないです。

> えと、もったいないというのは作業量的にということですか?
説明不足ですいません。辞書作成の時に人間が持っている知識が
失われてしまうのがもったいないというつもりでした。
ソートされた辞書ファイルを見ればわかるような気もしますが、
「大阪、大阪府、大阪市、大阪弁、大阪城、大阪人、大阪駅…」
と同系統の単語だったものがバラバラになっているのをなんとか
整理できないかなと思ってました。

とりあえず、手作業で地名を「〜」「〜市」「〜駅」ぐらいで
増殖させてみてから再提案することにします。
#だれかgoogleに聞きまくるスクリプトとか書きませんか?

> それより接頭辞、接尾辞に関して言うと「祖業+列」や「いろいろ+あり|鱒」
> (+が接尾辞、接頭辞の接続、|が文節区切り)
> のような変換の方が問題だと思っています。
> これを防ぐ手段の方を先に考えたいのですが、
> 今のところ名詞x(接頭辞、接尾辞)の行列を
> 生成することぐらいしか思い付いていません。
> でも流石にこれはノイズが混じりすぎて使えないような気が直感的にはしています。
> 何か良い方法を思い付ければ良いのですが…。
ようやく、コーパスを使って正しそうなパターンのスコアを上げる方向で
やるという正攻法のための道具(疎行列と形態素解析)を手に入れたので、
しばらくはそっちに集中して、なんらかの改善が見られることを期待したい
と思いますが、どうなることやら…

地名と人名以外は接頭辞、接尾辞付きの単語を登録していって、
合成した候補の優先順位を下げていくのがベタですかねえ。
-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index