NIIBE Yutaka
gniib****@fsij*****
2010年 6月 22日 (火) 18:12:57 JST
大泉様: alt-depgraph-new の変更のうち、divide.sh の変更について。 この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、 これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正 しいでしょうか。 この変更がいいのかどうか、判断がつかないので教えてください。 これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結 びつきでも加点される。... ということだと思うのですが、ここでやりたい処 理は、コーパスとして加点(だけ)ではないのでしょうか。 |あたらしい|あさが|きた| |新しい|朝が|来た| と例示があったときに、この並びでこの変換を期待しましょう、ということで すよね。個々の分節でも加点し、二つの文節の結びつきでも加点すれば、結果 として、 |新しい|朝が|来た| は多分、出やすくなるでしょう。でも他がでにくくなるという影響もあります よね。長いこの文だとこの並びだけど、短いこの文だとこっちでしょ、という ケースはないかしらん。 自動で全部当てはめることではないのではないかなぁ、と感じます。 また、もしすべてに当てはめるのであれば、proccorpus の処理を変更するとい うやり方もあるかなぁ、と考えました。 --