[Anthy-dev 3791] feature/alt-depgraph-new: calctrans/divide.sh

Back to archive index

NIIBE Yutaka gniib****@fsij*****
2010年 6月 22日 (火) 18:12:57 JST


大泉様:

alt-depgraph-new の変更のうち、divide.sh の変更について。

この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、
これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正
しいでしょうか。

この変更がいいのかどうか、判断がつかないので教えてください。

これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結
びつきでも加点される。... ということだと思うのですが、ここでやりたい処
理は、コーパスとして加点(だけ)ではないのでしょうか。

	|あたらしい|あさが|きた| |新しい|朝が|来た|

と例示があったときに、この並びでこの変換を期待しましょう、ということで
すよね。個々の分節でも加点し、二つの文節の結びつきでも加点すれば、結果
として、

	|新しい|朝が|来た|

は多分、出やすくなるでしょう。でも他がでにくくなるという影響もあります
よね。長いこの文だとこの並びだけど、短いこの文だとこっちでしょ、という
ケースはないかしらん。

自動で全部当てはめることではないのではないかなぁ、と感じます。

また、もしすべてに当てはめるのであれば、proccorpus の処理を変更するとい
うやり方もあるかなぁ、と考えました。
-- 




Anthy-dev メーリングリストの案内
Back to archive index