Jun Oizumi
vagus****@gmail*****
2010年 6月 23日 (水) 00:48:03 JST
大泉です。 見て頂き、ありがとうございます。 2010/6/22 NIIBE Yutaka : > この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、 > これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正 > しいでしょうか。 はい。 > これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結 > びつきでも加点される。... ということだと思うのですが、ここでやりたい処 > 理は、コーパスとして加点(だけ)ではないのでしょうか。 ええと、まず、 > |新しい|朝が|来た| は、proccorpus 処理時(でいいのかな?)には <文頭>|新しい|朝が|来た|<文末> として処理され、各文節に対して、前後2文節との情報(共起確率?)が計算されるそうです (G-HAL 氏の解説を読んだ自分の理解では(^^; )。 つまり、この例では、「朝(が)」は、「<文頭>」「新し(い)」「来(た)」「<文末>」の4つに対する 情報を得ている(らしい)。 それで、divide.sh はこのうちの ・普通の語だけでなく、<文頭>、<文末> という特殊文節(?) に対しても計算される という点に着目して行ってみている実験です。 おおまかに説明すると、 ・「しんぱいでしょうね」「かんどうでしょうね」が「心肺でしょうね」「完動でしょうね」 とかになった(辞書では「心配」「感動」が先頭) ↓ ・現在の anhty はコーパスから計算した値に従って、辞書での並び順をバンバン ひっくり返す(それ自体は別に間違ったことではないと思うが、不適切にひっくり返す のは頂けない) ↓ ・ 「心配でしょうね」「感動でしょうね」が例文にないために正しく候補選択できて いないのではないか? 正しい変換が何か分からないから、単純に「最もありそうな品詞コードのもの」を 先頭に出してるだけではないか ↓ ・試しに、「心配でしょうね」「感動でしょうね」を例文に登録してみたら、正しく出せる ようになった。 ↓ ・恐らく、既存の例文に1~2文節のものが少なくて、 <文頭>|文節|<文末> <文頭>|文節|文節|<文末> みたいな場合に、候補をどう並べていいか分からないからだろう ↓ ・手っ取り早く試してみるために、既存の例文を分割してやろう というのが思考の流れです。 ただ、そもそも前提となっている理解(「普通の語だけでなく、<文頭>、<文末> という 特殊文節(?) に対しても計算される」)が合ってるいるか自信がないですし、合っていたと しても、「手っ取り早く試す」ための手抜き実験なので、こんなことをしなくても正しく変換 できるようになるなら、ない方がいいと思います。 「何をやりたかったのか」をご理解頂ければ、私としてはそれで十分です。 Ubuntu PPA 版に入っている 18-anthy-dimension-tweak-orig.dpatch は http://blog.goo.ne.jp/ikunya/e/6425242f371b3b8dec50683d56b592d9 > ・候補の選択をいじるパッチ(だったかな?) だそうですので、もしこれを当てれば候補選択がまともになるのなら、divide.sh は 不要だと思っているのですが、現在 compound.t のマージ作業で手一杯で時間が 取れず、試せてません…