[Anthy-dev 2375] Re: anthyの実験的機能

Back to archive index

Yusuke TABATA yusuk****@w5*****
2005年 9月 12日 (月) 23:19:33 JST


田畑です。

Yusuke TABATA wrote:
> anthyで実験的に実装中の機能を説明してみます。
> (1)疎行列
> (2)逆変換を利用して実現したchasen or kakasi的機能(形態素解析器)
形態素解析と行列のコードを使うと、色々なことができる可能性があって、
共起関係や自立語と付属語の接続の確率を扱うぐらいはやるのかなという
感じですが、もうすこし漠然としたアイデアを説明しておきます。

anthyでも使っているcanna辞書の形式の場合、単語に属性をつける
機能がなくて、「〜駅」とか「〜郡」のようなものが付く単語の扱いの
ポリシーが一貫していないという問題があります。

anthyに疎行列のコードを付けたので、一応、変換エンジン側では
次のような行列を構成して対応することが可能となりました。

      郡 市 町 区
城崎   1  1  1  0
中原   0  0  0  1
大阪   0  1  0  0

データをどうやって作るかという大きな問題は依然として残っていますが、
とりあえず一歩前進といった感じです。

似た話として、単語にクラスを付けて継承を行ないたいなんて話もありますが、
これも一応、可能です。
       親クラス1  在住  食い競争 知事 府
*地名     0          1       0    0   0
*食べ物   0          0       1    0   0
*都道府県 *地名      0       0    1   0
*府       *都道府県  0       0    0   1
大阪      *府        0       0    0   0
パン      *食べ物    0       0    0   0
蛍光灯    0          0       0    0   0
(*で始まるのがクラス)

こんなふうに、親クラスのidを入れる列を作り、クラスを適当な
行に対応させ、どの行を指しているかを入れれば継承関係も扱えます。
この場合、
大阪 < 府 < 都道府県 < 地名
といった継承関係になります。

こういう手の込んだことする前に色々やることはあるのですが
#形態素解析器の名前を決めるとか ;)
とりあえずということで書いてみました。

--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index