NOKUBI Takatsugu
knok****@daion*****
2006年 5月 9日 (火) 08:38:50 JST
At Tue, 9 May 2006 02:29:08 +0900, Taku Kudo wrote: > mecab-tool -b -i foo.txt -o foo > > としてバイナリに変換すればそのまま辞書作成のモデルになります。 バイナリへの変換自体はたいしてメモリを必要としないようですね。なんと か実現できました。どうもありがとうございます。 できあがった辞書を評価してみました。 precision recall F LEVEL 2: 85.7621(1866527/2176401) 84.3684(1866527/2212353) 85.0595 precision recall F LEVEL ALL: 76.0847(1655908/2176401) 74.8483(1655908/2212353) 75.4614 mecab-system-eval出力の読み方なのですが、ソースを見たところ数値はパー セントだと理解しました。precisionは正確性についてだと思うのですが、 recallの値が何を意味しているのかはちょっとよくわかりません(想起の正し さ?)。 素性はせいぜい2-3ぐらいしか使っていないので、2でみる限りはまあそこそ この精度がでているように見えます。 実データをみてみると、単語が同じで読み方や素性が異なるものが選択され ることがままあるようです。とはいえ、自分の用途ではそれほど大きな問題で はないので、実用にはなりそうな感じです。 > はい。もし余裕があるのでしたら、重複を許しつつランダムにサンプリングして、最後にマージするといい結果が得られるかもしれません。 このあたりにも挑戦して、どれくらい精度が向上するか試してみようと思い ます。 -- 野首 貴嗣 E-mail: knok****@daion***** knok****@namaz***** / knok****@debia*****