Re: 田畑さんの予想を gcanna.ctd に適用してみました (Anthy-dev 3430) - Anthy

大泉です。

ちょっと時間がかかってしまいましたが、

> 候補の並び替えについては今までどおりの情報が必要ですが、
> 文節区切りについては内部で並び替えて上位n%かどうかで分類します。
>
> このためには、内海さんがすでにやられているように全体での出現頻度に
> 比例した(正確には、順序を保存した)頻度情報があれば十分です。
> cannadicやalt-cannadicだと同音異義語内の頻度に重点がおかれているようなので
> 手元の実験ではあんまりいい結果になってません。
> (例文の数が少ないのに頻度別に二つの分布を作ったのが原因かもしれませんが)

ということでしたので、Yahoo!J での hit 数を元に、ザックリと頻度を変更して
みました。
http://vagus.up.seesaa.net/data/alt-cannadic_change_freq.tar.bz2

詳しいことは README に書きましたのでそちらを読んで頂きたいのですが、簡単に
言うと、「Yahoo!J で hit 数を調べ、その hit 数が何桁かでランク分けする」という
やり方です。

ランクは A-F の 6つで、例えば、「愛らしい」は「2720000件」で 7桁なのでランク
「C」、という感じです(「何桁だと何ランクか」は info.txt にあります)。

各ランクは gcanna.ctd を作成する時に freq.conf という定義ファイルを見て頻度の
数値に変換するようにしてあります。

今割合を見て見たところ、今回ランク分けを行った全 172,904 エントリ中

　A:  5%
　B: 16%(21%)
　C: 29%(50%)
　D: 23%(73%)
　E: 16%(89%)
　F:  9%(98%)

でした。(小数点以下切り捨て)

普通名詞をざっと眺めてみましたが、大体

　A : 非常に頻繁に使われる不可欠語
　B : 日常的によく使われる語
　C : 頻繁に使われるわけではないが、辞書には入っていて当然
　D : 時折使われるか、あまり使われない語
　E : あまりないしほとんど使われない語
　F : 文語や古語、専門用語など滅多に使われない語

こんな感じに分かれているようで、思っていたよりはずっと綺麗な結果だと
感じています。
ただし、README にも書きましたが、Yahoo! での hit 数がそもそも当てにならない
場合も多々あるので、一度全部を目で点検して修正しなければなりませんが。

その作業はこれから行いますが、一度この辞書でどんな感じになるか試してみて
頂けますでしょうか？

# 8706 で試してみたところでは、これまで誤変換を避けるために個別に頻度を
# 調節していたものがぶっ飛んだ分、むしろちょっと悪くなったかな、という感じ
# でした。
# 「言う」が「井生」になったり、「思う」が「重う」や「小間生」になったり、
# 文章は忘れてしまいましたが、「その一部|乎(を)|...」と文中に単漢字が出て
# きたりしました。
# 「井生」「重う」「小間生」についてはこれまでのように頻度(ランク)を下げ
# ます。

Anthy

[Anthy-dev 3430] Re: 田畑さんの予想を gcanna.ctd に適用してみました