[Anthy-dev 3535] Yahoo の形態素解析サービスを利用した辞書構築の試み

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2007年 7月 24日 (火) 22:12:31 JST


内海です。

Anthy と直接関わる話ではありませんし、すでに知っておられるかたが
多いと思いますが、興味深い記事がありましたのでお知らせします。

mecab 作者の工藤さんが、Yahoo の形態素解析サービスを利用して
mecab 用の新しい辞書を自動構築する試みをなさっています。
この辞書を利用すると Yahoo に近い解析結果を得られるそうです。
http://chasen.org/~taku/blog/archives/2007/06/yahoomecab.html
ただし解析の結果得られた辞書についてはライセンスの問題が生じるとのこと。
(本当に問題が生じるかは確認していません)

mecab + ipadic の解析結果については「複合語が取れにくい」という
問題のほか、Yahoo との比較で
http://d.hatena.ne.jp/sfujiwara/20070619/1182259494
> ・MeCab は連続する全角数字や、"0.25" "4,000" のような表記を
>   バラバラにしてしまう
> ・Yahoo は複合語 ([研究][会] vs [研究会]) を重視するみたい
> ・Yahoo のほうが辞書の単語が多いんだろうな
のような点が指摘されています。
Yahoo ベースの辞書を使うとこれらの点が解消されるかもしれません。

この解析結果を使って cannadic を自動構築すると、
私が以前行ったものより適切な辞書が作れるかなと思っています。
(もう私が作ることはしばらく無いと思いますが)

なお、「mecab を使うと1つの単語から1つの読みしか得られない」という
点は、mecab-0.96 で解消されています。
$ mecab -N2
// -N の後の数字は解析結果の数
// http://mecab.sourceforge.net/#nbest

宏一くんが家に来た。
//
宏一 名詞,固有名詞,人名,名,*,*,宏一,ヒロカズ,ヒロカズ
(snip)
EOS
宏一 名詞,固有名詞,人名,名,*,*,宏一,コウイチ,コーイチ
(snip)
EOS
//

「ヒロカズ」と「コウイチ」という読みが取れています。
--------------------------------------
Easy + Joy + Powerful = Yahoo! Bookmarks x Toolbar
http://pr.mail.yahoo.co.jp/toolbar/




Anthy-dev メーリングリストの案内
Back to archive index