山田さんより(galatea-users ML):
ひらがな表記にすると,辞書にないため,未知語 になることが多いのですよね。 そして,unidicでは じぇっとき -> じ/ぇ*/っ/とき きゃびてぃ -> き/ゃ*/び/て/ぃ* づぼらや -> づ*/ぼら/や ちぇっく -> ちぇ/っ/く のような解析結果 (*の部分が未知語) になり (な かなかむちゃくちゃですが,*のついていない部分 は無理矢理何らかの語を割り当てています),未知 語の発音が原形のままひらがなになっているので, > 「yomi is NOT katakana ... ぃ」 > のようなメッセージが表示されています。 となって,gtalkに受け付けてもらえないようです ね。では,単純に未知語の発音をカタカナにすれ ばよいかというと,それである程度は救えるかな とは思いますが,それでもだめな例が出てきそう です。 後,「っ」に関しては未知語ではないのですが, 発音無しの補助記号という扱いなので,読み上げ られていません (「じぇっとき」の「っ」も読み 上げられないように思うのですが,log.chasenの 解析結果はどうなっていますか?)。 > でも、これらをカタカナにすると、読んでくれます。 これはカタカナ表記の未知語は全体で一語にする というchasenの仕様のおかげです。 > unidic-139 では、 > ろけっと > も読まなかったけど、unidic-1312 ではOKでした。 たまたま,「ろけっと」は辞書に登録されていま した。 とりあえず,時間ができたら,上に述べた「未知 語の発音でひらがなのものは強制的にカタカナに 変換する」という後処理を入れてみようと思いま すが,これはあくまでも小手先の対応ですね。 ちなみにgtalkでは使えませんが,mecab版unidic だとまた違った結果になります。 いずれにしても形態素解析をすると,ひらがなが 読めなくなるという妙な現象が起きるわけです。 ひらがな表記をきちんと解析できる辞書を作ると いうのが一つの方法ではありますが,未知語問題 というのは決してなくならないので,あまり嬉し くはありませんね。 というわけで,小手先ではない解決は今後の課題 ということにしておいてください。
galatea-users より: