OSDN > 브라 우즈 소프트웨어 > Multimedia > Sound/Audio > Speech > galatea > Ticket List/Search > Ticket #19691

galatea
Fork
dialog-studio-java
dialog-project
facesynthesizer
chaone
dialog-studio-script

Ticket #19691
Ticket List Submit New Ticket RSS

ひらがなの　づ・ぁ・ぃ・ぅ・ぇ・ぉ　を読まないことがある

오픈 날짜: 2009-11-26 09:14 마지막 업데이트: 2009-11-27 11:27

monitor

Reporter:

nishimoto

소유자:

(None)

Type:

Bugs

Status:

Open

Component:

(None)

MileStone:

(None)

Priority:

5 - Medium

Severity:

5 - Medium

Resolution:

None

File:

None

Details

galatea-users より：

マーチンです。

重箱の隅をつつくような報告ばかりで申し訳ありません。

ひらがなの　づ・ぁ・ぃ・ぅ・ぇ・ぉ　を読まないことがあります。
どれも、使用頻度の少ない文字ばかりで、平仮名で使うことも
ほとんどないので、実用上問題となる場面は少ないでしょうけど。。。

じぇっとき
きゃびてぃ
づぼらや
ちぇっく

を

じっとき
きびて
ぼらや
ちぇく

と読み上げます。
「yomi is NOT katakana ... ぃ」
のようなメッセージが表示されています。

でも、これらをカタカナにすると、読んでくれます。

unidic-139 では、
ろけっと
も読まなかったけど、unidic-1312 ではＯＫでした。

galatea4win-istc-2009-02.zip
+　chaone-win-1.3.2-091118.zip
+　DATE: NO  TIME: NO
+　unidic-chasen1312_sjis
で確認しています。

Ticket History (2/2 Histories)

2009-11-26 09:14 Updated by: nishimoto

New Ticket "ひらがなの　づ・ぁ・ぃ・ぅ・ぇ・ぉ　を読まないことがある" created

2009-11-27 11:27 Updated by: nishimoto

댓글 올리기

山田さんより(galatea-users ML)：

ひらがな表記にすると，辞書にないため，未知語
になることが多いのですよね。
そして，unidicでは
 じぇっとき -> じ/ぇ*/っ/とき
 きゃびてぃ -> き/ゃ*/び/て/ぃ*
 づぼらや -> づ*/ぼら/や
 ちぇっく -> ちぇ/っ/く
のような解析結果 (*の部分が未知語) になり (な
かなかむちゃくちゃですが，*のついていない部分
は無理矢理何らかの語を割り当てています)，未知
語の発音が原形のままひらがなになっているので，

> 「yomi is NOT katakana ... ぃ」
> のようなメッセージが表示されています。

となって，gtalkに受け付けてもらえないようです
ね。では，単純に未知語の発音をカタカナにすれ
ばよいかというと，それである程度は救えるかな
とは思いますが，それでもだめな例が出てきそう
です。
後，「っ」に関しては未知語ではないのですが，
発音無しの補助記号という扱いなので，読み上げ
られていません (「じぇっとき」の「っ」も読み
上げられないように思うのですが，log.chasenの
解析結果はどうなっていますか?)。

> でも、これらをカタカナにすると、読んでくれます。

これはカタカナ表記の未知語は全体で一語にする
というchasenの仕様のおかげです。

> unidic-139 では、
> ろけっと
> も読まなかったけど、unidic-1312 ではＯＫでした。

たまたま，「ろけっと」は辞書に登録されていま
した。

とりあえず，時間ができたら，上に述べた「未知
語の発音でひらがなのものは強制的にカタカナに
変換する」という後処理を入れてみようと思いま
すが，これはあくまでも小手先の対応ですね。
ちなみにgtalkでは使えませんが，mecab版unidic
だとまた違った結果になります。
いずれにしても形態素解析をすると，ひらがなが
読めなくなるという妙な現象が起きるわけです。
ひらがな表記をきちんと解析できる辞書を作ると
いうのが一つの方法ではありますが，未知語問題
というのは決してなくならないので，あまり嬉し
くはありませんね。
というわけで，小手先ではない解決は今後の課題
ということにしておいてください。

Attachment File List

No attachments

galatea Forkdialog-studio-javadialog-projectfacesynthesizerchaonedialog-studio-script

Ticket #19691 Ticket List Submit New Ticket RSS

ひらがなの づ・ぁ・ぃ・ぅ・ぇ・ぉ を読まないことがある 오픈 날짜: 2009-11-26 09:14 마지막 업데이트: 2009-11-27 11:27 monitor ON OFF

Details Reply

Ticket History (2/2 Histories)

2009-11-26 09:14 Updated by: nishimoto

2009-11-27 11:27 Updated by: nishimoto

댓글 올리기 Reply

Attachment File List

Edit

galatea
Fork
dialog-studio-java
dialog-project
facesynthesizer
chaone
dialog-studio-script

Ticket #19691
Ticket List Submit New Ticket RSS

ひらがなの　づ・ぁ・ぃ・ぅ・ぇ・ぉ　を読まないことがある

오픈 날짜: 2009-11-26 09:14 마지막 업데이트: 2009-11-27 11:27

monitor

Details

댓글 올리기