Shimpei Makimoto
smaki****@gmail*****
2010年 7月 27日 (火) 05:31:03 JST
浅原さん、 牧本です。横から失礼します。 わたしも以前 naist-jdic を使っていて語彙が抜けているように感じたことがあって 何が抜けているのか調べたことがありました。 記憶している限り、 無向、季節、奇怪 などの比較的頻度が高そうな語彙が登録されていないようです。 簡単に作れるものではありますが、 IPADIC にはあって naist-jdic にはないエントリのリストが手元にあるのでシェアいたします。 総数で 1,300 件程度で、このうち漢字熟語の部分だけでも精査すれば ある程度抜けている語彙を拾えるのではないかと思います。 http://makimoto.tsuyabu.in/ipadic_minus_naistjdic.txt よろしくおねがいします。 2010/7/27 Taku Kudo <taku****@chase*****>: > 工藤です > > 以前naist-jdicを試したのですが、基本的な語彙がポロポロ抜け落ちていて > 使いにくい印象をもちました。どの語彙が落ちていたのかをメモっておけばよかったのですが… > > この点も修正していただけると大変助かります。 > > どうぞよろしくお願いします > > 工藤 > > 2010年7月23日10:45 Masayuki Asahara <masay****@is*****>: >> 光石様、 >> 浅原です。 >> >> どうもありがとうございます。 >> >> 当該エントリは IPADICから NAIST-jdic への移行作業の際に >> 表記ゆれを展開する作業で登録されたものです。 >> この作業では自動的に異表記を展開した上で大規模コーパスで頻度の高いものを >> 人手で妥当性をみながら(この表記も利用されうるかどうか)を判定しながら登録 >> しました。 >> >> その際に作業者には頻度情報のみを提示して用例をみていたわけではないために >> 「考え*る次*のような」 >> のような、正しい分かち書きでない用例についてもカウントしておりました。 >> >> 他の「る述」「る報」も含めて、適切な双方の用例を集めてみて、 >> CRF のモデルできちんと識別できそうであれば残す >> そうでないならば削除する >> という方針をとりたいと思います。 >> >> 夏休み中、この作業(他のエントリのチェックも含む)に人的資源を >> 割り当てたいと思いますので、少しお時間をください。 >> >> >>> 浅原様、 >>> >>> 光石と申します。 >>> >>> # すみません。個人宛に送ってしまいましたので、ML 宛に再送します。 >>> >>> 下記の理由で削除の必要はないのではないかと思います。 >>> >>> 辞書の抜粋を示しますが、「る次」は「屡次」の「屡」をひらがなで書いた >>> エントリのようです (「grep ,ルジ,」して見つけました)。 >>> >>> 屡次,1394,1394,1760,名詞,副詞可能,*,*,*,*,屡次,ルジ,ルジ,, >>> る次,1394,1394,687,名詞,副詞可能,*,*,*,*,る次,ルジ,ルジ,, >>> >>> 「屡」を「る」と書く例は他にも見られます。 >>> >>> 屡述,1356,1356,1896,名詞,サ変接続,*,*,*,*,屡述,ルジュツ,ルジュツ,, >>> る述,1356,1356,765,名詞,サ変接続,*,*,*,*,る述,ルジュツ,ルジュツ,, >>> 屡報,1356,1356,1896,名詞,サ変接続,*,*,*,*,屡報,ルホウ,ルホー,, >>> る報,1356,1356,765,名詞,サ変接続,*,*,*,*,る報,ルホウ,ルホー,, >>> >>> 以上、よろしくお願い致します。 >>> >>> >>> Date: Fri, 23 Jul 2010 09:19:51 +0900 >>> From: Masayuki Asahara <masay****@is*****> >>> >>> >>>> 奈良先端大の浅原です。 >>>> >>>> 当該エントリを辞書データベースから削除いたしました。 >>>> 次期リリースで反映いたします。 >>>> >>>> どうもありがとうございました。 >>>> >>>> >>>>> きしもとと申します >>>>> >>>>> naist-jdic でのことなのですが、naist-jdic のコミュニティといったものが >>>>> わからないので、こちらに質問させていただきます。 >>>>> >>>>> mecab-naist-jdic-0.6.2-20100208 に、次のようなエントリがあります。 >>>>> >>>>> る次,1394,1394,687,名詞,副詞可能,*,*,*,*,る次,ルジ,ルジ,, >>>>> >>>>> どういう言葉なのか、ちょっと用例とか思いつかないのですが、わかる方おられます >>>>> でしょうか? >>>>> -- Shimpei Makimoto <smaki****@gmail*****>