Taku Kudo
taku****@chase*****
2006年 7月 10日 (月) 00:43:05 JST
くどうです mecab 0.92 を公開しました。http://mecab.sourceforege.jp/ 新しい辞書, mecab-ipadic-2.7.0-20060707 も同時公開しています。 バイナリ辞書とテキスト辞書のフォーマットを変更しています。 新しい辞書をダウンロードして辞書をリコンパイルしてください。 大きな変更点は Perl との決別です。0.91 までは辞書のコンパイルなど 一部のコードが Perl で実装されていましたが、今回すべて C++ で再実装し てだいぶすっきりしました。 辞書のコンパイルなんかは数秒で終わります。 十分テストしていませんが、windows の素の環境でも CRF を使った学習ができます。 さらに、ライセンスがGPL/LGPL/BSDのトリプルライセンスに変更になりました。 * ライセンスを LGPL から GPL, LGPL, BSDスタイルライセンスの トリプルライセンスに変更 * 辞書コンパイラ等, 一部Perlで実装されていたコードをC++で再実装. Perlへの依存性の排除 * 辞書コンパイラ (mecab-dict-index) の高速化 * rewrite.def のシンタックスの変更 * -x "未知語品詞" オプションの追加: 未知語推定を行わず, ユーザが指定した "未知語品詞" を出力 * 品詞 id のサポート * 文字種情報が一部学習できていなかったバグの修正 * 学習の際, 頻度による足切りができていなかったバグの修正 * その他細いバグの修正 mecab 0.93 では HMM を使った未知データからの学習を実装したいと思います。 これができれば、wikipedia から自動辞書作成ができるかもしれません。 -- taku