Re: cannadic 改変版をアップロードしました (Scim-imengine-dev 866) - SCIM IMEngine

kiyokaです。
皆様、まじめまして Sumibiを作っているkiyokaというものです。

内海さん解説有難うございます。
内海さんの解説に一部補足させて頂きます。
;; cannadicに直接関係無くてすいません。

> これに対して Sumibi辞書では次のように辞書の生成を行います。
> 1. 標準的な文体で書かれたテキストファイルを用意する。
> 2. テキストファイルに対して SKKdic の L辞書の単語を当てはめていく。
> 3. 単語と単語の結び付き(共起関係)を抽出する

上記 2. について補足です。
L辞書の単語をMySQLのデータベースに一旦読みこみ初期のSumibi辞書とします
が、コーパスを読み込んで発見した、平仮名だけで構成される語 ( 例えば
『はてな』等 ) や カタカナだけで構成される語( 例えば『セレブ』等 )を見
つけるとそれも辞書に加えます。つまり、流行言葉もどんどん勝手に覚えて行
くわけです。

> cannadic を用いたかな漢字変換を
> 品詞と頻度を元に文章を作り上げる "創造的変換" とすれば、
> sumibi辞書 を用いた変換は
> 抽象化した文章データを元にした "復元的変換" と言えるように思います。
> 
> sumibi辞書の良いところは、人間が手動で編集する必要がないところです。
> 恣意性が混入しない。
> "標準的な文体で書かれたテキストファイル" を変更すれば
> 音楽関係に強い辞書や口語関係に強い辞書を生成することもできる。

このあたりは本当にそうですね、僕は変換エンジンをつくってみたかったけど、
辞書をメンテする体力は自分にはないなと見切っていたのでこのアプローチに
なりました。これはいまでも正解だったと思います。但し、辞書の正確性は確
保できないので言葉の正確性を求める職業の方には使って頂けないと思ってい
ます。

> この仕組みは日本語に特化したものではないので、
> 中国語の L辞書のようなものがあれば、中国語でも利用できることでしょう。

そうですね、僕に中国語や韓国語の知識があればやってみたいと思っていまし
たが僕には無理ですね。
Sumibiは仕組みが簡単なので中国語版や韓国語版を一から作るのもそんなに難
しくないと思います。

> Sumibi の small 辞書を昨年末に kiyoka さんが公開なさっています。
> http://lists.sourceforge.jp/mailman/archives/sumibi-dev/2005-December/000260.html
> http://www.sumibi.org/sumibi/sumi.html
> 圧縮状態で 48 MB ですから(解凍すると 213 MB)、
> ぎりぎりディストリビューションに載せられるかもしれません。
> (頻度の低い共起関係を削れば、もっと小さくなるのかも)

確かにディストリビューションに入れるとなると大きいですね。
ディストリビューションに載せる方向と公開Sumibi変換サーバーを沢山用意す
るという方向も考えられると思います。この辺はうまいアイデアがあれば良い
のですが…
+---
 Kiyoka Nishiyama <kiyok****@netfo*****>
 http://www.netfort.gr.jp/~kiyoka/
 世界の果てから漢字変換 http://www.sumibi.org/

SCIM IMEngine

[Scim-imengine-dev 866] Re: cannadic 改変版をアップロードしました