Re: scim-anthy: 辞書のエンコーディングにUTF-8を追加 (Scim-imengine-dev 1498) - SCIM IMEngine

足永です。

On Fri, 23 Mar 2007 01:56:11 +0900
Takashi Nakamoto <blued****@bpost*****> wrote:

> ちょっと混乱していると思います。
> 私もついさっきまで混乱していたので、整理してみました。

> 1.のanthy_context_set_encoding()では scim-anthy と Anthy の間での文字
> 列のやりとりにおける文字エンコーディングを設定するのであって、別に辞書
> のエンコーディングを変更するためのものではないです。つまり、足永さんの
> 言う「辞書のエンコーディング」っていうのは正確な言い方ではないかと。

とりあえずこのネーミングと、本質的に問題のレイヤが異なる「EUC-JP-MS」を
一緒の設定にしちゃっているのは混乱の元というか、まずいとは思っています。
(ユーザーにどう見せるのか、そもそも見せるべきなのかどうかという点では混
乱と言うより迷っています。)

ただとりあえず今回の私の要求としてはシンプルで、

 * 最近のAnthyの個人辞書はUTF-8化されている
 * どっちにしてもIMフレームワークやGUIツールキットとのやりとりは
   Unicodeになってしまうのが実状、
 * UTF-8 <-> EUC-JPは完全に可逆ではない

ので、少なくともフロントエンド側を全てUTF-8スルーでいけるようにし、変換
のタイミングをフロントエンド <->Anthyの部分(1と3)に限定する選択肢を付け
ておきたいということです。

ですので

> さて、今のところの目に見える問題は 2. における文字列のやり取りにおいて
> です。Kasumi がコマンドライン引数で受け付ける文字列は EUC-JP でエンコー
> ドされたものだと仮定しているにもかかわらず、scim-anthyの設定によっては、
> UTF-8 エンコードされた文字列が渡されることです。つまり、ついさっき足永
> さんがコミットした scim-anthy の設定で「辞書のエンコーディグ」を UTF-8
> にして、なんらかの文字列をプリエディット中にF11キーを押すと、文字化け
> した文字列が Kasumi に読みとして渡されてしまうのです。
> 
> だから、 scim-anthy から Kasumi に渡す文字列は EUC-JP に固定するように
> しておきます。これは1行変更するだけなので、このメールを送信した後で変
> 更しておきます。

anthy-dic-toolのように--utf8オプションが欲しいというのが私の希望です。
また、コマンドラインオプションのようにユーザーに露出している部分のイン
ターフェースでは、 EUC-JPかUTF-8どちらかに固定すべきではなく、両方サポー
トすべきと思います。

SCIM IMEngine

[Scim-imengine-dev 1498] Re: scim-anthy: 辞書のエンコーディングにUTF-8を追加