Re: 重複符号化文字 (LE-talk-ja 238) - Legacy Encoding Project

成瀬です。

Nozomi Ytow wrote:
> "NARUSE, Yui" <narus****@airem*****> wrote:
>> 確かに由来はそうですし、語義もそうですが、
>> XMLにおけるencodingと同じものと理解しています。
> 
> 「XML の encoding 属性と同じ」という理解がどうして
> 「CP932 というのはある文字集合と Unicode との対応表」
> という理解になるのかわかりませんが、コードページの語義が
> 対応表でないなら、対応表だという理解を根拠とされても...

Codepageそれぞれの定義が、Unicode との対応関係によって、
定義されているという趣旨です。
例えば、CP932 の定義は
http://www.microsoft.com/globaldev/reference/dbcs/932.mspx
にありますが、Unicodeとの対応で定義されていますよね。

「CP932 というのはある文字集合と Unicode との対応表」
という表現に語弊があるならば、
* Unicodeとの対応によって定義された文字集合
や
* Unicode の サブセット
でしょうか。

> 仮に libiconv が「区別するUnicodeに変換」することを許すなら、
> それはもはや内部コードではないでしょう。

ですよね。

>>>> Unicode へのコンバータ作るだけで実装自体は終わりますね。
>>> では iconv が今回対象の文字コードをサポートしているのだから
>>> もういい事になってしまうのでは?
>> Perl/Encode等はiconvを使いませんから。
>> これらが自前で抱えているコンバータにも手を入れませんと。
> 
> だから、「今すぐ」でなくとも移行というのが現実的でない
> ということなのでは? いままで移行してないなら、では一体
> いつになったら移行するのです? 今使えているシステムの
> 「寿命」が尽きる時というのがせいぜいではないのですか?

「寿命」が尽きた時に移行できるように、という話でしょう。
もちろん、いつまでも移行できない部分もあるでしょうが。

-- 
NARUSE, Yui  <narus****@airem*****>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Legacy Encoding Project

[LE-talk-ja 238] Re: 重複符号化文字