Kenji Inoue
kenz****@oct*****
2004年 11月 12日 (金) 02:05:03 JST
井上です。 > Debian JPプロジェクトで使われている対訳表 > http://www.debian.or.jp/devel/doc/about-trans-table.html > を見つけたので報告しておきます。 > > HTML版がwebブラウザでさくっと見れますが,非常に簡潔なフォーマットになってます: > > 見出し語 > /訳語1/訳語2/.../訳語n/ このフォーマットが気になって少し調べました。 まず,DICTプロトコル(*1)というものがあって,そのDICTプロトコルの実装の1つである, サーバ/クライアントシステム dictd と dict コマンド (開発は http://www.dict.org/ )が あります。このdict/dictdが利用するのが,上記Debian JPプロジェクトの対訳表が採用している フォーマットのようです。 *1 : RFC 2229 - A Dictionary Server Protocol <http://www.faqs.org/rfcs/rfc2229.html> で,実はこれにはファイルがデータファイルとインデックスファイルの2つがあって, Debian JPプロジェクトの対訳表から例をとると, --- trans_table.dict 00-database-short Debian JP 対訳表 (101/4/16) access /アクセス/ account /アカウント/ --- ここまで --- trans_table.index 00-database-short A y access y Y account BK b --- ここまで となっています。 データファイルには00-database-shortのような概要を表すところがあります。 インデックスファイルは,タブ区切りで単語名\t開始位置\tテキストの長さとなっていて, 開始位置とテキストの長さはMIMEエンコーディングされているようです。 で,この /訳語1/訳語2/.../訳語n/ というフォーマットは,少なくともdictコマンドを使う分には 人間が読むだけのためのもののようで,機械処理はあまり想定されていないような印象を受けます。 以上,補足です。 # このDICTプロトコル自体に対応するのも悪くはないかもしれないですね # ただもう少し周辺のコマンドや技術なども調べてみる必要がありそうです --- Kenji Inoue <kenz****@oct*****> 翻訳用辞書システム(tradic) -> http://tradic.sourceforge.jp/