点訳で数字とアルファベットのあいだに外字符が入らない場合がある
情報処理用点字の場合も「数字とアルファベットの間の小文字フラグ」が抜けている。
例:
http://0x1b
現状で http:// を含む文字は情報処理用点字として判定しているが、 最後の 1b が「数 1 12」と変換されていて、 12 と区別がつかない状況。
本件に関するコミット記録:
}}} To git@bitbucket.org:nvdajp/nvdajpmiscdep.git
To git@bitbucket.org:nvdajp/nvdajp.git
}}}
外国語引用符の中、情報処理用点字の中で、数字の直後にアルファベットが来るときは外字符を入れる修正を行いました。
以下のような入力の点字出力で、数字とアルファベットの間の外字符が抜ける、という指摘がありました。
2014h26a_ip_qs.pdf
状況: テキスト解析(前処理)の失敗で 2014 と h26a_ip_qs.pdf が分かれてしまう。 後半だけが外国語引用符に囲まれた文字列として変換される。 外国語引用符の内側の 数26a で a の前に外字符がついていない。 アンダーラインは情報処理用点字の規則と同じ 5 36 として点訳されている。
結果(h26a_ip_qs.pdf の部分):
修正案(1): 外国語引用符の中でも数字とアルファベットのあいだには外字符を入れる。
修正案(2): こういう文字列を外国語引用符で囲むのではなく、 情報処理用点字で全体を点訳するようにテキスト解析を改善する。 具体的には、情報処理用点字の判定処理に、 アンダースコアを含む、末尾がファイル名の拡張子のようなパターン、 といったヒューリスティックな規則を追加する。