SSブログ

続、電子メール中の日本語ドメイン名URLをクリック可能にするための [Firefox,Thunderbird]

電子メール中の日本語ドメイン名URLをクリック可能にするための」の続き、みたいなもの。

えむもじらさん所の「電子メール中の日本語ドメイン名URLをクリック可能にする」にて

また、Nothing ventured, nothing gained. - 日本語ドメインURLの電子メール中での記述でも述べられているとおり、そもそも ASCII 文字のみの場合の URL の認識方法のガイドラインはあるのかというのも気になります。
というくだりを見つけた。

「ASCII 文字のみの場合の URL の認識方法のガイドライン」というのは私も知らない。(つか、たいして詳しくもない私の知識が何の根拠になるんだかw) でも、現時点では「ドメインや URL/URI が ASCII 文字のみかそうでないか」という点ではなく、その URL/URI を含んだ文書の言語記述ルールに併せてガイドラインが存在すべきではないか、という気がしてる。

電子メール本文での日本語ドメイン名URL記述ガイド」で示されているのは URL/URI とそれ以外(メール本文)との境目を明示する方法である訳なのだけど、それはつまり明示しなければ境目を確実に判断できないという事情への対応策な訳で。 なぜ明示しなければ境目を確実に判断できないかといえば、日本語は文書に用いる文字がスペース文字などの隙間を置くことなく連なる記法であるからで。 英語をはじめとする欧文では単語と単語の間にはスペース文字あるいは改行など通常の単語には含まれない文字が挟まれるので、そのルールに沿っていれば文書中に URL/URL を記述したとしてもその前後の単語との境目を判断できる。 だから、例えば英語と日本語の両方を自由に操る人が英文の中に日本語ドメインURLを記述しても、前後の単語との境目が判断できないという事はないと思う。 一方、日本語文書の中に ASCII 文字のみの URL/URI を書いた場合、もしも前後の日本語との間を詰めて書くとどこまでが URL/URI なのか判らなくなる。 そういう訳で、URL/URI の構成文字に着目するのではなくて、それが記述される文書側の記法に着目してガイドラインが必要かどうか、どのような内容にすべきかを考えるべきかという気がする。

ところで、えむもじらさん所のエントリの末尾で参照されている takorattaさんのエントリ「[ネット技術]日本語ドメインURLの電子メール中での記述」の末尾あたりに

英語圏ではスペースやカンマなどがあると、URLのターミネータと判別することが一般的のようだが、本来はこれにも例外がある。スペースなどもURLのパス名になりうるからだ。
という記述があるのだけど、少なくとも ASCII な半角スペース(0x20)は URL/URI のパス部分およびクエリ部分に含まれる可能性は無いのではと思う。

まず、ASCII な URL について記述されている RFC3986 の "Appendix A. Collected ABNF for URI" を眺めてみると ASCII な半角スペース(0x20)はパーセントエンコード(pct-encoded )の対象となる文字だと思う。(ALPHA は %x41-5A/%x61-7A だし、DIGIT は %x30-39 だし) もう一つ、国際化された URL/URI について記述されている RFC3987 の "2.2. ABNF for IRI References and IRIs" を眺めてみたけども、ipath の構成要素である ipath-* のいずれにも ASCII な半角スペース(0x20)がそのままの値で入ってこない... よね。 RFC3986 の unreserved から RFC3987 の iunreserved にかけて追加された ucschar にも 0x20 は含まれない...けど、Shift-JIS 0x8140 な全角スペース(UTF-8 0xE38080)はどうなるのだろう? RFC3987 の "2.1. Summary of IRI Syntax" に

IRIs are defined similarly to URIs in [RFC3986], but the class of unreserved characters is extended by adding the characters of the UCS (Universal Character Set, [ISO10646])
と書いてあるのだけど、ucschar に UTF-8 の 0xE38080 が含まれていないから全角スペースは含まれないと言っていいのだろうか。(この辺、ややこしくてよく判らん orz) と、と、とりあえず ASCII なスペース文字あるいは改行などが単語の区切りになるような記法体型の言語では普通に記述しても大丈夫なんじゃないかと思う。

でも JPRS のガイドラインでは半角空白を用いていないからには、半角空白では充分ではないケースがあるのかもしれない、という気もしているのですっかり訳が判らないとういうのが正直なところw 間違えてたらごめんなさいw

ちなみに私は日本語の文字と日本語以外の文字との間には空白があった方が見やすいと思う方なので、自分で書く文書にでは空白を入れる人です。 Webブラウザやテキストエディタなどで単語を選択するためにダブルクリックしたときやワード単位のカーソル移動などの場面でも、そういう風に分離してあった方が意図した結果を得る可能性が高まりますしね。

さて、現行の Thunderbird 1.5系では設定エディタで network.enableIDN を true に変更しないと期待されている結果を得ることが出来ないのだけど、JPRS は仕様に合致したメーラーとみなしてくれるのだろうか。

つか、これってメールソフト側が適切に処理していても、それをトリガとして起動する Webブラウザが国際化ドメイン名に対応してないと

この記述を行ったURLを含む電子メールを、日本語ドメイン名URLをクリック処理できる電子メールソフト(以下メーラー)(*)で受信した場合、そのURLをクリックすることにより対応するWebにアクセスできます。
という結果にはいたることが出来ないよね。 例えば設定エディタによる設定を行った Thunderbird から Netscape Navigator 4.0 へ渡してもダメだし。 Webブラウザだけじゃなくてメールソフト→Webブラウザ起動の仕組みを提供している OS 側の機構も関わるだろうし、メールソフト一つだけで完結する話しではないよね、これ。


nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:パソコン・インターネット

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。