はてなにおける多言語入力
このカテゴリーでは言語を主に語学的なアプローチで扱っていくつもりです。私は言語学に関しては全くの素人なので、一学習者として書いていこうと思います。
ここでは色々な言語について言及していくので、当然多言語入力に関する問題があります。そもそもこの日記のタイトルからしてçという英語には使わない文字が含まれていますし。
ちょっと実験してみたところ、ほとんどの場合EUC-JPに対応していない文字は自動的に数値文字参照に変わるみたいです。ではそのほとんど以外とはどんな場合かというと、firefoxなどで特殊なラテン文字・キリル文字・漢字を入力する場合です。firefoxではçなども数値文字参照を使わずに済んでしまうので、書き込む際に数値文字参照に変わりません。firefoxで見ている分には問題ないのですが、IEやOperaで見た場合に文字化けしてしまいます。以下にその例を示します。いずれも上がfirefoxでそのまま入力した場合、下が数値文字参照を使って入力した場合です。
Oui, ça va bien.
Oui, ça va bien.Добрий вечір.
Добрий вечір.你好!
你好!
IEやOperaで見ている人(つまり9割方の人)には上の方が文字化けしていると思います。
ちなみにタイ文字・アラビア文字・グルジア文字・デーヴァナーガリー・ハングルなどはfirefoxで入力しても数値文字参照を使いますので問題ありません。英語のアルファベットが標準となっているウェブでは、英語に使わない文字を使おうとすると何かと苦労します。
参考 はてなで多国語