文字コードの復習を兼ねて野暮なツッコミを

Yahoo! テレビ - ドラマ特集 篤姫のページを見ていてこのような記述を見つけた。
宮崎あおいの「崎」は、正しくは「崎」です。一部環境によっては正しく表示できないため、「崎」を使用しています。

「文字コードは文字を特定するものであって字形を特定するものではない」という原則論でいくと、この記述は的外れだ。ユーザーのPCのフォントによっては「サキ」の字は「大の崎」になっているかも知れないし、「立の崎」になっているかも知れない。HTML形式で、文字コードを使ってデータをやりとりしている以上、これはどちらの「サキ」かは特定できない。「大の崎」と「立の崎」は同じ字で単に表記の仕方が違うだけだからだ。
「崎」の字に「大の崎」の字形をあてるか、「立の崎」の字形をあてるか、それはフォントメーカーの裁量の範囲内だ。「立つ崎」のフォントを持ったPCでこのページを閲覧すると、これはきっと訳の分からない記述に見えることだろう。

このツッコミ自体は野暮なものであるが、背景を考えると、「つまんねえツッコミだ」では済まされない問題がある。

誰も指摘しなければ「大の崎」と「立の崎」とは違う文字だという事例が積み重なってしまうというのが、その問題だ。
そして後から最終的に、「やっぱり『大の崎』と『立の崎』は別の字にしましょう」とでもなったらどのような混乱が生じるか。
名簿関係は大混乱だ。「山崎」さんはこれまで、それこそ数え切れないほど何度も自分の名前を書いてきたと思うが、どちらの崎を使ってきたかなど、いちいち記憶しているはずがないだろう。紙の名簿を電子化する際に第三者が「崎」の字を PC に入力することだってあるだろう。その際、どちらの「崎」を使ったかなど、分かろうはずがない。
SJIS<->Unicode などの文字コード変換プログラムも全部作り直しになる。作り直したところで既に稼動してしまっているシステムはどうする? 2000年問題以上に深刻な問題が生じることになる。

「野暮」だとか「またいつものうるさい奴が」とか言われるかも知れないが、こういった混乱を避けるためには、気付いたところで「大の崎」と「立の崎」は字形は異なりますが同じ文字です。同じ文字として符号化します。字形の違いは符号化とは別の方法で解決するものです。と、口をすっぱくして言い続けるしかない。少なくとも「大の崎」と「立の崎」については同じ文字であるという学術的根拠がある。

...あまりに野暮なのでいちいちそこまで言いたくないというのが、最大の難題だ。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック