漢字1文字8バイト

知らなかった。
いつの間にか、Unicode で漢字1文字を表現するのに8バイトが必要になっていたなんて。
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/

異体字を表現するのに、元の文字のコード+Variation Selector(4バイト) という表現が、Unicode5.1から可能になっている。
元の文字コードがサロゲートペアを使ったものの場合、元々4バイトあるわけだから、それにVSを付加すると最大8バイトになるわけだ。
これはUTF16を使っても、UTF8を使っても最大8バイトに違いはない。

IVS(Ideographic Variation Sequence) という言葉、覚えておこう。
もっとも、UTF8ベースでプログラムを書いている分にはそれほど影響は大きくなさそうだが。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック