民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS 文字コードを語る前に文字集合のお勉強

<<   作成日時 : 2008/08/19 00:05   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

先日、このブログで、文字コードについて語ろうとして、Wikipedia を調べたことがあった。その際、「文字コード」というものを語る以前に、「文字集合」という概念が必要であることを知った。どうせこのブログは私の恥さらし場なので正直に言うが、私はそれまで「文字集合」という言葉を知らなかったし、それほど重要なものであるとも思っていなかった。それをしっかりと勉強しなおしたし、Wikipedia の解説は本格的すぎて噛み砕くのが大変なので、ここで Wikipedia とは違った角度から「文字集合」というものをまとめなおしておく。

文字集合というのは、そんな改まった表現をしなくても、要は「ひらがな」だとか「カタカナ」だとか「常用漢字」だとかの文字の集まりのことである。
コンピュータの世界では「半角英数」だとか「半角カタカナ」「JIS第1水準漢字」「JIS第2水準漢字」などといった文字集合が使われる。
もっとたくさんの文字を集めたければ Unicode もあるし、TRONコードもある。

しかし、単に「ひらがな」と言っただけでは、人によっては「ゑ」や「ゐ」も含むと考えるかも知れないし、人によっては含まれないと考えてしまうかも知れない。「ゑ」を考慮していないプログラムに「ゑ」というデータを入力してしまった場合、どういう動作になるか分からないので、これは一大事だ。
かといって、このシステムでは「あいうえおかきくけこ・・・わをん」までの文字が使えますと一文字一文字表記するのも不合理だ。
なのでパソコンでは、通常は文字集合として、主にJISの規格番号を使うことになる(というか、何気なく通称を使うことが多いので、実際に規格番号自体を使って人間同士がコミュニケートしている場面を私は見たことがない)。

日本のパソコンを扱う上でよく使われる文字集合は JIS X 0201 いわゆる ANK 文字である。Alphabet Numeric Kana の頭文字をとった名称で、この通称だけだと半角英数と半角カタカナだけのように聞こえるが、実際は、単純な記号類もいくつか含まれている。
これに加えて、ひらがなや漢字を表現するために、JIS X 0201 と組み合わせて、JIS X 0208 がよく使われる。JIS X 0208 には全角英数、全角ひらがな、全角カタカナ、JIS第1水準漢字、JIS第2水準漢字、全角記号類などが含まれている。

こういった文字集合を決める際には、どうしても「文字集合を決める人の考え方」というものが反映されることになる。JIS X 0208 の場合だと、一般的な「高」という字と、「はしご高」(「高」という字のなべぶたの下が梯子状になった「高」。私のパソコンでは表示できない。無念)は同じ字の異なった書き方ということにされている。見た目は違っても本来は同じ字なので、同じ文字番号を使うべきだという考え方である。これは、文書の検索などをする場合に便利な反面、人の名前など、「こだわる」場面では逆に不便だったりする。

このように背景に「考え方」というものがあるので、世界中の文字集合が一つの体系に統一されるということは、ありえない。さまざまな文字集合が並存し、状況によって、文字集合を使い分けなければならない。

と、ここまでが文字集合の基本的な考え方となる。続きはまた日を改めて。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
文字コードを語る前に文字集合のお勉強 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる