民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS 文字コードを調べていて、ついに考えを改めるに至った

<<   作成日時 : 2008/08/21 00:22   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

これだけパソコンが普及しているのだから、外字を使うのなんてけしからん。データ交換に使う場合は、どんなパソコンでも共通して使える JIS X 0201 と JIS X 0208 平たく言うところの ANK 文字と JIS第1水準、JIS第2水準までの全角文字だけを使うようにするべきだ。と、当初は考えていた。
無神経にシステム外字を入力しようとするパンチャーは、悪魔に魂を売っているとしか思えなかった。

しかし、この間、文字集合から勉強しなおして、考えが大きく変わった。
JIS X 0208 や (理想の)Unicode は、文字の意味に着目し、同じ意味の文字ならば異体字にも同じ番号をつけるべきだという考えからスタートしている。だから、明朝体の「高」とゴシック体の「高」は同じ文字で、同じ番号になる。ここまでは誰にでも同意してもらえるだろう。
これと同じ考え方で、「高」と、いわゆる「はしご高」(なべぶたの下が梯子上になって下までつながっている。タカシマヤの商号などに使われている)も同じ文字で、少し書き方が違うだけだと考えるのが、JIS X 0208 だ。どうしても「はしご高」を使いたければ、「高」の字に「はしご高」のデザインのフォントを割り当てているようなフォントセットを使えばいいのだ。
これは私としては OK な考え方だ。このほうがデータとして検索、ソートしやすいのだから。元々が工業規格の JIS としては筋も通っている。
(ひとつ言わせてもらえば、「竜」と「龍」が別の字として扱われているなど、徹底が足りていないように見えるのが大いに不満だ)

と、ここまでは、以前と変わらない、私の考え方だ。

しかし、この考え方だけではいけないという理由が二つ見つかった。

一つは、Adobe-Japan1 のように、JIS X 0208 以外に、字形を表現するのにもっと適切な文字集合が他にもあるということ。JIS X 0208 は規格の一つに過ぎない。
パソコンの性能が上った今、JIS X 0208という意味主体の文字集合一つだけで商品名から企業名から住所氏名、日常作文まですべてをカバーしようというのは、時代遅れだ。「高」と「はしご高」が別のコードになっていたとしても、間に変換テーブルを一つ入れて意味主体のコードに変換してから検索すればそれで、意味主体の検索ができる。これは、昨今のパソコンにとっては、大して負荷のかかる作業ではない。
人の名前など、字形主体で表現したい分野では、JIS 以外の、字形主体の文字集合を使ったほうがいいのだ。TRONコードや、(現実の)Unicodeなどのような(Unicode は当初の理想と異なり、版を重ねるごとに字形主体の文字集合になりつつあるようだ)。
繰り返しになるが、実際に、DTP の世界では Adobe-Japan1 という文字集合が使われている。住基ネットでは住基ネットで独自の文字集合が使われている。
JIS X 0208 で何もかもをカバーする必要はないのだ。

そしてもう一つ、JIS X 0208 だけにこだわっていてはいけないと考える理由は、Unicode の影響で、どうあがいてもなし崩しに、JIS X 0208 以外の文字が使われてしまうだろうという現実感だ。
この時代、ソフトウェアの開発では、まず Unicode 対応が先になる。国際化対応ソフトウェアといっても JIS X 0208 対応というわけではない。あくまで Unicode 対応なのだ。
Windows も当初は「内部処理は Unicode でユーザーインターフェースは Shift_JIS」などと言っていたが、 XP、Vista あたりで、段々と Unicode が表に出てくるようになってきた。アクセサリの文字コード表で検索する際、表示されるのは Shift_JIS ではなく、Unicode に基づく文字コードになっている。
そして、Windows Vista でメイリオフォントを使えば、吉野家の吉(口の上が土になっている。Unicode ではこの文字にコードが割り振られている)を表示することまでできてしまう。やがてお客さんのほうから、こういった文字を使ったデータが持ち込まれるようになるだろう。
一私企業の一個人が、JIS X 0208 原理主義を唱えたところで、「じゃあ、あんたのところとは商売しない」と突き放されるのがオチなのだ。
そんな偏った原理主義を掲げるくらいなら、最初から間口を広げて大きく構えたほうがお互いに幸せというものだろう。

と、私は完全に宗旨替えをしてしまったのだが、JIS X 0208 およびその後継規格に関して、ひとつ、リクエストしたいことがある。
それは、JIS X 0208(あるいは JIS X 0213) で何でもカバーしようとするあまり、本来意味主体の文字集合であるはずの JIS X 0208 がどんどん膨れて字形ごとに違う文字を収録し始めたりしないようにすることだ。そうでないと、字形主体の文字集合から、意味主体の文字集合に変換するテーブルを作りたくても、その変換先の規範となるべき、意味主体の文字集合が無いという事態になってしまうからだ。
JIS は工業規格として、検索・ソートに適した文字集合であり続けてほしいと、切に願う。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
文字コードを調べていて、ついに考えを改めるに至った 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる