民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS データをやり取りする場合の文字コードのお話 改訂版

<<   作成日時 : 2008/08/23 22:54   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

データをやり取りする場合の文字コードのお話」について
文字コードについて勉強しなおしたので、先日の記事を書き直す。先日の記事に訂正を入れる形にするかどうか迷ったのだが、一からすっぱり書き直すことにした。視点を変えて。先日の記事も決して間違えているわけではないので、資料としての価値は十分にある。

以下本文。

テキスト形式でデータをやり取りする場合はお互いに文字コードを揃えておく必要がある。
具体的には、「JIS第2水準までのシフトJISで、MS P明朝での出力を前提に」といった指定の仕方になる。

この指定の仕方で、「JIS第2水準まで」というのが「文字集合」の指定であり、「シフトJISで」というのが「符号化方式」の指定である。「MS P明朝での出力を前提に」というのはフォントの指定である。これは必要な場合もそうでない場合もある。人名など、字形が重要な意味をもつデータをやりとりする場合にはフォントの指定をしておいたほうがよい。

文字集合
難しい理想論には立ち入らずに説明する。
Windows XP 以前で一般的に使える文字集合は
半角の「英数・記号」「カタカナ」、
全角の「特殊文字」「数字」「ラテン文字」「平仮名」「片仮名」「ギリシア文字」「キリル文字」「罫線素片」「JIS第1水準漢字」「JIS第2水準漢字」「システム外字」
以上。
これらの中から使う文字を指定する。よほどのことがない限りユーザー外字は使ってはいけない。分かるならば「システム外字」も使うべきではない。
分からなければ「MS P明朝」、あるいは「MS Pゴシック」で表示できる文字を使うという指定の仕方もある(フォントの指定と文字集合の指定とは関連がある)。
Windows Vista はもっとたくさんの文字集合を使えるが、相手も Windows Vista を使っているという保証はないので、上記の範囲の文字集合を使うべきである(Windows Update 経由で、XP互換のフォントセットをダウンロードして、XP互換のフォントを使用することで文字集合の範囲を制限するとよい)。

符号化方式
日本語でデータをやり取りする場合に一般的に使われるのはシフトJIS。データを保存する場合に色々な符号化方式を指定できるテキストエディタがあるが、シフトJISで保存するようにする。
Windows XP/Vista に付属のメモ帳では、文字コード「ANSI」を選択する(これでシフトJISになる)。

フォント
字形の再現が重要な場合はフォントの名前を指定する。
指定するフォントによって使える文字集合が制限されるので、フォントを指定することによって、間接的に文字集合を指定するということも可能。


と、「文字コードのお話」を現実に即した形に書き直してみた。前回の記事を違った角度から補完しているという見方も可能。
CSVデータの1行目にタイトル行を入れるかどうかといったような目に見える話とは異なり、文字コードは見えそうで見えない部分に大きな問題がたくさん潜んでいる。
たとえば、今回の記事内容では、Micorsoft Windows以外のOSが関連するシステムの場合に問題が生じることになる。
文字コードに関しては「詳しい人にアドバイスをもらいながら」というのが基本になる。詳しい人が身近にいなければ、この記事を参考に「目に見える形」で文字コードを指定するとよい(多少は詳しい人でなければWindows以外のOSを使うこともないだろうし)。

あと、また記事をあらためて、パソコンには詳しいが文字コードについて深く考えたことのない人(=数日前の自分)のための記事を書くことにしようと思う。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
データをやり取りする場合の文字コードのお話 改訂版 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる