テーマ:文字コード

文字コードの復習を兼ねて野暮なツッコミを

Yahoo! テレビ - ドラマ特集 篤姫のページを見ていてこのような記述を見つけた。 宮崎あおいの「崎」は、正しくは「」です。一部環境によっては正しく表示できないため、「崎」を使用しています。 「文字コードは文字を特定するものであって字形を特定するものではない」という原則論でいくと、この記述は的外れだ。ユーザーのPCのフォントに…
トラックバック:0
コメント:0

続きを読むread more

文字化け事例 「サキヤマ」さんですか? いいえ「トクヤマ」です。

名簿を調べていて、興味深い事例が見つかったので、例によって、フィクションを織り交ぜながら許される範囲で紹介する。 名簿の中に「崎山」さんという人がいた。普通に考えて「サキヤマ」さんだ。しかし、フリガナは「トクヤマ」となっている。「崎」と書いて「トク」と読ませるという可能性も無いわけではないが、気になったので調査してみた。 このデ…
トラックバック:0
コメント:0

続きを読むread more

CSV_XSで行けるんでね?

名簿データが大量に、CSV データ形式で保管されていた。こいつを加工したいのだが、名簿なので人名などに日本語データが入っている。しかも見るからにシステム外字を使ってしまっている。これをうかつに awk などで触ってしまったら、文字化け、データ欠落を引き起こしかねない。慎重に作戦を立てることにした。 まず、安全に加工するために、デー…
トラックバック:0
コメント:0

続きを読むread more

1990年代の名簿の整理

とりあえず電子化された、古い名簿の整理に取り掛かった。作成年度を見ると、一番古いもので1991年。まだまだワープロ全盛の時代だ。今ほどパソコンが発達するとは予想されていなかったのだろう。ものすごくコマッタちゃんだった。 とりあえず、物はCSV形式で保存されていた。それをテキストエディタで開いてびっくり。 とりあえずどのレコードも…
トラックバック:0
コメント:0

続きを読むread more

文字コードについて勉強したおかげで MySQL の文字化けに対処できた

以前、このブログで、「MySQLのODBCで何か文字化け(2) これの調査はほぼ無意味か?」( http://kzworks.at.webry.info/200805/article_28.html )という記事を書いたことがあった。UTF8環境で動作しているMySQLサーバーに、Windows上で文字コード変換したデータを突っ込んだと…
トラックバック:0
コメント:0

続きを読むread more

アプリはUnicode、データはSJIS

今さらながら、結局のところ、文字コードの話はここに落ち着くようだ。今日、会社でデータの整理をしていて思った。お客さまからもらったデータ、精査したが、テキストデータでUnicodeベースのものは一つも無かった。UTF8もない。UTF16も1件もない。全部シフトJIS。それも確信を持って、JIS90 ベースだといえる。JIS2004を意識し…
トラックバック:0
コメント:3

続きを読むread more

データをやり取りする場合の文字コードのお話 改訂版

「データをやり取りする場合の文字コードのお話」について 文字コードについて勉強しなおしたので、先日の記事を書き直す。先日の記事に訂正を入れる形にするかどうか迷ったのだが、一からすっぱり書き直すことにした。視点を変えて。先日の記事も決して間違えているわけではないので、資料としての価値は十分にある。 以下本文。 テキスト形式で…
トラックバック:0
コメント:0

続きを読むread more

「ビットの舟」を読み終えて

駆け足ながら「文字の海、ビットの舟」 http://internet.watch.impress.co.jp/www/column/ogata/index.htm を読み終えた。読み終えたといっても、元々がメルマガの記事のバックナンバーだし、起承転結のある読み物というわけではないので、「終えた」と言っていいのかどうかもわからない。 …
トラックバック:0
コメント:0

続きを読むread more

ビットの舟を読みながら

先日紹介したビットの舟(http://internet.watch.impress.co.jp/www/column/ogata/index.htm)は分量が多くてなかなか最後まで読めない。今日はとりあえず特別編14(2002年2月13日の記事)まで読んだ。 たかが文字コードに、これだけ多くの関係者の下心が隠れているとは、正直驚いた。…
トラックバック:0
コメント:0

続きを読むread more

「熙」の字でトラブった話

まさに昨日の今日の話だ。お客様から持ち込まれた名簿に「熙」の字が入っていて、たったそれだけのために会社を挙げての大騒動になってしまった。「熙」の字は「細川護熙」氏の名前にも使われているし、漢字を語るうえで避けては通れない「康熙字典」の「熙」でもある。そんなものがなぜいまさらトラブルになったのか。面白いので例によって表に出せる範囲でまとめ…
トラックバック:0
コメント:0

続きを読むread more

文字コード関連の資料

文字コードに関して、先日の ほら貝 (http://www.horagai.com/ )に加え、また詳しいページが見つかったので、メモしておく。 小形克宏の「文字の海、ビットの舟」-文字コードが私たちに問いかけるもの http://internet.watch.impress.co.jp/www/column/ogata/ind…
トラックバック:0
コメント:2

続きを読むread more

文字コードを調べていて、ついに考えを改めるに至った

これだけパソコンが普及しているのだから、外字を使うのなんてけしからん。データ交換に使う場合は、どんなパソコンでも共通して使える JIS X 0201 と JIS X 0208 平たく言うところの ANK 文字と JIS第1水準、JIS第2水準までの全角文字だけを使うようにするべきだ。と、当初は考えていた。 無神経にシステム外字を入力し…
トラックバック:0
コメント:0

続きを読むread more

結局は住所と名前だけの問題なんですよ

この数日、文字コードで悩みつつ、ふと上司に向かって言ってしまった一言。それがタイトルのとおり。「住所と人の名前以外は文字コードなんて気にしなくていいんです。結局は住所と名前だけの問題なんですよ」。 仕事で名簿のやりとりが多いのだが、そのデータを実際に調べてみると、漢字が使われているのは住所と名前だけ。あとは数字かアルファベットの記号ば…
トラックバック:0
コメント:0

続きを読むread more

文字コードのお話の寄り道

文字コードについて調べていたら、非常によくまとまったページが見つかった。 加藤弘一氏による http://www.horagai.com/ 本日現在、いきなり恐竜の骨格の写真が表示されるので何かと思うが、よくよく下のほうを見ていくと、政治的な話が飛び出していよいよ嫌になって、「誰だこいつ」と思って一番下まで行くと、「文字コ…
トラックバック:0
コメント:0

続きを読むread more

文字コードを語る前に文字集合のお勉強

先日、このブログで、文字コードについて語ろうとして、Wikipedia を調べたことがあった。その際、「文字コード」というものを語る以前に、「文字集合」という概念が必要であることを知った。どうせこのブログは私の恥さらし場なので正直に言うが、私はそれまで「文字集合」という言葉を知らなかったし、それほど重要なものであるとも思っていなかった。…
トラックバック:0
コメント:0

続きを読むread more

データをやり取りする場合の文字コードのお話

先日、CSV でデータをやり取りする際に必要な打ち合わせ事項をまとめたのだが、文字コードに関する部分があいまいなままだった。話が大きくなりそうなので、あえてごまかしておいたのだが、それについて、今日、調査してみたところ、案の定、簡単に説明できるものではなかった。 SIer さんなどとの日常会話では文字コードに関しては、「JIS第1…
トラックバック:1
コメント:0

続きを読むread more