1990年代の名簿の整理

とりあえず電子化された、古い名簿の整理に取り掛かった。作成年度を見ると、一番古いもので1991年。まだまだワープロ全盛の時代だ。今ほどパソコンが発達するとは予想されていなかったのだろう。ものすごくコマッタちゃんだった。

とりあえず、物はCSV形式で保存されていた。それをテキストエディタで開いてびっくり。
とりあえずどのレコードも必要なカラムは揃っている。レコードによってカンマの数が足りないということはない。

しかし、今でいうところのキーになるべきカラムが無い。
名前だとか電話番号だとかをうまく組み合わせればレコードを特定できるのだろうが、それは結果論でしかない。
そして、例によって文字化け多数。現在のCSV形式になるまでに、色々なソフトを経て、変換変換されてきたのだろう。一部は復元不可能なまでに壊れていた。

パンチャーへの指示の問題と思われるものとして、まず外字の扱いが統一されていない。
外字をまったく入力しないパンチャー(おぃ!)がいて、読み仮名と突き合せないと、そもそも文字があったのか無かったのかさえ分からないようなデータがあった。
外字をとにかく似た文字に勝手に置き換えているパンチャーもいた。「勝手に」といっても、人間がやるのだからそれほど突飛な文字に置き換えるはずもなく、これはまあ、機能しているといえた。
外字を特定の文字、たとえば「!」や「・」や「〓」に統一して置き換えているパンチャーもいた。これならそこに外字があったということが分かるので、「後で原本と照合しなければいけない」と気付くことができる。しかしそれでも、外字が連続してあった場合、「!」1文字に置き換えるのか、文字数分の「!」を並べるのか、統一がとれていない。
これらの入力の特徴を考え合わせると、パンチャーさんは5人以上はいたようだ。
というか、外字をどう入力したのかの資料が添付されてないから、訳が分からない。

そして、90年代後半のデータになってくると、待ってましたの「システム外字」問題が生じている。
ハシゴの高や、横棒が一つ多い徳などが入力されたと思しき化け文字が散見された。パンチャーさんは、画面上で入力できるので、そのまま入力してしまったのだろう。それが、これらのデータが途中でWindows以外のシステムを経由したために、無残に化けてしまったのだ。

と、今日1日で、1万件ほどチェックした段階でこのざまだ。
データは20万件以上あるのだが、私は1ヶ月以上、この作業をやることになるのか?

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック