民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS イニシャルの匿名性はどの程度か?

<<   作成日時 : 2008/09/13 22:39   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

ネットを巡回していたところ、「実はイニシャルというのは、簡単に相手を特定できてしまうのではないか?」という疑問を投げかけている人がいた。その時は、どうだろうねという程度で思い過ごしていたのだが、今日、DB 上の名簿のインデックスを作っていて、ふとこのことを思い出した。

手元の名簿データを使って、早速イニシャルの分布状況を調べてみた。
うまくいけば、イニシャルを使った人名の高速検索が可能になるかも知れないからである(このあたりについて興味のある人は「ハッシュテーブル」という単語で Google で検索してみてほしい。ハッシュ化にいささか安直であるが名前のイニシャルを使ってみようというのが今回のアイデアだ)。

最近は情報管制について色々とうるさいので、とりあえず、統計処理を施した後の結果をここでかいつまんでお知らせする。
それと一つお断りしておかなくてはいけないのだが、あくまで「ハッシュ化」が目的であったので、「ガギグゲゴ」といった濁音の存在は無視してすべて清音化して処理している。元データが「半角カタカナ」だったからである。
さらに私の手元の名簿は、同じ人が重複収録されていることがある。なので、同じイニシャルの人がたくさんカウントされてしまっている可能性がある。

で、10万件あたりに計算しなおした結果が以下の通り。

一番多かったイニシャルは「M.K.」。芸能人・有名人イニシャル解読辞典( http://geinojin.d--j.com/m1.html )によると、「加賀まりこ」「近藤真彦」などの名前が挙がっている。なぜか本日時点で「倖田來未 」が入っているがこれは何かの間違いだろう。
この、M.K. さんというイニシャルが 10万人中、2500人弱でトップだった。
続いて、T.K. さんが 2300人弱。私と同じ K.K. さんが2100人強でこれに続く。

一方少ないほうでは、10人以下というイニシャルが45種類あり、10万人あたり1人未満というイニシャルも、12種類あった。
10万人いて、一人いるかどうかというイニシャルが、12種類もあるというのは驚きだ。これだと、特定されかねないので、ここではそのイニシャルは発表できない。

なお、同じイニシャルの平均人数は約400人。標準偏差はおよそ500となった。

これだけ結果が偏ってしまうと、イニシャルはハッシュ関数としてはあまり効率がいいとは言えないというのが結論になる。
ちなみに、K.Y. さんは 1150人で 30位。「空気が読めない人」は、平均を超えて多数派に属している。姓・名の順で「K.Y.」になる人はなんと、2100人弱。K.K. さんに次いで第4位となっている。あわせると100人に3人は「空気が読めない」ことになるのだが、経験的に、これは少なすぎるので、イニシャルと「空気読めない」の関係についてはさらなる調査が必要だ。

それよりも、今回あらためて驚いたのが、10万人中に1人いるかいないかという希少なイニシャルがいくつも見つかったことだ。
匿名のつもりで、イニシャルトークを展開していたのが、実は本人が特定されていたということになりかねない。
イニシャルだからといって、ゆめゆめ油断するなかれである。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
イニシャルの匿名性はどの程度か? 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる