人名を検索するには?(2) kakasiの場合

別件でkakasiを使う機会があった。ついでにkakasiの辞書を調べていて気付いたのだが、どうやらkakasiは意地で人名でも形態素解析をやろうとしているらしい。地名や人名と思しき単語がたくさん登録されている。実際、ありきたりの苗字ならば綺麗に分かち書きしてくれる。こいつをこまめに鍛えていけば、通常のDBMSと併用する形で、人名だけNamazuで検索するシステムというのも考えられなくはないようだ。
いや、でもそのようなことをするくらいなら、最初から人の手で、姓名を分かち書きするだろう。
いくら辞書を鍛えてもkakasiでの姓名分かち書きの精度が100%に到達することはまずありえない。素直にインデックス漏れの心配が無いbi-gramを利用するべきだ。

本日現在、まだ、bi-gram実証用のコードをまったく書けていないので説得力が微妙なのだが。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック