人名を検索するには?(2) kakasiの場合

別件でkakasiを使う機会があった。ついでにkakasiの辞書を調べていて気付いたのだが、どうやらkakasiは意地で人名でも形態素解析をやろうとしているらしい。地名や人名と思しき単語がたくさん登録されている。実際、ありきたりの苗字ならば綺麗に分かち書きしてくれる。こいつをこまめに鍛えていけば、通常のDBMSと併用する形で、人名だけNamazuで検索するシステムというのも考えられなくはないようだ。
いや、でもそのようなことをするくらいなら、最初から人の手で、姓名を分かち書きするだろう。
いくら辞書を鍛えてもkakasiでの姓名分かち書きの精度が100%に到達することはまずありえない。素直にインデックス漏れの心配が無いbi-gramを利用するべきだ。

本日現在、まだ、bi-gram実証用のコードをまったく書けていないので説得力が微妙なのだが。

"人名を検索するには?(2) kakasiの場合" へのコメントを書く

お名前
メールアドレス
ホームページアドレス
コメント