Namazuで日本語の表記のゆらぎに対処できるか

お仕事が舞い込んだ。

全文検索機能の付いたCD-ROMの制作だ。

Namazuでちょこちょこと作ってしまうノウハウは既にあるので、これまでと同じレベルの商品を作るだけでよいのならば、まあ、容易な類に入るだろう。
だが、自分としては、一つ仕事をする度に何かしら進化したポイントを入れたいので、今回は、「日本語の表記の揺らぎ」に多少なりとも対処することを一つのテーマにしたいと思った。

日本語の表記の揺らぎとは、例えば「揺らぎ」という単語を「ゆらぎ」と表現したり「揺らぎ」と表現したりするように、意味上は同じ言葉でも、微妙に表現が違ってしまう状態をいう。
素のNamazuでは「揺らぎ」と「ゆらぎ」を別の単語として認識してしまうため、文章内で「揺らぎ」という単語が使われているとした場合、「ゆらぎ」で検索してもその単語はヒットしないことになる。

現状考えられる案としては、
・類語辞書を利用する
・正規表現を利用する
・類語辞書といわないまでもプログラミングで例えば全語をひらがなとして扱ったりしてヒット率をあげる
といったところだ。

さらに追加するならば、元データの編集者を叱咤して、そもそも「表記が揺らがないようにする」という案もある。

明日以降、許された時間を最大限に活用して、この課題に取り組みたいと思う。

まあ、概して、「下手に凝ったことをするよりも、確実に動くシステムにして、コンピュータの苦手な分野は人間にまかせる」という結論に至ったりするものなのだが。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック