民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS 「ひがしきょうと」を検索

<<   作成日時 : 2008/07/06 22:52   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

検索システムの開発に関して調査していたところ、N-gram検索の弱点として、「京都」で検索したら「東京都」がヒットしてしまうというのが挙げられていた。「東京都」という単語に「京都」の文字が含まれているからだ。これがもしもNamazuなどで採用されている形態素解析による検索なら「東京都」は「東京都」という一つの単語として認識されるので、「京都」で検索しても「東京都」は別物ということでヒットすることはない。というのが一般的な説明となっている。
しかし、ここでふと気になったのが、「東京都」。これ、自分は東京在住だからついつい「とうきょうと」と読んでしまうが、状況によっては「ひがしきょうと」と読む場面もあるのではないかという点。もしも「ひがしきょうと」がありならば「京都」で「東京都」もヒットしたほうが都合がいいかも知れない。もちろん、それでも「ひがしきょうと」というのが固有の一つの地名ならばやはり「京都」でヒットするのは好ましくないことになるというややこしい話なのだが。

まあとりあえずGoolgeで「ひがしきょうと」を検索したところ、一番嫌な検索結果が出てしまった。とりあえず「ひがしきょうと」という地名は無いようなのだが...。自動車ディーラーの「ホンダ東京都店」というのがあるらしい。もちろん、「ひがしきょうと」店。これは「京都」でヒットしなければいけないだろう。

さて、ここからどう結論を導くのかが難しいのだが、これは冷静に考えると、N-gramでの検索の弱点が否定されたというのではなく、「京都」で検索したら「東京都」がヒットするという例がよくなかったというべきだろう。今すぐに適切な例は思い浮かばないが「京都」「東京都」はとにかくよくない。
またこれとは別に形態素解析でいった場合「ホンダ東京都店」をどうやって「京都」でヒットさせるのかという難しい課題も出てきてしまった。単に日本語の文法を理解するだけでなく、前後の文の意味まで加味して単語の切れ目を判断できるような形態素解析システムがなければ「ホンダ東京都店」を「京都」でヒットさせることはできないだろう。

いや、本当は、「京都」で検索した場合に「東京都」がヒットするということが、検索する側の立場から見て自然かどうか、その点について記事を書くつもりだったのだが、調査が思わぬ方向に進展してしまった。
N-gramだろうが形態素解析だろうが、「京都」で検索したのなら「東京都」もヒットしたほうが自然だという人も中にはいるかも知れないと思って調べ始めたのだったが...

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
「ひがしきょうと」を検索 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる