民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS NMZ.w (Namazuが検索に使う単語帳)を見てみた

<<   作成日時 : 2008/07/05 09:45   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

Namazuはインデックス方式の全文検索ソフトウェアである。事前に検索対象の文書のインデックス(索引ファイル)を作っておき、検索はその索引ファイルに対して行われることになる。なので、べたにすべての元ファイルを検索するよりも圧倒的に速いわけである。今日、ふと気になることがあって、手元のインデックスファイルの一部を見てみた。
以前、勤め先の本を検索するために作った独立のインデックスファイルで、インデックス類のすべてのファイルをまとめても5MByte程度の大きさだ。この中で、特に、単語帳の役割を果たす、NMZ.wというファイルを見てみた。NMZ.wは単なるテキストファイルなので、上書き保存さえしないように注意すればテキストエディタで開いて中を見ることができる。
最初の一単語は「"」(ダブルクオーテーション)だった。記号類から始まって、アルファベット、ひらがな、カタカナ、漢字と文字コード順に単語が並んでいる。インデックス化された単語は全部でおよそ45,000あった。
と、ここまではよかったのだが、われながらショックだったのは、うち30,000語、60%以上がひらがなだけの単語だったということだ。

----
としてもできるだけの
としてもなるべく
としてももてはやされ
としてもよく
としてやっていることではなく
としてやや
としてよい
としてよいか
としてわからず
としない
としないから
としないからである
としないが
としないこと
としないこととし
----

こんな感じで30,000行。一応専門図書で、本を見る限りはそれほどひらがなだらけではないのだが。
それだけ日本語にひらがなが溶け込んでいるということなのだろうか、それともNamazu(厳密には分かち書きに使ったKAKASI)の特性なのだろうか。
この本に関しては、内容からして、ひらがなだけの単語を検索するということはありえないと断言できる。この辺の使わない単語をどうにかして削ってしまえれば、インデックスを小さくすることができるかも知れないと、ふと思った。

ネットワークごしにファイル共有とかでNamazuを使っていると、この程度の努力でもパフォーマンスに差が出てくるもので。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
NMZ.w (Namazuが検索に使う単語帳)を見てみた 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる