検索できないPDFの悲しい生い立ち

書籍をベースにしたPDFファイル群をNamazuで検索できるようにしてやろうとして、このところ悪戦苦闘している。今日のPDFファイルはまた奇妙な現象を見せてくれた。文章中に「枇杷」という単語があるのだが、これがどうしても検索できないのだ。他の単語は問題なく検索できるというのに。
納得いかないので、ファイルをAdobe Readerで開いて、Ctrl+Fで検索してみたところ、「枇杷」についてはやはり検索できないことが判明した。
これは何かあるということで、文章をpdftotextでテキスト化して、エディタで開いてみる。と、原因は単純だった。
「枇杷」という文字にルビがふられていたのだ。単にルビがふられていただけならば検索は可能なはずである。が、「枇杷(びわ)」となるようにルビをふってあればいいのに、わざわざ「枇(び)杷(わ)」となるように文字ごとに分けてルビがふってあったのだ。これだとテキストデータは「枇び杷わ」となってしまうので、Namazuでは検索できない。もちろんAdobe Readerでも。

なぜ、こんな奇妙なルビのふり方をするのかというと、それには一応理由がある。
出版物を組版する際に「枇(び)杷(わ)」とルビをふったほうが、それぞれのルビが漢字の真上にくるので、印刷物がきれいに仕上がるのだ。組版屋さんが気を利かせてくれていたのだ。
もちろん、DTPソフトによってはこのような配慮は意味を成さないこともあるのだが。
で、このたびは、この組版屋さんの配慮が意味を成さないどころか、裏目に出てしまったのだ。あ、いや、印刷をきれいにするという意味では意味があったのだが、PDFファイルを作って全文検索できるようにするという目的からは外れてしまったわけだ。

せっかく組版屋さんが配慮してくれた結果なのだから、これについては頭ごなしに「これじゃ検索できないじゃないか」とクレームをつけるわけにはいかない。まあ、冷静に状況を編集担当と組版屋さんに説明して、善処をお願いするしかない。

いやしかし、原因を見つけるのに苦労した。そして、誰も傷つけないお願いの言葉をこれから考えるのにまた苦労する。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック