PDF関連でまた困ったツール発見
以前のバージョンの Sumatra PDF viewer には、印刷禁止のPDFが印刷できてしまう問題があるということを、かつてこのブログで報告した。印刷禁止のPDFといっても、実態は、単に「印刷しないでね」というデータがPDFファイルに含まれているというだけであって、それを真にうけて印刷しないか、そのようなものは無視して印刷できるようにしてしまうかは、ビューワの開発者が決めることなので、「絶対印刷できない」わけではないのだ。「印刷してほしくない」という意思表示レベルのものだという認識のもとで、そういったPDFは作成する必要がある。
で、今日見つけてしまったのは、テキストデータ抽出を禁止してあるPDFからテキストデータを抽出できてしまうツールだ。
世の中にはこんなツールもあるから「テキストデータ抽出禁止」のPDFを作成する際は注意しないといけないよ、という趣旨で、そのツールを紹介してしまおうかとも思いはした。が、実際は、Google検索などで、「テキストデータ抽出禁止のPDFからテキストを抽出するツール」を探してこの記事にたどり着く人のほうが多いのだろうと思い、どのツールであるかまでは明記しないことにした。
pdftkやpdftotextなど、有名どころのツールでは、このようなことができないように、きっちりと内部で制御されているのだが、ちょっとマイナーなツールになると、お約束違反ができてしまうので、PDFを作成する人は、よほど注意をする必要がある。本当にテキスト抽出されたくないのであれば、PDFの「テキスト抽出禁止」ではなく、サードパーティ製のもうちょっと凝ったプロテクトツールを使わなければならない。
...しかし、世の中、どうしてテキスト抽出を禁止するのかよくわからない文書がテキスト抽出禁止になっていたりするから困ったものだ。
で、今日見つけてしまったのは、テキストデータ抽出を禁止してあるPDFからテキストデータを抽出できてしまうツールだ。
世の中にはこんなツールもあるから「テキストデータ抽出禁止」のPDFを作成する際は注意しないといけないよ、という趣旨で、そのツールを紹介してしまおうかとも思いはした。が、実際は、Google検索などで、「テキストデータ抽出禁止のPDFからテキストを抽出するツール」を探してこの記事にたどり着く人のほうが多いのだろうと思い、どのツールであるかまでは明記しないことにした。
pdftkやpdftotextなど、有名どころのツールでは、このようなことができないように、きっちりと内部で制御されているのだが、ちょっとマイナーなツールになると、お約束違反ができてしまうので、PDFを作成する人は、よほど注意をする必要がある。本当にテキスト抽出されたくないのであれば、PDFの「テキスト抽出禁止」ではなく、サードパーティ製のもうちょっと凝ったプロテクトツールを使わなければならない。
...しかし、世の中、どうしてテキスト抽出を禁止するのかよくわからない文書がテキスト抽出禁止になっていたりするから困ったものだ。
この記事へのコメント