Mac OS X で作成したPDFからテキスト抽出ができない件

知人からPDFファイルが送られてきた。
加工するためにテキストデータを抽出しようとしたのだが、意味不明な文字列が出てくるばかり。
たとえばこんな感じ。
«¬­®¯

これは、PDF上のテキストを選択して、このブログの投稿画面にペーストしたもの。
ちなみに元の文字列は
まっかちん

Adobe Reader 9.3.2 上では、人の目ではこう読める。

ファイルメニューからテキストとして保存しようとしても、やはり文字化け化けだ。

なぜこうなるのかと思い、PDFファイルのプロパティを見てみたところ、
PDF変換: Mac OS X 10.3.9 Quartz PDFContext
となっていた。

pdftkを使ってuncompressしようとしたら、何か例外が発生してプロセスが途中で終了してしまった(発生した例外をきちんとメモしておかなかったことが悔やまれる)。

xdoc2txt を使ってテキストデータ化しようとしたところ、やはり文字化け化け。

結局のところ、何だかよくわからないというのが今のところの暫定結論。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 1

面白い

この記事へのコメント

茶尾
2010年05月20日 15:59
「編集不可」として保存されたPDFじゃないですかねぇ~。
http://bit.ly/abiJGF
kazuyoshikakihara
2010年05月21日 07:10
茶尾さんこんにちわ。
何度もAdobe Readerのプロパティで確認したけれど、テキスト抽出は許可されているんですよね。
kazuyoshikakihara
2010年05月24日 07:14
なるほど、茶尾さん、ありがとうございます。
そっちの方向からも調べてみます。
でも、元のPDFを作ったのが自分じゃないので、いろいろと限界はありそうですが。
ぶりき
2010年06月15日 13:13
激しく出遅れましたが、PDFの技術的なことはさておき…「まっかちん」とは東京都西部の方言で「ハサミに毛が生えてる大物のアメリカザリガニ」のことですか?!
kazuyoshikakihara
2010年06月16日 05:55
ぶりきさん、こんにちは。
私も東京出身の人間ではないのでよくわからないのですが、とりあえず武蔵野近辺の人はアメリカザリガニのことをまっかちんと言うようですよ。
マッカーサーから転化した言葉だとか言う人もいました。

この記事へのトラックバック