民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS Mac OS X で作成したPDFからテキスト抽出ができない件

<<   作成日時 : 2010/05/19 01:51   >>

面白い ブログ気持玉 1 / トラックバック 0 / コメント 6

知人からPDFファイルが送られてきた。
加工するためにテキストデータを抽出しようとしたのだが、意味不明な文字列が出てくるばかり。
たとえばこんな感じ。
«¬­®¯

これは、PDF上のテキストを選択して、このブログの投稿画面にペーストしたもの。
ちなみに元の文字列は
まっかちん

Adobe Reader 9.3.2 上では、人の目ではこう読める。

ファイルメニューからテキストとして保存しようとしても、やはり文字化け化けだ。

なぜこうなるのかと思い、PDFファイルのプロパティを見てみたところ、
PDF変換: Mac OS X 10.3.9 Quartz PDFContext
となっていた。

pdftkを使ってuncompressしようとしたら、何か例外が発生してプロセスが途中で終了してしまった(発生した例外をきちんとメモしておかなかったことが悔やまれる)。

xdoc2txt を使ってテキストデータ化しようとしたところ、やはり文字化け化け。

結局のところ、何だかよくわからないというのが今のところの暫定結論。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 1
面白い

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(6件)

内 容 ニックネーム/日時
「編集不可」として保存されたPDFじゃないですかねぇ〜。
http://bit.ly/abiJGF
茶尾
2010/05/20 15:59
茶尾さんこんにちわ。
何度もAdobe Readerのプロパティで確認したけれど、テキスト抽出は許可されているんですよね。
kazuyoshikakihara
2010/05/21 07:10
フォントの問題かも。。。
http://bit.ly/aeO3gh
茶尾
2010/05/22 21:45
なるほど、茶尾さん、ありがとうございます。
そっちの方向からも調べてみます。
でも、元のPDFを作ったのが自分じゃないので、いろいろと限界はありそうですが。
kazuyoshikakihara
2010/05/24 07:14
激しく出遅れましたが、PDFの技術的なことはさておき…「まっかちん」とは東京都西部の方言で「ハサミに毛が生えてる大物のアメリカザリガニ」のことですか?!
ぶりき
2010/06/15 13:13
ぶりきさん、こんにちは。
私も東京出身の人間ではないのでよくわからないのですが、とりあえず武蔵野近辺の人はアメリカザリガニのことをまっかちんと言うようですよ。
マッカーサーから転化した言葉だとか言う人もいました。
kazuyoshikakihara
2010/06/16 05:55

コメントする help

ニックネーム
本 文
Mac OS X で作成したPDFからテキスト抽出ができない件 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる