|
知人からPDFファイルが送られてきた。 加工するためにテキストデータを抽出しようとしたのだが、意味不明な文字列が出てくるばかり。 たとえばこんな感じ。 «¬®¯ これは、PDF上のテキストを選択して、このブログの投稿画面にペーストしたもの。 ちなみに元の文字列は まっかちん Adobe Reader 9.3.2 上では、人の目ではこう読める。 ファイルメニューからテキストとして保存しようとしても、やはり文字化け化けだ。 なぜこうなるのかと思い、PDFファイルのプロパティを見てみたところ、 PDF変換: Mac OS X 10.3.9 Quartz PDFContext となっていた。 pdftkを使ってuncompressしようとしたら、何か例外が発生してプロセスが途中で終了してしまった(発生した例外をきちんとメモしておかなかったことが悔やまれる)。 xdoc2txt を使ってテキストデータ化しようとしたところ、やはり文字化け化け。 結局のところ、何だかよくわからないというのが今のところの暫定結論。 |
| << 前記事(2010/05/18) | ブログのトップへ | 後記事(2010/06/02) >> |
| タイトル (本文) | ブログ名/日時 |
|---|
| 内 容 | ニックネーム/日時 |
|---|---|
「編集不可」として保存されたPDFじゃないですかねぇ〜。 |
茶尾 2010/05/20 15:59 |
茶尾さんこんにちわ。 |
kazuyoshikakihara 2010/05/21 07:10 |
フォントの問題かも。。。 |
茶尾 2010/05/22 21:45 |
なるほど、茶尾さん、ありがとうございます。 |
kazuyoshikakihara 2010/05/24 07:14 |
激しく出遅れましたが、PDFの技術的なことはさておき…「まっかちん」とは東京都西部の方言で「ハサミに毛が生えてる大物のアメリカザリガニ」のことですか?! |
ぶりき 2010/06/15 13:13 |
ぶりきさん、こんにちは。 |
kazuyoshikakihara 2010/06/16 05:55 |
| << 前記事(2010/05/18) | ブログのトップへ | 後記事(2010/06/02) >> |