PDFは扱いづらい。

PDFからテキストを抜き出すのは一苦労。なんで,項目を選択して20行以上下の項目が選択されるんだか?? PDFは作ったとおりにレイアウトを再現してくれるが,その内容がそっくりそのまま文書の中に内包されているかというと,全然そうではないのです。ひとまとまりの文章の塊が行を越えていたり,縦に並んでいたり,単語単位ならともかく,文をテキストとして取り扱うのは非常に厄介。
 PDFは印刷用(閲覧用)媒体であって,情報媒体ではないですね。

コメント

このブログの人気の投稿

2才5ヶ月の息子の絵が上手すぎる!

url に日本語が含まれている場合の Firefox と IE の挙動の違い。

何故MSはOffice Document Imaging を捨てたのか、、、

インド料理の食べ方

帰ってきた Digital HiNote Ultra II

IKEA KOLON(フロアプロテクター)は床に悪影響を与える可能性がある。

Firefox urlエンコード機能をUTF-8化する方法。

Technorati Weblog: Welcome to our new Public Beta!

インドレストラン「シュクリヤ」

Nexus 9の熱暴走癖、バッテリーが少ないと発生しやすいようだ。