PDFは扱いづらい。

PDFからテキストを抜き出すのは一苦労。なんで,項目を選択して20行以上下の項目が選択されるんだか?? PDFは作ったとおりにレイアウトを再現してくれるが,その内容がそっくりそのまま文書の中に内包されているかというと,全然そうではないのです。ひとまとまりの文章の塊が行を越えていたり,縦に並んでいたり,単語単位ならともかく,文をテキストとして取り扱うのは非常に厄介。
 PDFは印刷用(閲覧用)媒体であって,情報媒体ではないですね。

コメント

このブログの人気の投稿

ベジタリアンを軽んじたらアカン

何故MSはOffice Document Imaging を捨てたのか、、、

2才5ヶ月の息子の絵が上手すぎる!

インド料理の食べ方

url に日本語が含まれている場合の Firefox と IE の挙動の違い。

Waze を使うと、Google Maps のタイムラインが粗いのが不思議。

カリフラワーは旨いな。

モールミラガイ(カードチリ)

六甲アイランドの翠亨園の飲茶バイキング。

Technorati Weblog: Welcome to our new Public Beta!