PDFは扱いづらい。

PDFからテキストを抜き出すのは一苦労。なんで,項目を選択して20行以上下の項目が選択されるんだか?? PDFは作ったとおりにレイアウトを再現してくれるが,その内容がそっくりそのまま文書の中に内包されているかというと,全然そうではないのです。ひとまとまりの文章の塊が行を越えていたり,縦に並んでいたり,単語単位ならともかく,文をテキストとして取り扱うのは非常に厄介。
 PDFは印刷用(閲覧用)媒体であって,情報媒体ではないですね。

コメント

このブログの人気の投稿

url に日本語が含まれている場合の Firefox と IE の挙動の違い。

2才5ヶ月の息子の絵が上手すぎる!

何故MSはOffice Document Imaging を捨てたのか、、、

Ubuntu で 右クリックでファイルのパスを取得したい → 難しいことは不要だった。

Firefox urlエンコード機能をUTF-8化する方法。

Nexus 5X が起動しなくなり、Sony Xperia XA1 Plus を買ったのだがカメラが残念すぎる。

モレスキンのページは何枚あるでしょうか?

門司港の中華料理店「萬龍」は美味しくって親切でいいお店

巨大な鉄塔の中心から真上を見上げて