OpenCage: PDFは扱いづらい。

2004年10月7日

PDFは扱いづらい。

PDFからテキストを抜き出すのは一苦労。なんで，項目を選択して20行以上下の項目が選択されるんだか？？

　PDFは作ったとおりにレイアウトを再現してくれるが，その内容がそっくりそのまま文書の中に内包されているかというと，全然そうではないのです。ひとまとまりの文章の塊が行を越えていたり，縦に並んでいたり，単語単位ならともかく，文をテキストとして取り扱うのは非常に厄介。
　PDFは印刷用（閲覧用）媒体であって，情報媒体ではないですね。