OpenCage: 文字コードの取り扱いは難しい。

2004年12月6日

文字コードの取り扱いは難しい。

　RSSからベイズ推定をしようとしているのだが文字コードの処理などで行き詰まる。

　今のやり方は正規表現がよく分からないので，一旦ファイルをダウンロードして，IISのテキストストリームに取り込み不必要なコードをReplaceで排除し，最終的にSQL文に置換するという力業で行っている（所詮素人）。これだと配布元のRSSのレイアウトが変わったら対応できないし，未知のサイトには対応できない。
　また，文字コードもXMLはUFT-8が標準なので，どこかでコード変換を掛けとかないと，そのままでは文字が認識できない。
　ということで，BloggerPeopleのRSSを取得できるようにした以降は，Bloggerの提供するサイトを抜き出したり，更新頻度の統計を取ってみたりした以外は手が付けられない。

　やはりここはPerlをちゃんと勉強して汎用性の高いものを作るべきかな。