RSSからベイズ推定をしようとしているのだが文字コードの処理などで行き詰まる。
今のやり方は正規表現がよく分からないので,一旦ファイルをダウンロードして,IISのテキストストリームに取り込み不必要なコードをReplaceで排除し,最終的にSQL文に置換するという力業で行っている(所詮素人)。これだと配布元のRSSのレイアウトが変わったら対応できないし,未知のサイトには対応できない。
また,文字コードもXMLはUFT-8が標準なので,どこかでコード変換を掛けとかないと,そのままでは文字が認識できない。
ということで,BloggerPeopleのRSSを取得できるようにした以降は,Bloggerの提供するサイトを抜き出したり,更新頻度の統計を取ってみたりした以外は手が付けられない。
やはりここはPerlをちゃんと勉強して汎用性の高いものを作るべきかな。
0 件のコメント:
コメントを投稿