2004/12/06

文字コードの取り扱いは難しい。

 RSSからベイズ推定をしようとしているのだが文字コードの処理などで行き詰まる。

 今のやり方は正規表現がよく分からないので,一旦ファイルをダウンロードして,IISのテキストストリームに取り込み不必要なコードをReplaceで排除し,最終的にSQL文に置換するという力業で行っている(所詮素人)。これだと配布元のRSSのレイアウトが変わったら対応できないし,未知のサイトには対応できない。
 また,文字コードもXMLはUFT-8が標準なので,どこかでコード変換を掛けとかないと,そのままでは文字が認識できない。
 ということで,BloggerPeopleのRSSを取得できるようにした以降は,Bloggerの提供するサイトを抜き出したり,更新頻度の統計を取ってみたりした以外は手が付けられない。

 やはりここはPerlをちゃんと勉強して汎用性の高いものを作るべきかな。

0 件のコメント: