文字コードの取り扱いは難しい。

 RSSからベイズ推定をしようとしているのだが文字コードの処理などで行き詰まる。

 今のやり方は正規表現がよく分からないので,一旦ファイルをダウンロードして,IISのテキストストリームに取り込み不必要なコードをReplaceで排除し,最終的にSQL文に置換するという力業で行っている(所詮素人)。これだと配布元のRSSのレイアウトが変わったら対応できないし,未知のサイトには対応できない。
 また,文字コードもXMLはUFT-8が標準なので,どこかでコード変換を掛けとかないと,そのままでは文字が認識できない。
 ということで,BloggerPeopleのRSSを取得できるようにした以降は,Bloggerの提供するサイトを抜き出したり,更新頻度の統計を取ってみたりした以外は手が付けられない。

 やはりここはPerlをちゃんと勉強して汎用性の高いものを作るべきかな。

コメント

このブログの人気の投稿

何故MSはOffice Document Imaging を捨てたのか、、、

蘇民将来子孫家門の注連縄

2才5ヶ月の息子の絵が上手すぎる!

url に日本語が含まれている場合の Firefox と IE の挙動の違い。

ヤマモガシ(山茂樫、Helicia cochinchinensis Lour.)の大木 三重県鳥羽市相差(おおさつ)

Technorati Weblog: Welcome to our new Public Beta!

ベジタリアンを軽んじたらアカン

インド料理の食べ方

モールミラガイ(カードチリ)