文字コードの取り扱いは難しい。

 RSSからベイズ推定をしようとしているのだが文字コードの処理などで行き詰まる。

 今のやり方は正規表現がよく分からないので,一旦ファイルをダウンロードして,IISのテキストストリームに取り込み不必要なコードをReplaceで排除し,最終的にSQL文に置換するという力業で行っている(所詮素人)。これだと配布元のRSSのレイアウトが変わったら対応できないし,未知のサイトには対応できない。
 また,文字コードもXMLはUFT-8が標準なので,どこかでコード変換を掛けとかないと,そのままでは文字が認識できない。
 ということで,BloggerPeopleのRSSを取得できるようにした以降は,Bloggerの提供するサイトを抜き出したり,更新頻度の統計を取ってみたりした以外は手が付けられない。

 やはりここはPerlをちゃんと勉強して汎用性の高いものを作るべきかな。

コメント

このブログの人気の投稿

2才5ヶ月の息子の絵が上手すぎる!

何故MSはOffice Document Imaging を捨てたのか、、、

url に日本語が含まれている場合の Firefox と IE の挙動の違い。

Nexus 9の熱暴走癖、バッテリーが少ないと発生しやすいようだ。

IKEA KOLON(フロアプロテクター)は床に悪影響を与える可能性がある。

Firefox urlエンコード機能をUTF-8化する方法。

Xfce環境でCaps LockをCtrlに変える。

インドレストラン「シュクリヤ」

和製衝撃緩衝機構

インド料理の食べ方