2005年5月25日

OSの再インストール後に一番大変なこと。

貝に収まったイダコ。結構いいもの食ってます。須磨海浜水族園にて
 OSの再インストールで一つ手痛い失敗をしてしまいました。現在それに時間が取られて苦労しています。

 それは何かというと,メールの内容を解析してスパムメールを排除できるようにする "POPFile" というソフトです。

 原理は,まず POPFile がメールクライアントから受信依頼を受け取ると,メールサーバから代理受信(プロキシ:proxy)します。受け取ったメールは POPFile 内部で言語要素解析され,自分が設定したバケツ(分類カテゴリ)に関する単語毎の頻出率の統計が作成されます。
 この統計に従って,例えば,スパムメールで使われそうな単語 " discount XX% " がよく出てきて,なおかつ あまり使われない単語,例えば "database" というような言葉が出てこないという傾向を統計的な判断が行われます。(過去に起きた事象の傾向は将来の事象にも発生する確率が高いというベイズ推定という論理によります。)

 一つ一つのメールに対し,この作業が行われ一番該当する確率が高いバケツに分類され,ラベリング(subjectへのバケツ名の追加やメールヘッダーへの項目追加)したうえで,メールクライアントにメールを引き渡します。

 どんなメールをどのようなバケツに分類するかを POPFile は当初は判断できませんので,人間がそれを教えていかなければなりません。学習能力は高いのですが,当初はメールを一つずつ見てどのバケツに該当するかを判断し,指定していく必要があります。

 この作業が大変というか時間がかかり,メーリングリストやメールマガジンが沢山あると結構大変です。なおかつ,分類精度が上がってある程度 POPFile にお任せができるようになって,どうしても分類ミスやたまにしか来ないメールがあるのでそれを見つけ出すのが結構面倒臭い。

 一番古いメールアドレスは既に9年も持っているものなので,一日100件から200件のスパムメールを呼び込んでしまいます。もうこのメールは捨てたいんですけど,なかなか踏ん切りが付かない。でもそろそろ見直そう。

 ということで,データだけの移動は簡単なのですが,経験の移行というは大変です。POPFileの分類データを持ち出しとけば良かったんですけどね。いっそのことメールのデータフォルダーに作っておけば移行が楽か。

0 件のコメント: