2005年5月25日
OSの再インストール後に一番大変なこと。
OSの再インストールで一つ手痛い失敗をしてしまいました。現在それに時間が取られて苦労しています。
それは何かというと,メールの内容を解析してスパムメールを排除できるようにする "POPFile" というソフトです。
原理は,まず POPFile がメールクライアントから受信依頼を受け取ると,メールサーバから代理受信(プロキシ:proxy)します。受け取ったメールは POPFile 内部で言語要素解析され,自分が設定したバケツ(分類カテゴリ)に関する単語毎の頻出率の統計が作成されます。
この統計に従って,例えば,スパムメールで使われそうな単語 " discount XX% " がよく出てきて,なおかつ あまり使われない単語,例えば "database" というような言葉が出てこないという傾向を統計的な判断が行われます。(過去に起きた事象の傾向は将来の事象にも発生する確率が高いというベイズ推定という論理によります。)
一つ一つのメールに対し,この作業が行われ一番該当する確率が高いバケツに分類され,ラベリング(subjectへのバケツ名の追加やメールヘッダーへの項目追加)したうえで,メールクライアントにメールを引き渡します。
どんなメールをどのようなバケツに分類するかを POPFile は当初は判断できませんので,人間がそれを教えていかなければなりません。学習能力は高いのですが,当初はメールを一つずつ見てどのバケツに該当するかを判断し,指定していく必要があります。
この作業が大変というか時間がかかり,メーリングリストやメールマガジンが沢山あると結構大変です。なおかつ,分類精度が上がってある程度 POPFile にお任せができるようになって,どうしても分類ミスやたまにしか来ないメールがあるのでそれを見つけ出すのが結構面倒臭い。
一番古いメールアドレスは既に9年も持っているものなので,一日100件から200件のスパムメールを呼び込んでしまいます。もうこのメールは捨てたいんですけど,なかなか踏ん切りが付かない。でもそろそろ見直そう。
ということで,データだけの移動は簡単なのですが,経験の移行というは大変です。POPFileの分類データを持ち出しとけば良かったんですけどね。いっそのことメールのデータフォルダーに作っておけば移行が楽か。
登録:
コメントの投稿 (Atom)
-
接点復活剤 というのは、錆びたり汚れが付いたことによって導通が悪くなった金属接点を復活させる薬剤だ。一般家庭ではほとんど使うことはないようなものであるが、一つ面白い使い方がある。面白いだけではなく、非常に実用的で、なおかつ感動的なので 超級 のお勧めだ。 接点復活剤の効能と...
-
以前に、 Ubuntu で 右クリックでファイルのパスを取得したい と書いたのだが、今日 How do I copy file path - Ubuntu Forums というページを見つけたので、確認してみたら、なんと...。 対象の写真(ファイル)をコピー(Ctrl+...
-
六甲アイランドにまた歩いていくことにしたので、六甲アイランドでは老舗のインド料理店「インド村 IndoMura」でカレーを食べた。メニューを見ると、カダイマトンという皿の下に熾き(炭)を置いたカレーがあったので、カレーマニアとしては、珍しいものを食べたいのでそれを頼んでみた。ス...
0 件のコメント:
コメントを投稿