プロセルピナ
Top Internet
Mail
Private
Proxy
Capture
Device
Download Config
and
Words
Online
Help
Online
Home
[BACK]
Top > Mail > Filtering > Bayesian > Diet

 
  Bayesian辞書のダイエット
Mail Filter
Top | Menu | IpBlacklist | Bayesian | Edit | Commands   


Bayesian辞書から出現頻度の低い登録を削除し、辞書のサイズを軽量化することができます。

Bayesian辞書に登録されている各単語には、メールでの出現回数が記録されています。 例えば 通常メールとして2通、ジャンクメールとして1通のメールを学習させた場合で、 それぞれが「あいうえお」という単語を含んでいた場合、 Bayesian辞書の「あいうえお」という単語の出現回数には 3が加算されます。

一方、Bayesianフィルタによる判定処理では、Bayesian辞書に登録がある単語でも 出現回数の低い場合は使用されません。
例えば、Bayesian辞書にメールを学習させた結果、 「あいうえお」という単語の出現回数に3が加算されたとします。 それまで単語「あいうえお」の出現回数が少なかった為に 判定に使用されていなかった場合でも、 3の加算によって閾値を超えると 以降は判定に使用されるようになります。 超えなかった場合は 引き続きまだ使用されません。
Bayesian辞書に登録されている全ての単語は、メールの学習が進んで、 閾値を超えた時点で 初めて判定処理に使用されるようになります。 それまでは待機状態になっています。

Bayesian辞書には、メールの学習で解析した単語がすべて登録されています。
その中には1度しか出現せず その後の学習が進んでも全くカウントが増えない出現度の低い単語も多く含まれていて、 それが辞書容量を肥大化させる要因になっています。
Bayesian辞書のダイエットで、こうした死蔵状態の登録を削除することができます。

辞書のダイエットは、学習がある程度進んだ時点で行います。 あまり頻繁に行うと、出現カウンタが増加して閾値を超える前に 単語の登録が削除されてしまうので、 辞書の精度を上げることができません。
減量するかどうかは、 Bayesian辞書ファイル(ctrlフォルダのwordDB.txt)のサイズが 1MB近くにまで増加しているかどうかを目安に判断するのが 効率的です。


 
ダイエットの手順

View部メインフォームのメニューから 「メールの操作(Mail) > 受信メールの振り分け (Filtering) > Bayesian辞書の減量 (Reduce Bayesian Dictonary)...」 を選択します。
開いたフォームから「作成方法」と「減量レベル」を指定します。

作成方法で「Create new file」を選択した場合、ctrlフォルダにある現在のBayesian辞書ファイルとは別に wordDB.txtファイル を作成します。減量のテストを行う場合はこの作成方法を選択します。
Bayesian辞書を置き換える場合は、「Replace current dictionary」を選択します。 メモリ上に展開されている使用中のBayesian辞書が置き換えられ、 View部終了時には 新たにwordDB.txtが作成されます (それまでのwordDB.txtはwordDB.txt.bakにリネームされます)。

減量レベルは、1~3程度で指定します(推奨値は1)。 数値が大きいほど減量が大きくなります。
1から10の範囲で設定できますが、 5以上では判定に使用している登録も削除の対象となるので、判定精度が低下する可能性があります。
[BACK]
プロセルピナ