<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<?xml-stylesheet href="./style.css" type="text/css"?>
<html>
<!-- THIS PAGE IS AUTOMATICALLY GENERATED.  DO NOT EDIT. -->
<!-- Thu Feb  7 22:15:53 2008 -->
<!-- USING HT2HTML 2.0 -->
<!-- SEE http://ht2html.sf.net -->
<!-- User-specified headers:
Title: SpamBayes: Bayesian anti-spam classifier written in Python.

-->

<head>
<title>SpamBayes: Bayesian anti-spam classifier written in Python.</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="generator" content="HT2HTML/2.0">
<link rel="STYLESHEET" href="./style.css" type="text/css">
<base href="http://spambayes.sourceforge.net/">
</head>
<body bgcolor="#ffffff" text="#000000"
      marginwidth="0" marginheight="0"
      link="#0000bb"  vlink="#551a8b"
      alink="#ff0000">
<!-- start of page table -->
<table width="100%" border="0" cellspacing="0" cellpadding="0">
<!-- start of banner row -->
<tr>
<!-- start of corner cells -->
<td width="150" valign="middle" bgcolor="#ffffff" class="corner">

<center>
    <a href="http://www.student.virginia.edu/~improv/games/findthespam.html">
    <img alt="" border="0" src="./images/logo.png"></a></center> </td>
<td width="15" bgcolor="">&nbsp;&nbsp;</td><!--spacer-->
<!-- end of corner cells -->
<!-- start of banner -->
<td width="90%" bgcolor="" class="banner">
<!-- start of site links table -->
<table width="100%" border="0"
cellspacing="0" cellpadding="0"
       bgcolor="#ffffff">
<tr>
    <td bgcolor="">
<a href="http://sourceforge.net/projects/spambayes/index.html">SF Project Page</a>
    </td>
    <td bgcolor="">
<a href="faq.html">Frequently Asked Questions</a>
    </td>
    <td bgcolor="">
&nbsp;&nbsp;</td>
    <td bgcolor="">
&nbsp;&nbsp;</td>
</tr>
</table><!-- end of site links table -->

</td><!-- end of banner -->
</tr><!-- end of banner row -->
<tr><!-- start of sidebar/body row -->
<!-- start of sidebar cells -->
<td width="150" valign="top" bgcolor="" class="sidebar">
<!-- start of sidebar table -->
<table width="100%" border="0" cellspacing="0" cellpadding="3"
class="sidebar"       bgcolor="#ffffff">
<tr><td class="headerSidebar" background="images/gutter-hi.png">
About the Project
</font></b></td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<b>Home page</b>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="background.html">Background</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="docs.html">Documentation</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="applications.html">Applications</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="quotes.html">Reviews/Quotes</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="developer.html">Developers</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="related.html">Related</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="donations.html">Donate</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png">&nbsp;
<tr><td class="headerSidebar" background="images/gutter-hi.png">
Platforms
</font></b></td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="windows.html">Windows</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="unix.html">Unix/Linux</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="mac.html">Mac OS</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png">&nbsp;
<tr><td class="headerSidebar" background="images/gutter-hi.png">
Getting the code
</font></b></td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="download.html">Releases</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="download.html#svn">Subversion access</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png">&nbsp;
<tr><td class="headerSidebar" background="images/gutter-hi.png">
Contact Us
</font></b></td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="contact.html">Contact details</a>
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
&nbsp;
</td></tr>
<tr><td class="normalSidebar" background="images/gutter.png" >
<a href="http://sourceforge.net/projects/spambayes">
<div align="right">
    <img alt="" border="0"
         src="http://sourceforge.net/sflogo.php?group_id=61702&type=1"></div>
</a>
</td></tr>
</table><!-- end of sidebar table -->

</td>
<td width="15">&nbsp;&nbsp;</td><!--spacer-->
<!-- end of sidebar cell -->
<!-- start of body cell -->
<td valign="top" width="90%" class="body"><br>

<h2>SpamBayes Downloads</h2>

<table cellspacing="0" cellpadding="2" border="1">

<tr>
<th>Operating System</th><th>Mail Program</th><th>Stable Release</th><th>Test Release</th><th>Notes</th>
</tr>

<tr>
<td>Windows&nbsp;XP</td><td>Outlook 2000/2003/2007</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.0.4.exe?download">1.0.4</a></td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4-070629.exe?download">1.1a4</a></td><td>&nbsp;</td>
</tr>

<tr>
<td>Windows&nbsp;Vista</td><td>Outlook 2003/2007</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.0.4.exe?download">1.0.4</a></td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4-070629.exe?download">1.1a4</a></td><td>&nbsp;</td>
</tr>

<tr>
<td>Windows&nbsp;XP</td><td>Outlook Express</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.0.4.exe?download">1.0.4</a></td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4-070629.exe?download">1.1a4</a></td><td>&nbsp;</td>
</tr>

<tr>
<td>Windows&nbsp;Vista</td><td>Windows Live Mail</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.0.4.exe?download">1.0.4</a></td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4-070629.exe?download">1.1a4</a></td><td>&nbsp;</td>
</tr>

<tr>
<td>Windows&nbsp;XP/Vista</td><td>IncrediMail</td><td>&nbsp;</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4.tar.gz?download">1.1a4</a></td><td>Untested.  POP3 only?</td>
</tr>

<tr>
<td>Any</td><td>Thunderbird</td><td>&nbsp;</td><td><a href="http://pieces.openpolitics.com/thunderbayes/">Thunderbayes</a></td><td>Tighter integration similar to Outlook plugin</td>
</tr>

<tr>
<td>Any</td><td>Gmail</td><td>&nbsp;</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4.tar.gz?download">1.1a4</a></td><td>POP3 works.  IMAP maybe (untested).</td>
</tr>

<tr>
<td>Any</td><td>Yahoo! Mail</td><td>&nbsp;</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4.tar.gz?download">1.1a4</a></td><td>Completely untested.</td>
</tr>

<tr>
<td>Any</td><td>MSN Hotmail</td><td>&nbsp;</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4.tar.gz?download">1.1a4</a></td><td>Completely untested.</td>
</tr>

<tr>
<td>Any</td><td>AOL Mail</td><td>&nbsp;</td><td>&nbsp;</td><td>Won't work (closed system).</td>
</tr>

<tr>
<td>Mac&nbsp;OS&nbsp;X/Linux/Solaris</td><td>Any</td><td>&nbsp;</td><td><a href="http://prdownloads.sourceforge.net/spambayes/spambayes-1.1a4.tar.gz?download">1.1a4</a></td><td>POP3/IMAP, etc.  Use The Source Luke!</td>
</tr>

</table>


<h2>News</h2>
<p>SpamBayes 1.0.4 is now available!  (This includes both the source
archives and a Windows binary installer).</p>
<p>See the <a href="download.html">download</a> page for more.</p>
<p>SpamBayes 1.1a4 is also now available!  (This currently includes only the
source archives).  This is an <em>alpha</em>
release, so you should only try it if you are willing to try out
experimental releases - otherwise stick with 1.0.4.</p>
<p>You may also like to see what <a href="quotes.html">other people have
been saying about us in the press and elsewhere</a>.</p>

<h2>What is SpamBayes?</h2>
<p>
The SpamBayes 
project is working on developing a statistical (commonly, although a little
inaccurately, referred to as <a href="docs.html#glossary">Bayesian</a>)
anti-spam filter, initially based on the work of 
<a href="http://www.paulgraham.com/spam.html">Paul Graham.</a>

The major difference between this and other, similar projects 
is the emphasis on testing newer approaches to scoring messages.

While most anti-spam projects are still working with the 
original graham algorithm, we found that a number of alternate methods 
yielded a more useful response.

This is documented on the <a href="background.html">background</a> page.
</p>

<p>SpamBayes is not a single application.  The core code is a message
classifier, however there are several applications available as part of the
SpamBayes project which use the classifier in specific contexts.  For the
most part, the current crop of applications all operate on the client side
of things, however, a number of people have experimented with using
SpamBayes on mail servers to classify incoming mail for multiple users.  The
table below outlines the main applications which are part of the SpamBayes
distribution.</p>

<table border="1" cellspacing="0" cellpadding="2">
<tr>
<th>Application</th>
<th>Description</th>
</tr>

<tr>
<th>Outlook Plugin</th>
<td>A plugin for Microsoft Outlook which tightly integrates classification
and training into the Outlook interface</td>
</tr>

<tr>
<th>Pop3proxy / sb_server</th>
<td>A mail filter which sits between the user's POP3 server(s) and the
user's mail client and presents a web-based training interface</td>
</tr>

<tr>
<th>Imapfilter</th>
<td>A mail filter similar to pop3proxy but which talks the IMAP
protocol</td>
</tr>

<tr>
<th>Hammiefilter / sb_filter</th>
<td>A simple mail filter suitable for embedding in a procmail
environment</td>
</tr>

</table>


<h2>That's great, but what's SpamBayes?</h2>
<h3>(the non-technical hand-waving answer)</h3>

<p>SpamBayes will attempt to classify incoming email messages as 'spam', 
'ham' (good, non-spam email) or 'unsure'. This means you can have spam 
or unsure messages automatically filed away in a different mail folder,
where it won't interrupt your email reading. First SpamBayes must be 
<a href="docs.html#glossary">trained</a> by each user to identify spam 
and ham.

Essentially, you show SpamBayes a pile of email that you like (ham)
and a pile you don't like (spam).

SpamBayes will then analyze the piles for clues as to what makes the
spam and ham different. For example; different words, differences in the
mailer headers and content style. The system then uses these clues to
examine new messages.</p>

<p>For instance, the word "Nigeria" appears often in spam, so 
you could use a spam filter which identifies anything with that word in 
it as spam. But what if your business involves writing a guidebook on 
Nigerian Wildlife Conservation? 
Clearly a more flexible approach is necessary.

Additionally spammers 
will adapt their content over time and will no longer use the word 
"Nigeria" (or the words "Lose Weight Fast", or any number of other 
common lines). Ideally the software will be able to adapt as the spam changes.
</p>

<p>So, that
is what SpamBayes does. It compares the spam and the ham
and calculates probabilities. For instance, for me, the word "weight"
almost never occurs in legitimate email, but it occurs all the time in
'lose weight fast' spam. 

SpamBayes can then look at incoming email, extract the most significant 
clues and combine the probabilities to produce an overall rating of 
"spamminess". It flags the messages so that your mailer can handle 
the different message types. You might set it up so that ham goes 
straight through untouched, spam goes to a folder that you ignore (or
delete without checking) and the unsure messages go to another folder
which you can review for errors.</p>

<h2>How is SpamBayes different?</h2>
<p>There are a number of <a href="related.html">similar projects</a>
to SpamBayes - most are just using the original Paul Graham algorithm.
Examining the Graham technique with careful testing showed that it did a
remarkably good job, but there was considerable room for improvement. 
(See the <a href="background.html">background</a> page for more.)</p>


<p>The SpamBayes team tinkered with new
algorithms, tweaking existing algorithms, and, most importantly, did
enormous test runs, slamming tens of thousands of messages against
each other, in an attempt to quantify whether or
not a change to the system was beneficial.</p> 

<p>The new algorithm is
a combination of work from Gary Robinson and Tim Peters, and provides
not just a 'spam' and 'ham' rating, but also an 'unsure' rating, for
those messages where it can't work out how to rate the message.</p>

<p>See the <a href="background.html">background</a> page for more, well,
background.</p>


<p>The code (implemented in Python) is currently available from a variety
of methods from the <a href="download.html">downloads</a> page.
</p>

<p>
There are now a couple of end-user applications available for those
excited by the bleeding edge - these are detailed on the 
<a href="applications.html">Applications</a> page, and available as
part of the source download.
</p>


<h2>Credits</h2>
<p>Most of the heavy lifting on this project was done by Tim Peters, with
the cast of spambayes obsessive-compulsives providing ideas, heckling, and
testing. Gary Robinson provided a lot of the serious maths and theory, as
well as his essay on "how to do it better" (see the 
<a href="background.html">background</a> page for a link). Rob Hooft 
also contributed maths/stats clues.
Mark Hammond amazed the world with the Outlook2000 plug-in (with Tony Meyer,
Sean True, and Adam Walker making significant contributions),
and Richie Hindle, Neale Pickett, Tim Stone worked on the end-user applications.</p>
<p>(Thanks also to Rachel Holkner for turning Anthony's gibberish into something
closer to actual English, although all mistakes are Anthony's.)</p>

</td><!-- end of body cell -->
</tr><!-- end of sidebar/body row -->
</table><!-- end of page table -->
</body></html>