Markov chains maybe? You could probably create a pretty fast db of sorts for checking on word to page relationships and word to word relationships. Or else a normal db could probably do it pretty fast. Break the page into words and remove common words (
<a name="preposition"><strong>prepositions, etc)</strong></a> and keep a database of word:page pairs. Simply go through the words on the new page and check for other pages with the same words. If any other page scores to high then there you go. I'd probably go with the simple chains as it's a lot lighter solution and could probably be made to be pretty quick.
<br><br><div><span class="gmail_quote">On 10/3/07, <b class="gmail_sendername">Abandoned</b> <<a href="mailto:besturk@gmail.com">besturk@gmail.com</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi..<br>I'm working a search engine project now. And i have a problem. My<br>problem is Duplicate Contents..<br>I can find the percentage of similarity between two pages but i have a<br>5 millions index and i search 5 million page contents  to find one
<br>duplicate :(<br><br>I want to a idea for how can i find duplicate pages quickly and fast ?<br><br>Please help me, i'm sorry my bad english.<br>King regards..<br><br>--<br><a href="http://mail.python.org/mailman/listinfo/python-list">
http://mail.python.org/mailman/listinfo/python-list</a><br></blockquote></div><br>