<br><div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">---------- Forwarded message ----------<br>From: "D.Hering" <<a href="mailto:vel.accel@gmail.com">
vel.accel@gmail.com</a>><br>To: <a href="mailto:python-list@python.org">python-list@python.org</a><br>Date: Sun, 04 Nov 2007 19:42:16 -0800<br>Subject: Re: Python good for data mining?<br>On Nov 3, 9:02 pm, Jens <<a href="mailto:j3n...@gmail.com">
j3n...@gmail.com</a>> wrote:<br>> I'm starting a project indatamining, and I'm considering Python and<br>> Java as possible platforms.<br>><br>> I'm conserned by performance. Most benchmarks report that Java is
<br>> about 10-15 times faster than Python, and my own experiments confirms<br>> this. I could imagine this to become a problem for very large<br>> datasets.</blockquote><div><br><snip> <br></div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
><br>> I really like Python for a number of reasons, and would like to avoid<br>> Java.</blockquote><div><br>I've been working with databases -- many in the terabyte size -- for over 20 years and my advice to you is to learn how to use SQL to do most of the work for you.  There is (almost) nothing you can't do with a good database (we use Oracle and Postgres, but I hear that MySQL is good, too).  We have over 100 stored procedures and some of our queries are a bit long; some with over 30 JOINS, but our queries are fast enough.  We even generate XML and EDI-X12 directly from the database via stored procedures.
<br><br>I used to pull as much as I could back from the database and them manipulate it with C using abstract data types and record layouts with lots of pointers.  Now I use Python to access the base and let the database do most of the heavy lifting.  Life is good.
<br></div><br></div>--greg<br><br>