That sucks! In all seriousness, if you only have to support the later &#39;docx&#39; format, those things are actually a zip file packed with XML. Inside you can find the text in an XML file (I think document.xml) and fish out the text.<div>
<br></div><div>If you have to support the older formats, there is an Apache POI project (I have not played with it).</div><div><br></div><div>When I was up against this, I had the docs saved &quot;as a web page&quot; and then consumed them with Beautiful Soup. I needed structure, style tags, etc, and &#39;Soup did well by me.<br>
<div><br><div class="gmail_quote">On Tue, Feb 2, 2010 at 8:30 PM, Glen Jarvis <span dir="ltr">&lt;<a href="mailto:glen@glenjarvis.com">glen@glenjarvis.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
No, that isn&#39;t pirate talk.. unless you want it to be...<br>
<br>
That is an interesting new problem that was put on my plate... at 8<br>
pm...  to be solved by morning....  argh matey...<br>
<br>
Unfortunately, many bioinformatics teams have a disconnect between<br>
computer science and biologists...  For example, I, as a computer<br>
scientist, sometimes hear Charlie Brown&#39;s teacher (mwah wah wah mwah)<br>
and don&#39;t understand even what I&#39;m supposed to do (and thus I should<br>
take more biology courses)... And, the biologists sometimes don&#39;t<br>
understand the benefit and limitations of technology and what they are<br>
asking for...<br>
<br>
One of the things that has been requested of us to take an MS word<br>
file that has been used to enter plain text. The file should be<br>
uploaded via webpage (done). The file should strip out all of the MS<br>
Word formatting so that we process only the text (And why not just<br>
upload a plain text file again? hmm? This is what is *really* wanted).<br>
<br>
In my introduction to Python a few years ago, I remember reading that<br>
there are python modules to read MS Word. Can these libraries be run<br>
on Linux/Unix, or is a .NET framework needed (we&#39;re a Linux only<br>
shop)?<br>
<br>
Most importantly, can this be done? Please say we can do something<br>
like this on any platform because Python rocks:<br>
<br>
from dot_net import MSWordDoc<br>
<br>
word_file = open(&#39;my_example.doc&#39;, &#39;r&#39;)<br>
word_doc = MSWordDoc(word_file)<br>
word_file.close()<br>
<br>
text_only = word_doc.convert_to_text(encoding=&#39;ascii&#39;)<br>
<br>
Obviously I made up that syntax. If anyone ever finds this on the web<br>
looking for the same answer, *don&#39;t* use the the above code.. It&#39;s<br>
fake...<br>
<br>
Cheers,<br>
<br>
<br>
Glen<br>
P.S. Bonus if I can get an equivalent of the Unix &quot;file&quot; utility:<br>
&gt; file sillywalk.doc<br>
sillywalk.doc: Microsoft Office Document<br>
_______________________________________________<br>
Baypiggies mailing list<br>
<a href="mailto:Baypiggies@python.org">Baypiggies@python.org</a><br>
To change your subscription options or unsubscribe:<br>
<a href="http://mail.python.org/mailman/listinfo/baypiggies" target="_blank">http://mail.python.org/mailman/listinfo/baypiggies</a><br>
</blockquote></div><br></div></div>