I used PDFMiner and I was pretty satisfied with the text portions. I retrieved all the text and was able to manipulate it according to my wish. However I failed on Image part. So Technically my question reduces to &#39;If there  a PDF document and some verbose text below them and the pattern is followed i.e. per page of PDF there will be one image and some texts following it, how can I retrieve both the images and the text without loss&#39; ?<br>
<br><div class="gmail_quote">On Tue, Dec 29, 2009 at 2:59 PM, Alan Gauld <span dir="ltr">&lt;<a href="mailto:alan.gauld@btinternet.com">alan.gauld@btinternet.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
&quot;Shashwat Anand&quot; &lt;<a href="mailto:anand.shashwat@gmail.com" target="_blank">anand.shashwat@gmail.com</a>&gt; wrote<div class="im"><br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I need to make a database from some PDFs. I need to extract logos as well as<br>
the information (i.e. name,address) beneath the logo and fill it up in<br>
database. The logo can be text as well as picture as shown in two of the<br>
screenshots of one of the sample PDF file:<br>
<a href="http://imagebin.org/77378" target="_blank">http://imagebin.org/77378</a><br>
<a href="http://imagebin.org/77379" target="_blank">http://imagebin.org/77379</a><br>
</blockquote>
<br></div>
You could try PDFMiner to extract direct from the PDF using Python.<div class="im"><br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Will converting to html  a good option? Later on I need to apply some image<br>
processing too. What should be the ideal way towards it ?<br>
</blockquote>
<br></div>
Converting to html (assuming you have a tool to do that!) may be better<br>
since there are a wider choice of tools and more experience to help you.<br>
Or there are various commercial tools for converting PDF into Word etc.<br>
<br>
I&#39;ve never personally had to extract data from a PDF, I&#39;ve always had access<br>
to the source documents so I can&#39;t comment on how effective each approach<br>
is...<br>
<br>
-- <br>
Alan Gauld<br>
Author of the Learn to Program web site<br>
<a href="http://www.alan-g.me.uk/" target="_blank">http://www.alan-g.me.uk/</a> <br>
<br>
_______________________________________________<br>
Tutor maillist  -  <a href="mailto:Tutor@python.org" target="_blank">Tutor@python.org</a><br>
To unsubscribe or change subscription options:<br>
<a href="http://mail.python.org/mailman/listinfo/tutor" target="_blank">http://mail.python.org/mailman/listinfo/tutor</a><br>
</blockquote></div><br>