[Python-es] sobre pdf

Chema Cortes pych3m4 en gmail.com
Lun Mayo 24 14:04:09 CEST 2010


El día 24 de mayo de 2010 09:35, matt ledding <matt en fifthbiz.com> escribió:

> Probablemente hay mejores soluciones por gente más puesto que yo, pero otra
> manera de extraer el texto de archivos PDF es llamar al comando de Linux
> "pdftotext" y usar el output.  No muy elegante, pero es un apaño...

Al menos ésa es la solución empleada por plone3 para indexar pdfs, por
lo que sospecho que no hay mucho más dónde elegir.

La utilidad "pdftotext" se instala junto con poppler-utils
(preferible) y con xpdf.



Más información sobre la lista de distribución Python-es