[Python-es] Extraer texto de un pdf

Javier Sangalo jjsangalo en gmail.com
Mie Abr 13 07:46:10 EDT 2016


Siento molestaros de nuevo, pero hay algunos pdfs que cuando hago
*extractText()
*lo que obtengo es un conjunto de lineas en blanco, y no logro saber porqué.
Con otros pdf funciona sin problema, pero con este por ejemplo (
http://boe.es/boe_n/dias/2016/04/13/not.php?id=BOE-N-2016-199370 ) solo
obtengo lineas en blanco

Quizás sea por algo relacionado con la codificación del pdf, pero no
encuentro ninguna opción para cambiar la codificación.

Muchas gracias de antemano.

Un saludo.

El 13 de abril de 2016, 9:32, Javier Sangalo <jjsangalo en gmail.com> escribió:

> Muchisimas gracias a todos!!
> Funciona sin problema!!
>
> El 12 de abril de 2016, 16:21, Robert <robert.chile en gmail.com> escribió:
>
>> Hola javier, otro ejemplo de uso PyPDF2
>> <https://github.com/colemana/PyPDF2>:
>>
>> http://stackoverflow.com/questions/18755412/parse-a-pdf-using-python
>>
>> Saludos.
>>
>> --
>> Roberto Beroiza Alvear
>>  Linux User # 533916
>>           Chile
>>
>> 2016-04-11 11:17 GMT-03:00 Javier Sangalo <jjsangalo en gmail.com>:
>>
>>> Buenas tardes,
>>>
>>> Estoy intentando extraer información de un pdf y trato de instalarme
>>> algunas librerías como pdf2text o pdfMiner pero no consiguo completar la
>>> instalación.
>>> Estoy usando anaconda en windows y según he leido, algunas de estas
>>> librerías no son compatibles con windows.
>>> Alguien sabríadecirme si existe alguna librería similar que pueda
>>> instalar en windows?
>>>
>>> Muchas gracias de antemano.
>>>
>>> _______________________________________________
>>> Python-es mailing list
>>> Python-es en python.org
>>> https://mail.python.org/mailman/listinfo/python-es
>>> FAQ: http://python-es-faq.wikidot.com/
>>>
>>>
>>
>>
>>
>> _______________________________________________
>> Python-es mailing list
>> Python-es en python.org
>> https://mail.python.org/mailman/listinfo/python-es
>> FAQ: http://python-es-faq.wikidot.com/
>>
>>
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20160413/4f193e50/attachment.html>


Más información sobre la lista de distribución Python-es