[Python-es] Extraer texto de un pdf

Kiko kikocorreoso en gmail.com
Mie Abr 13 07:51:25 EDT 2016


El 13 de abril de 2016, 13:46, Javier Sangalo <jjsangalo en gmail.com>
escribió:

> Siento molestaros de nuevo, pero hay algunos pdfs que cuando hago *extractText()
> *lo que obtengo es un conjunto de lineas en blanco, y no logro saber
> porqué.
> Con otros pdf funciona sin problema, pero con este por ejemplo (
> http://boe.es/boe_n/dias/2016/04/13/not.php?id=BOE-N-2016-199370 ) solo
> obtengo lineas en blanco
>
> Quizás sea por algo relacionado con la codificación del pdf, pero no
> encuentro ninguna opción para cambiar la codificación.
>

Puedes poner código con lo que estás intentando y pdf's donde te suceda
para que se pueda reproducir el comportamiento?


>
> Muchas gracias de antemano.
>
> Un saludo.
>
> El 13 de abril de 2016, 9:32, Javier Sangalo <jjsangalo en gmail.com>
> escribió:
>
>> Muchisimas gracias a todos!!
>> Funciona sin problema!!
>>
>> El 12 de abril de 2016, 16:21, Robert <robert.chile en gmail.com> escribió:
>>
>>> Hola javier, otro ejemplo de uso PyPDF2
>>> <https://github.com/colemana/PyPDF2>:
>>>
>>> http://stackoverflow.com/questions/18755412/parse-a-pdf-using-python
>>>
>>> Saludos.
>>>
>>> --
>>> Roberto Beroiza Alvear
>>>  Linux User # 533916
>>>           Chile
>>>
>>> 2016-04-11 11:17 GMT-03:00 Javier Sangalo <jjsangalo en gmail.com>:
>>>
>>>> Buenas tardes,
>>>>
>>>> Estoy intentando extraer información de un pdf y trato de instalarme
>>>> algunas librerías como pdf2text o pdfMiner pero no consiguo completar la
>>>> instalación.
>>>> Estoy usando anaconda en windows y según he leido, algunas de estas
>>>> librerías no son compatibles con windows.
>>>> Alguien sabríadecirme si existe alguna librería similar que pueda
>>>> instalar en windows?
>>>>
>>>> Muchas gracias de antemano.
>>>>
>>>> _______________________________________________
>>>> Python-es mailing list
>>>> Python-es en python.org
>>>> https://mail.python.org/mailman/listinfo/python-es
>>>> FAQ: http://python-es-faq.wikidot.com/
>>>>
>>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> Python-es mailing list
>>> Python-es en python.org
>>> https://mail.python.org/mailman/listinfo/python-es
>>> FAQ: http://python-es-faq.wikidot.com/
>>>
>>>
>>
>
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20160413/b329d861/attachment.html>


Más información sobre la lista de distribución Python-es