[Python-es] Analizar pdfs

Ernesto Crespo ecrespo en gmail.com
Vie Ago 28 16:19:57 CEST 2015


Puedes revisar los siguientes:


   - peepdf <http://eternal-todo.com/tools/peepdf-pdf-analysis-tool>:
   Python tool to analyse and explore PDF files to find out if they can be
   harmful
   - Didier Stevens' PDF tools
   <http://blog.didierstevens.com/programs/pdf-tools>: analyse, identify
   and create PDF files (includes PDFiD
   <http://blog.didierstevens.com/programs/pdf-tools/#pdfid>, pdf-parser
   <http://blog.didierstevens.com/programs/pdf-tools/#pdf-parser> and
   make-pdf <http://blog.didierstevens.com/programs/pdf-tools/#make-pdf> and
   mPDF)
   - Opaf <http://code.google.com/p/opaf/>: Open PDF Analysis Framework.
   Converts PDF to an XML tree that can be analyzed and modified.
   - Origapy <http://www.decalage.info/python/origapy>: Python wrapper for
   the Origami Ruby module which sanitizes PDF files
   - pyPDF2 <http://mstamy2.github.io/PyPDF2/>: pure Python PDF toolkit:
   extract info, spilt, merge, crop, encrypt, decrypt...
   - PDFMiner <http://www.unixuser.org/~euske/python/pdfminer/index.html>:
   extract text from PDF files
   - python-poppler-qt4 <https://github.com/wbsoft/python-poppler-qt4>:
   Python binding for the Poppler PDF library, including Qt4 support


------------
Ernesto Crespo

http://ve.linkedin.com/in/ernestocrespo
http:// <http://blog.crespo.org.ve>*blog.crespo.org.ve
<http://blog.crespo.org.ve>*
https://people.djangoproject.com/ecrespo/
https://github.com/ecrespo
https://bitbucket.org/ecrespo
https://twitter.com/_seraph1
https://www.facebook.com/ernesto.crespo
https://plus.google.com/u/0/+ErnestoCrespo
http://grooveshark.com/ernesto.crespo <http://grooveshark.com/>
Huella de clave = 10D1 46D5 A1E8 B40F 0993  BC9A 9683 1307 C973 0469 (nueva
a 4096 bits)
Buenas personas que trabajan juntas pueden crear grandes cosas.
“Sé curioso. Lee mucho. Trata nuevas cosas. Creo que lo que mucha gente
llama inteligencia solo se reduce a la curiosidad”. Aaron Swartz
Innovar, es hacer que el futuro sea hoy - Seraph1
‎"Comienzo con la premisa de que la función del lider es producir más
líderes, no más seguidores." Ralph Nader


El 28 de agosto de 2015, 9:05 a. m., Kiko<kikocorreoso en gmail.com> escribió:

>
>
> El 28 de agosto de 2015, 15:11, Gonzalo V <gvm2121 en gmail.com> escribió:
>
>> Hola a todos!!
>> Quería preguntarles si existe o me pueden recomendar un módulo que
>> analice pdfs para extraerles datos y poder hacer estadísticas, en fin, lo
>> que sea.
>>
>>
> Échale un ojo a esto:
> https://automatetheboringstuff.com/chapter13/
>
>
>> Muchas Gracias y buen findesemana
>>
>>
>> Saludos,
>> Gonzalo
>>
>> _______________________________________________
>> Python-es mailing list
>> Python-es en python.org
>> https://mail.python.org/mailman/listinfo/python-es
>> FAQ: http://python-es-faq.wikidot.com/
>>
>>
>
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20150828/11393a57/attachment.html>


Más información sobre la lista de distribución Python-es