Leer desde python PDF's y MS-Word
Garikoitz Araolaza
gari en eibar.org
Lun Jul 7 09:10:06 CEST 2003
At 09:03 07/07/03, you wrote:
>Buenos dias, necesito poder sacar el texto de este tipo de documentos para
>poder indexarlos en una bb.dd.
Para PDF tienes pdftotext, que es una utilidad que viene con el paquete
xpdf de linux. Básicamente convierte de PDF a txt, con lo que después es
muy fácil indexarlo en BBDD.
Para MS-Word también hay filtros en wvWare (http://www.wvware.com)
Hay un producto Zope de Nuxeo (empresa francesa) que indexa todo este tipo
de documentos (incluso PowerPoint), aunque hay que instalar uno a uno cada
filtro para cada tipo de documento. Le puedes echar un vistazo en
http://www.zope.org/Members/sf/NuxDocument/
Saludos
_________________________________________
Garikoitz Araolaza
gari en eibar.org
Más información sobre la lista de distribución Python-es