Leer desde python PDF's y MS-Word

Lun Jul 7 09:10:06 CEST 2003

At 09:03 07/07/03, you wrote:

>Buenos dias, necesito poder sacar el texto de este tipo de documentos para 
>poder indexarlos en una bb.dd.

Para PDF tienes pdftotext, que es una utilidad que viene con el paquete 
xpdf de linux. Básicamente convierte de PDF a txt, con lo que después es 
muy fácil indexarlo en BBDD.

Para MS-Word también hay filtros en wvWare (http://www.wvware.com)

Hay un producto Zope de Nuxeo (empresa francesa) que indexa todo este tipo 
de documentos (incluso PowerPoint), aunque hay que instalar uno a uno cada 
filtro para cada tipo de documento. Le puedes echar un vistazo en 
http://www.zope.org/Members/sf/NuxDocument/

Saludos

_________________________________________
Garikoitz Araolaza
gari en eibar.org