Extracción de metadatos de documentos

Chema Cortes py en ch3m4.org
Mar Sep 16 18:47:04 CEST 2008


El Friday 12 September 2008 14:43:50 Arnau Sanchez escribió:
> Chema Cortes escribió:
>   > ¿Conocéis de alguna librería que use varios formatos de ficheros? No
> >
> > necesito que sea multiplataforma.
>
> No los he usado en serio, pero alguna vez he probado "extract" (que usa
> libextractor) y la librería "python-hachoir-metadata". Eso sí, no creo que
> con ninguno de ellos puedas modificar los metadatos...
>
> Package: extract
> Description-es: Muestra los metadatos de archivos de cualquier tipo
>   Parecido al conocido programa «file», extract puede mostrar los metadatos
>   de un archivo e imprimir los resultados a stdout.
>   .
>   Actualmente, libextractor funciona con los siguientes formatos: HTML,
> PDF, PS, OLE2 (DOC, XLS, PPT), OpenOffice (sxw), StarOffice (sdw), DVI,
> MAN, MP3 (ID3v1 y ID3v2), OGG, WAV, EXIV2, JPEG, GIF, PNG, TIFF, DEB, RPM,
> TAR(.GZ), ZIP, ELF, REAL, RIFF (AVI), MPEG, QT y ASF.

He estado mirando las alternativas que me habéis sugerido. Mi interés iba más 
por los documentos de texto que por archivos multimedia, así que creo que me 
decantaré finalmente por "libextractor" y su módulo para python.

No extrae metadatos de archivos djvu, aunque siempre podría hacerlo con 
utilidades propias de djvulibre (sería un plugin a añadir al libextractor). 
Aún así, creo que emplearé una base de datos para almacenar y mantener los 
metadatos, tal como hacen otros gestores de documentos (doodle, medusa, 
thunar,...). Lo de modificar los metadatos dentro cada documento creo que lo 
dejará para otra ocasión.

Gracias por las sugerencias.
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 189 bytes
Desc: This is a digitally signed message part.
URL: <http://mail.python.org/pipermail/python-es/attachments/20080916/e127677e/attachment.pgp>
------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes


Más información sobre la lista de distribución Python-es