Parsear ficheros SGML

Victor Peinado vitojph en gmail.com
Jue Sep 29 10:17:34 CEST 2005


¡Hola!

> Parsear sgml?. Qué buscas exactamente? Para trabajar con xml yo uso 4Suite [1]
> y especialmente Amara. Amara es un juguetito que a lo mejor no funciona bien con documentos
> enormes. Pero para ello tendrías que convertir en xml tus documentos sgml.
> Si el documento es muy grande tendrás que usar SAX como sugieres en tu email.

Necesito ir recorriendo los ficheros SGML, extrayendo determinandos
campos e indexando la información que me interese con Lucene. Ya lo
tengo hecho con SAX, después de haber xmlizado un poco el SGML
original. Los ficheros sí son grandes, del orden de 100 Mb cada uno.

> [1] http://4suite.org/index.xhtml
> [2] http://uche.ogbuji.net/tech/4suite/amara/

¿Qué tal son estas herramientas? He leído acerca de ellas pero nunca
las he usado. Echaré un vistazo. Gracias y saludos.

--
Víctor Peinado || <vitojph /> || http://nlp.uned.es/~victor
¡Ningún investigador sin contrato! http://www.precarios-madrid.org




Más información sobre la lista de distribución Python-es