Expresiones regulares
David Asorey Álvarez
forodejazz en gmail.com
Mie Mayo 18 11:52:46 CEST 2005
> [...]
> Creo que la logica es sencilla: las palabras claves de una pagina, y por lo
> tanto las que marcan la tematica de la misma, son aquellas que estan
> destacadas. Para conseguir esto utilizo expresiones regulares:
>
> Una para capturar todas las etiquietas de titulos:
> <h[1-4>.+</h[1-4]>
> Otra para capturar las cabeceras de tablas:
> <th .*>.+</th>
> Otras para captura las negritas:
> <b>.+</b>
> <strong>.+</strong>
> Y la ultima para capturar las palabras de los links:
> <a .*>.+</a>
>
> Para asegurarme que estas expresiones funcionaban cree una pagina web donde
> habia un tipo distinto de cada una de estas estiquetas y me encontre
> con la [... sigue ...]
¿Has leído el capítulo de Dive into Python dedicado al 'HTML processing'?
Échale un vistazo, que puede que te ahorre mucho trabajo.
Saludos.
David.
--
David Asorey Álvarez
forodejazz en gmail.com
Más información sobre la lista de distribución Python-es