Expresiones regulares

Mie Mayo 18 11:52:46 CEST 2005

> [...]
> Creo que la logica es sencilla: las palabras claves de una pagina, y por lo
> tanto las que marcan la tematica de la misma, son aquellas que estan
> destacadas. Para conseguir esto utilizo expresiones regulares:
> 
>          Una para capturar todas las etiquietas de titulos:
>                <h[1-4>.+</h[1-4]>
>         Otra para capturar las cabeceras de tablas:
>               <th .*>.+</th>
>         Otras para captura las negritas:
>               <b>.+</b>
>               <strong>.+</strong>
>         Y la ultima para capturar las palabras de los links:
>               <a .*>.+</a>
> 
> Para asegurarme que estas expresiones funcionaban cree una pagina web donde
> habia un tipo distinto de cada una de estas estiquetas y me encontre 
> con la [... sigue ...]

¿Has leído el capítulo de Dive into Python dedicado al 'HTML processing'?
Échale un vistazo, que puede que te ahorre mucho trabajo.

Saludos.

David.

-- 
David Asorey Álvarez
forodejazz en gmail.com