Expresiones regulares

David Asorey Álvarez forodejazz en gmail.com
Mie Mayo 18 11:52:46 CEST 2005


> [...]
> Creo que la logica es sencilla: las palabras claves de una pagina, y por lo
> tanto las que marcan la tematica de la misma, son aquellas que estan
> destacadas. Para conseguir esto utilizo expresiones regulares:
> 
>          Una para capturar todas las etiquietas de titulos:
>                <h[1-4>.+</h[1-4]>
>         Otra para capturar las cabeceras de tablas:
>               <th .*>.+</th>
>         Otras para captura las negritas:
>               <b>.+</b>
>               <strong>.+</strong>
>         Y la ultima para capturar las palabras de los links:
>               <a .*>.+</a>
> 
> Para asegurarme que estas expresiones funcionaban cree una pagina web donde
> habia un tipo distinto de cada una de estas estiquetas y me encontre 
> con la [... sigue ...]


¿Has leído el capítulo de Dive into Python dedicado al 'HTML processing'?
Échale un vistazo, que puede que te ahorre mucho trabajo.

Saludos.

David.


-- 
David Asorey Álvarez
forodejazz en gmail.com




Más información sobre la lista de distribución Python-es