Expresiones regulares

Ceritium ceritium en gmail.com
Dom Mayo 15 12:51:49 CEST 2005


Tal vez la cuestion sea como organizar el indize, yo personalmente ( y
sin haber hecho esto nunca antes) examinaria la pagina, cogeria todas
las palabras y las meteria en un indice, y a cada palabra le asociaria
esa web, luego para la sigueinte paginas cogeria todas las palabras y
a las ya existentes tambien le asociaria esa web y con los que no pos
las añadiria e igual.

Luego en otra tabla con las wbes indexadas les pondria algun dato que
me indexase el orden.

Asi luego en la busqueda no seria tan pesado en mi opinión.

On 5/15/05, Adrian Ferreres Esteller <raro82 en hotmail.com> wrote:
> Hola a todos:
> 
>      ¿Os acordais de mi? soy el que esta desarrollando una araña web en
> python. La cosa es que, despues de hablarlo con mi profesor, la utilidad que
> le voy a dar a mi araña sera la de un motor de un buscador web. La idea es
> descargarse las paginas en el disco duro y crear una base de datos de
> paginas web donde los indices de acceso rapido son el contenido de dichas
> paginas. El problema es que para la capacidad de mi ordenador no creo que
> crear un indice en la base de datos de paginas web ordenadas por todas las
> palabras de su contenido sea inteligente asi que decidi ser selectivo. Solo
> clasificare las paginas web por las palabras que este dentro de las
> etiquetas de cabecera, de cabeza de tabla, en negrita, o que sirvan de link.
> Creo que la logica es sencilla: las palabras claves de una pagina, y por lo
> tanto las que marcan la tematica de la misma, son aquellas que estan
> destacadas. Para conseguir esto utilizo expresiones regulares:
> 
>          Una para capturar todas las etiquietas de titulos:
>                <h[1-4>.+</h[1-4]>
>         Otra para capturar las cabeceras de tablas:
>               <th .*>.+</th>
>         Otras para captura las negritas:
>               <b>.+</b>
>               <strong>.+</strong>
>         Y la ultima para capturar las palabras de los links:
>               <a .*>.+</a>
> 
> Para asegurarme que estas expresiones funcionaban cree una pagina web donde
> habia un tipo distinto de cada una de estas estiquetas y me encontre con la
> sorpresa de que la expresion regular <b>.+</b> me capturaba la siguiente
> linea:
> 
>      <th align=center>Ejemplo de cabecera de tabla</th>
> 
> Y me ignoraba la que tenia que coger:
> 
>      <b>Ejemplo de negrita1</b>
> 
> Mis preguntas son: ¿Que fallos tengo en la expresión regular de caputrar
> negrita? ¿Son estas expresiones regulares correctas para lo que busco
> conseguir?
> 
> Muchas gracias a todos
> 
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es
> 


-- 
http://ceritium.blogsome.com




Más información sobre la lista de distribución Python-es