Indexación de textos en castellano

Jesus Cea Avion jcea en argo.es
Mie Ene 15 15:42:35 CET 2003


Hace mucho que no recibo correo de esta lista. ¿Sigue viva? :-).

Estoy intentando hacer un "catalog" de ZOPE para mi web personal, y me
encuentro con los siguientes problemas:

a) El sistema debería encontrar las palabras tanto que tengan tildes
como que no. Es decir, poder buscar "módulo" o "modulo", y que me
encuentre las ocurrencias tanto de "módulo" como de "modulo", en ambos
casos.

b) Por razones históricas, mis páginas usan "HTML encoding" para los
caracteres españoles. Es decir, en vez de "módulo", aparece
"módulo". ¿Cómo indexo eso correctamente?.

En resumidas cuentas, necesitaría que tanto en la indexación como en la
búsqueda se trabajase con palabras "normalizadas". Es decir, palabras
pasadas a ISO-8859-1 (mejor aún si es ISO-8859-15, por aquello del euro)
y sin acentos. De esa forma "modulo", "módulo" y "módulo" se
almacenarían de la misma forma: "modulo".

Puedo programar en Python, asi que si alguien me puede ofrecer un punto
de partida... Supongo que tendré que crearme un nuevo "vocabulario".
¿Cómo lo hago?. ¿Alguien ha hecho algo similar?

Gracias anticipadas.

PS: Estoy usando Zope 2.6.0.

-- 
Jesus Cea Avion                         _/_/      _/_/_/        _/_/_/
jcea en argo.es http://www.argo.es/~jcea/ _/_/    _/_/  _/_/    _/_/  _/_/
                                      _/_/    _/_/          _/_/_/_/_/
PGP Key Available at KeyServ   _/_/  _/_/    _/_/          _/_/  _/_/
"Things are not so easy"      _/_/  _/_/    _/_/  _/_/    _/_/  _/_/
"My name is Dump, Core Dump"   _/_/_/        _/_/_/      _/_/  _/_/
"El amor es poner tu felicidad en la felicidad de otro" - Leibniz




Más información sobre la lista de distribución Python-es