Detección del encoding por el parser html de libxml2

Cesar Ortiz cesar.ortiz en gmail.com
Mie Feb 8 11:54:09 CET 2006


  **

Hola,

Estoy parseando documentos html usando el parser de html incluido en
libxml2.

Si el documento incluye el encoding todo va bien, pero si no lo incluye,
parece que no lo detecta. Sin embargo, en 
http://xmlsoft.org/encoding.html<http://www.google.com/url?sa=D&q=http://xmlsoft.org/encoding.html>se
indica que debería detectarlo.


Por ejemplo, si pongo una palabra en tiene caracteres en utf-8 en un
documento donde el resto del texto son caracteres validos (tanto en latin1
como en utf-8), me hace lo siguiente: reducción --> reducción.

La forma de usar el parser es la siguiente (lo uso en modo SAX): creo un
contexto mediente htmlCreatePushParser() y despues uso htmlParseChunk().

¿Es posible que la detección del encoding no funcione con htmlParseChunk()?
¿O simplemente me estoy olvidando de algo?

En caso de que esta sea la forma en que se comporta, me tocará a mí intengar
hacer la detección y proporcionarsela al parser :(.

Gracias, César




Más información sobre la lista de distribución Python-es