[Python-es] Extraer un trozo de un codigo HTML
Aldo Martinez Selleras
aldo en caonao.cu
Mar Jun 23 13:39:07 EDT 2020
colegas, estoy tratando de extraer, desde el cuerpo de un mensaje de
correo, algunos trozos de texto
logro tener el cuerpo, pero no hay forma de q pueda sacar, ciertas
lineas, para luego poder sacar el dato q necesito, si me puedieran dar
alguna ayuda al respecto, lo agradeceria
el proyecto es revisar un buzon y a partir de un filtro de mensajes x el
asunto, extraer datos de una orden para ir guardando un registro de
estas, quizas estoy pensando mal la logica, acepto cualquier sugerencia
oimap.select("Inbox")
typ, data = oimap.search(None, 'ALL')
e_bodies = []
for numin data[0].split():
typ, data = oimap.fetch(num, '(RFC822)')
msg = email.message_from_string(data[0][1].decode())
# decode = email.header.decode_header(msg['Subject']) # print('Message
%s: %s' % (num.decode(), msg["Subject"])) # Body details for partin msg.walk():
if part.get_content_type() =="text/html":
# part.get_content_type() body = part.get_payload()
# en este punto, necesito filtrar el cuerpo del mensaje, que es un
codigo HTML, y extraer # algunas lineas
oimap.close()
oimap.logout()
y asi seria de la parte del codigo HTML q necesito extraer datos
<h5> Destinatario </h5>
<br>
Nombre: Customer Fullname<br>
Carnet de Identidad: 09876543219<br>
<br>
Pais : Cuba<br>
Provincia: Camaguey<br>
Municipio: Camaguey<br>
Ciudad: Camaguey<br>
Direccion: Address<br>
<br>
Numero de Telefono: 32987654
pero no logro, llegar a la parte, en la que puedo, el texto que viene en
el payload parsearlo, linea x linea :(
mil gracias x adelantado
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20200623/0bf04561/attachment.html>
Más información sobre la lista de distribución Python-es