[Python-es] OT Detectar similitud de datos

Chema Cortes pych3m4 en gmail.com
Vie Nov 22 01:51:02 CET 2013


El día 21 de noviembre de 2013 17:13, Miguel Beltran R.
<yourpadre en gmail.com> escribió:
> Hola lista,
>
> En mi trabajo me pidieron que hiciera un sistema que detectara similitud en
> unos datos para revisar que no nos esten engañando. Se supone que con un
> analizador se toman lecturas de diferentes vehiculos pero en ocasiones
> ciertas personas usan un mismo vehiculo para ser analizado en lugar del que
> se capturo, es decir en lugar los datos de V1, V2 y V3 tengo realmente los
> datos V1, V1 y V1. Los datos nunca son iguales pero si son similares.
>
> La estructura de los datos es basicamente así:
>
> campo - valor - descripcion
> ID - 1 - quien genera los datos (unos 600 analizadores)
> año - 2007 - año del vehiculo que se supone se esta midiendo. Mayor año,
> menor el valor de a1.
> modelo - UNO - identificador del vehiculo
> a1 - 11.0 - dato1
> b1 - 0.03 - dato2
> c1 - 14.9 - dato3
> d1 - 0.30 - dato4
> a2 - 13.0 - dato1 medido en otras condiciones
> b2 - 0.04 - dato2 medido en otras condiciones
> c2 - 14.8 - dato3 medido en otras condiciones
> d2 - 0.30 - dato4 medido en otras condiciones
>
>
> Alguien que me pueda dar una pista de como hacer esto

Si entiendo bien, tienes varias medidas sobre un producto y quieres
averiguar cuáles son similares.

¿Qué hay que entender por "similares"? Cada vehículo tendrá un modo de
identificarlo, algo similar a una huella dactilar. Si los datos son
dependientes, se podría establecer una función identity que nos
indique que dos vehículos con valores similares son, probablemente, el
mismo. La parametrización se debería refinar mediante técnicas de
aprendizaje mecánico. Usa Orange y scikit.

Si las características son independientes, tendrás que aplicar la
estadística clásica y hallar correlaciones entre datos. Para ello,
pandas o R te podrán ayudar.

No sé cómo se están haciendo estas medidas, pero para evitar engaños
hay que actuar desde el principio. Primero, aleatorizando la muestra
que mide cada revisor de modo que no se pueda relacionar fácilmente
dos vehículos. Lo segundo, creando un grupo de control con vehículos
que sean medidos por dos o más revisores. Tercero, creando una
auditoría sobre cada grupo de medidas, no sólo si son falsas, si no si
están correctamente registradas, si son coherentes, etc., desechando
las que tengan demasiados errores o volviéndolas a hacer.


Saludos

>
> Gracias de antemano.
>
> --
> ________________________________________
> Lo bueno de vivir un dia mas
> es saber que nos queda un dia menos de vida
>
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>



-- 
Hyperreals *R  "Quarks, bits y otras criaturas infinitesimales":
http://ch3m4.org/blog
Buscador Python Hispano: http://ch3m4.org/python-es


Más información sobre la lista de distribución Python-es