[Python-es] Fwd: Consejo sobre reconocimiento de voz
lasizoillo
lasizoillo en gmail.com
Dom Jul 7 07:00:21 EDT 2019
Buenas,
Te contesto sobre el mensaje
El dom., 7 jul. 2019 a las 1:23, Turriano (<turriano en gmail.com>) escribió:
>
> Estoy buscando soluciones para poder meter algunas palabras por audio
> ("adelante", "atrás", "derecha", "izquierda", "claxon" o "alarma". Por
> ejemplo) y cada una de éstas manejen una salida de los gpios.
> Mi intención es hacer una varsión de un carrito de la compra eléctrico,
> con el que suelo experimentar con varios sistemas de control.
> He probado por infrarrojos (por cierto, que no funcionó) :-( y con mejor
> éxito mediante rc y con una botonera y cables directamente conectada a
> los motores.
> Vosotros que sabéis mucho más que yo:
> ¿Qué librerías o qué sistemas podría usar para esto?
>
>
Siempre que he buscado librerías para hacer eso que tu comentas acabo un
poco desesperado. Por ejemplo en este post
https://realpython.com/python-speech-recognition/ comentan 7 librerias de
las cuales solo pocketsphinx permite reconocer voces sin conectarse a
internet. SpeechRecognition es un frontend de este último entre otros. El
resto carecen de toda utilidad para hacer cosas de robótica sin conexión a
internet (que es lo suyo).
Mirando pocketsphinx le he visto que tiene como lenguajes ingles, frances,
italiano y chino. Español no. También viene con una suite para entrenar
idiomas que no me he mirado porque siempre me entra la pereza para hacer lo
que quiero hacer, pero tiene pinta de que es lo suyo para tu caso concreto
(entrenar un número reducido de hotwords o palabras clave):
https://cmusphinx.github.io/wiki/tutoriallm/
En la descripción del paquete SpeechRecognition habla de otra librería que
permite trabajar offline:
https://pypi.org/project/SpeechRecognition/
Se trata de snowboy. Y parece* que con esta librería también valdría para
lo que quieres. En la documentación incluso vienen ejemplos para hacer
cosas con la raspberry pi:
http://docs.kitt.ai/snowboy/#running-on-raspberry-pi
*Aunque no me queda claro de si puede trabajar con más de una hotword (una
para cada dirección del carrito, avance y parada) o solo sabe reconocer el
siri, ok google, alexa,... correspondiente.
Uno de los problemas habituales para poder avanzar en este campo es la
ausencia de bancos de datos públicos con los que trabajar. Hay una
iniciativa de mozilla para solucionar esto, así que ¡guay si salen de esta
lista colaboradores! y ¡más aún si salen colaboradoras!
https://voice.mozilla.org/
> Otros sistema que había pensado (aunque por ahora preferiría usar el
> primero que he comentado, que me detecte desde ambos lados del carrito,
> esquinas derecha e izquierda) y que cuando yo gire, una de las esquinas
> deje de detectarme y pare el motor contrario, obligando al carrito a
> girar (pues funciona con dos motores y gira parando uno de ellos).
>
Que te detecte a ti va a ser mucho más fácil que el reconocimiento de voz,
pero que no detecte a troyano igual no es tan fácil :-)
Un saludo,
Javi
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20190707/9a53202b/attachment.html>
Más información sobre la lista de distribución Python-es