Saltar al contenido

Common Voice, ayudando a desarrollar el reconocimiento de voz

Las voces de la gente suelen ser bastante distintas entre sí, lo cual para nosotros los humanos es natural y no nos supone ningún desafío al interpretarlas, pero para una computadora las diferencias entre voces pueden ser un gran desafío.

Mozilla Common Voice. Fuente: Mozilla Labs.

Desde hace algún tiempo la fundación Mozilla mantiene un proyecto llamado «Common Voice» («Voz común») que intenta aportar a solucionar este problema. El objetivo del proyecto es recopilar voces para formar un banco de datos (dataset) abierto para que desarrolladores de tecnología puedan usarlo para entrenar algoritmos e «inteligencias artificiales», enseñándoles así a interpretar cómo hablan los humanos. La idea es facilitar que cualquiera (empresas, investigadores, desarrolladores, etc.) puedan crear aplicaciones y servicios que interactúen con sus usuarios mediante el reconocimiento y síntesis de voz.

Actualmente es uno de los mayores datasets de código abierto de este tipo, en funcionamiento desde el 2017 el proyecto al día de hoy ofrece más de 3.400 horas de muestras en 40 idiomas y apunta a seguir creciendo para alcanzar más de 70 idiomas.

A su vez, Mozilla también mantiene el proyecto «DeepSpech» («Discurso profundo»), un motor de voz a texto (o de reconocimiento de voz) de gran calidad, el cual por supuesto está íntimamente relacionado a Common Voice.

En la actualidad el reconocimiento de voz es algo cada vez más presente en nuestras vidas y parece ser la principal vía de interacción con nuestras computadoras en el futuro. Pero al día de hoy existen pocos servicios de reconocimiento de voz de calidad y son desarrollados por un número reducido de empresas tecnológicas como Google, Microsoft, Apple o Amazon, las cuales defienden sus intereses comerciales y protegen bajo patentes y en formato de software privativo sus tecnologías, reduciendo la posibilidad de elección del usuario, es decir, atentando contra la libertad.

Por lo anterior celebro que existan proyectos como Common Voice o DeepSpeech, los cuales son gestionados por la comunidad y ponen a disposición de la misma herramientas para desarrollar tecnologías libres. Sí, es cierto que como ocurre con todo software libre o de código abierto también lo pueden usar empresas para desarrollar tecnología que no defienda los intereses de sus usuarios, pero existe un cierto blindaje legal y es esperable que finalmente exista un retorno a la comunidad. Pienso que es un tema sensible y mucho podríamos discutir al respecto, pero sin dudas resulta muy conveniente que existan datasets abiertos como este.

¿Cómo colaborar?

Tenemos dos formas principales de colaborar, donar nuestra voz o ayudar a validar donaciones.

Donar nuestra voz a Mozilla Common Voice

Para donar nuestra voz solamente debemos acceder al sitio desde un navegador compatible (cualquier navegador moderno, aunque por filosofía sugiero usar Firefox), disponer de un micrófono configurado en nuestra computadora y de ser posible un ambiente sin demasiado ruido. Al acceder encontraremos una interfaz muy simple que nos irá mostrando palabras y nos ofrecerá un botón desde donde comenzar a grabar, solamente debemos presionar el botón, pronunciar dicha palabra y volver a presionarlo para detener la grabación. Las contribuciones se agrupan de a 5 clips, por lo cual debemos completarlos para enviar nuestro aporte al proyecto.

Validar donaciones a Mozilla Common Voice

También, de forma muy similar, podremos colaborar escuchando grabaciones que han hecho otros colaboradores para validar que estas sean correctas y así asegurar la calidad del banco de datos. En este caso solamente necesitaremos el navegador y una salida de audio para escuchar los aportes, y debemos responder si el audio es correcto o no.

Según pude ver también existe una aplicación móvil no oficial, al menos para Android, pero no la he probado por lo cual no puedo hablarles de ella. De todos modos, entiendo que para colaborar desde un teléfono móvil inteligente debe ser tan simple como realizar este mismo procedimiento desde un navegador.

Con realizar este pequeño esfuerzo de vez en cuando estaremos contribuyendo a aumentar el banco de datos y potencialmente al desarrollo de tecnologías libres de reconocimiento de voz. Y por que no, quizás algún día tener un asistente de voz como Mycroft con mayor calidad que las soluciones privativas.

Mozilla Common Voice