- Fecha de publicación
- Agosto 2021
ESIC Business & Marketing School
Alberto de Torres, profesor de ESIC
Google Duplex es un sistema integrado en el asistente de Google que, basado en inteligencia artificial, crea nuevas experiencias de voz que ayudan a realizar tareas por teléfono, permitiéndonos realizar muchas de estas gestiones de forma sencilla.
Solo tenemos que pedirle, mediante voz, que haga una reserva en un determinado restaurante, por ejemplo, e introducir algunos parámetros como el número de personas, la fecha, la hora y el nombre de quien reserva. Una vez hecho esto, el Asistente de Google utilizará automáticamente Duplex para hacer una llamada telefónica a ese restaurante y reservar por nosotros. Después, el sistema enviará una confirmación.
A la hora de realizar la reserva, Duplex imitará la voz humana para que la conversación telefónica sea natural, añadiendo incluso interjecciones como “hum” para que parezca más humano. Asimismo, Duplex reproduce fielmente las cadencias de las conversaciones, como puede ser la latencia en las respuestas. Así, con Duplex, Google ha logrado un sistema de voz muy avanzado, aunque en algunos momentos hace alguna inflexión poco natural y robótica.
¿Qué tecnología utiliza Duplex?
La tecnología que usa Duplex está basada en el procesamiento del lenguaje natural. Para ello, se necesita un traductor de voz a texto preciso con el que entender lo que le dice la persona al teléfono.
A continuación, otro modelo tiene que interpretar el contexto del objetivo de la llamada telefónica y luego hay que crear una respuesta adecuada.
Finalmente, un modelo de conversión de texto a voz traduce esta respuesta en una voz similar a la humana que la diga por teléfono. Estos pasos deben repetirse constantemente a lo largo de la llamada telefónica en tiempo real, por lo que los modelos deben ser precisos y rápidos.
Google Duplex utiliza una red neuronal recurrente combinada con la tecnología de reconocimiento automático del habla (RAH o, en inglés, ASR: automatic speech recognition) de Google, los parámetros de la conversación (por ejemplo: la hora deseada, los nombres) y un sistema de conversión de texto a voz (TTS: text-to-speech en inglés).
También te puede interesar
La poesía de las redes sociales vende
Marketing y Comunicación
Paco Lorente, profesor de ESIC Business & Marketing School y director creativo de Sinaia Marketing Lo que ocurre a nuestro alrededor, los sucesos sociales y las ajetreadas jornadas en torno...
- Publicado por ESIC Business & Marketing School
Sobre cómo Walt Disney fue despedido por falta de imaginación y ‘la moraleja’ de esta historia
Internacional
Verónica Jiménez Folcrá, directora del Título Superior en Emprendimiento e Innovación de ESIC University y fundadora de WomanCard España A la hora de emprender, la frustración ante pue...
- Publicado por ESIC Business & Marketing School
La cara B del éxito de los influencers
Marketing y Comunicación
Marcos Blanco, profesor en ESIC Business School Esta semana, hemos podido ver cómo la presión ha terminado por alcanzar a una de las jóvenes estrellas españolas de Twitch. Joaquín Domínguez, ...
- Publicado por ESIC Business & Marketing School
El próximo dilema de Carrie Bradshaw: ¿tacones digitales o `los manolos` de toda la vida?
Tecnología
María Albalá, directora del Innovation HUB en ICEMD (ESIC) y coordinadora de contenidos de Inspiring Innovation Sí, se avecinan tiempos de incertidumbre y duda, incluso de dilema. No solo ...
- Publicado por ESIC Business & Marketing School