OpenAI ha comenzado a desplegar una versión alfa de su
innovador Modo de Voz Avanzado para un grupo selecto de suscriptores de ChatGPT
Plus. Esta función, presentada en mayo junto con GPT-4, busca revolucionar la
interacción con la IA al hacerla más natural y receptiva. A pesar de las
críticas iniciales sobre la expresividad emocional simulada, las primeras
pruebas han generado entusiasmo en las redes sociales.
Interacciones en Tiempo Real y Respuestas Emocionales
El Modo de Voz Avanzado permite conversaciones en tiempo
real con ChatGPT, incluyendo la capacidad de interrumpir a la IA y recibir
respuestas basadas en señales emocionales del usuario. Los efectos de sonido
durante las narraciones añaden un toque de realismo sorprendente.
Una característica destacada es la simulación de
respiraciones mientras la IA habla, lo que ha sorprendido a muchos usuarios.
Esta capacidad se debe al entrenamiento con muestras de audio humano que
incluían pausas para respirar, lo que demuestra la habilidad de los LLM para
imitar patrones de habla.
Impresiones de los Primeros Usuarios
Los usuarios han compartido sus experiencias en redes
sociales, destacando la velocidad de respuesta, la capacidad de crear efectos
de sonido divertidos y la habilidad para imitar acentos. Se han publicado
ejemplos de ChatGPT interpretando múltiples roles con diferentes voces y
narrando historias con efectos de sonido atmosféricos.
Aplicaciones Prácticas y Potencial de la IA
El Modo de Voz Avanzado ha demostrado su utilidad en
situaciones cotidianas, como brindar consejos sobre el cuidado de mascotas. Los
usuarios lo comparan con tener una conversación con un amigo experto.
Consideraciones de Seguridad y Precisión
Aunque el Modo de Voz Avanzado es impresionante, es
importante recordar que se basa en un LLM y puede generar respuestas
incorrectas en temas donde su conocimiento es limitado. OpenAI ha trabajado con
probadores externos para garantizar la seguridad y evitar la suplantación de
identidad.
Se han implementado filtros para bloquear solicitudes de
generación de música con derechos de autor y evitar la suplantación de
personas. Sin embargo, se han reportado casos de "fugas" de audio con
música de fondo no intencionada, lo que sugiere que el modelo se entrenó con
una variedad de fuentes de audio.
Disponibilidad y Expectativas Futuras
OpenAI planea ampliar el acceso al Modo de Voz Avanzado a
más usuarios de ChatGPT Plus en las próximas semanas, con un lanzamiento
completo previsto para el otoño. La empresa ha mejorado la capacidad del modelo
para soportar millones de conversaciones simultáneas en tiempo real.
0 Comentarios