Carrera de IA: Salesforce acelera respuestas de voz 316 veces
VoiceAgentRAG reduce la latencia de recuperación de voz de 110ms a 0.35ms, logrando una tasa de aciertos del 75%. La arquitectura dual podría transformar asiste
La diferencia entre un asistente útil y una interacción torpe se mide en milisegundos. Salesforce AI Research acaba de lanzar una arquitectura que podría redefinir los asistentes de voz en bienes raíces.
El panorama general Los sistemas de voz tienen un presupuesto estricto: 200 milisegundos para mantener una conversación natural. Las consultas estándar a bases de datos vectoriales consumen 50-300ms solo en latencia de red, dejando poco tiempo para que el modelo de lenguaje genere una respuesta. VoiceAgentRAG resuelve este cuello de botella mediante una arquitectura de dos agentes que desacopla la recuperación de documentos de la generación de respuestas.

La investigación se evaluó con Qdrant Cloud como base de datos vectorial remota, utilizando 200 consultas y 10 escenarios de conversación. El sistema es de código abierto y compatible con los principales proveedores de LLM.
“Un sistema de dos agentes reduce la latencia de recuperación de 110ms a 0.35ms, una mejora de 316 veces.”
Por qué importa En bienes raíces, los asistentes de voz podrían transformar la experiencia del cliente. Imagine preguntar sobre tasas hipotecarias, comparar características de propiedades o solicitar información sobre trámites municipales y recibir respuestas instantáneas y precisas. Hasta ahora, la latencia hacía que estas interacciones fueran incómodas o directamente inviables.
VoiceAgentRAG logró una tasa de aciertos en caché del 75% (79% en turnos cálidos). En escenarios coherentes como 'Comparación de características', alcanzó el 95%. En conversaciones más volátiles, como 'Actualización de cliente existente', bajó al 45%. El sistema guardó 16.5 segundos en tiempo total de recuperación durante 200 turnos.
La arquitectura funciona con dos agentes concurrentes. El 'Hablador Rápido' maneja la ruta crítica de latencia, verificando primero una caché semántica en memoria (0.35ms). El 'Pensador Lento' opera en segundo plano, prediciendo 3-5 temas probables de seguimiento y precargando documentos relevantes antes de que el usuario formule la siguiente pregunta.
Tags


