Técnico24 de março de 20265 min de leitura

Dimensionando WebRTC para milhares de agentes de voz simultâneos

O WebRTC fornece a latência mais baixa para agentes de voz, mas seu dimensionamento requer uma arquitetura cuidadosa. Veja como gerenciar servidores de mídia, sinalização e estado.

WebRTC é o padrão ouro para agentes de voz baseados em navegador, oferecendo latência de transporte inferior a 50 ms. Mas embora uma única conexão WebRTC seja fácil, o dimensionamento para milhares de sessões simultâneas requer infraestrutura dedicada. Você não pode simplesmente executá-lo em um único servidor Node.js.

Arquitetura SFU vs MCU

Para agentes de IA, as Unidades de Encaminhamento Seletivo (SFUs) são normalmente preferidas às Unidades de Controle Multiponto (MCUs). O SFU roteia o áudio do usuário diretamente para o serviço ASR e roteia o áudio TTS de volta ao usuário, minimizando a sobrecarga de processamento no próprio servidor de mídia.

Pronto para construir?

Veja como os agentes de IA multimodais da Mazed funcionam para o seu caso de uso.

Mais do blog

TécnicoO papel do VAD no tratamento de interrupções do agente de voz IndústriaAgentes de voz AI para serviços locais: encanadores, HVAC e eletricistas PerspectivasA camada de aplicação para agentes de IA: por que o design baseado em Canvas é o futuro