
Aprenda a configurar Qwen TTS3 localmente en su PC
QWen3-TTS es la última generación de modelos de conversión de texto a voz de código abierto del equipo de Qwen en Alibaba Cloud, lanzada en enero de 2026. Está diseñado para ofrecer una latencia ultrabaja, una alta expresividad y un control flexible a través del lenguaje natural.
Cómo funciona Qwen3-TTS
A diferencia de los modelos tradicionales que utilizan una etapa de difusión independiente, Qwen3-TTS trata la síntesis de voz como una tarea de modelado del lenguaje, similar a cómo los modelos de texto predicen la siguiente palabra.
- Arquitectura de doble vía: Utiliza una arquitectura híbrida de doble vía que admite tanto la generación de streaming como la generación sin streaming.
- Tokenización de voz: El sistema comprime el audio en unidades discretas (tokens) mediante dos tokenizadores especializados:
- Tokenizador de 25 Hz: Captura detalles acústicos y de alta resolución temporal, priorizando la calidad.
- Tokenizador de 12 Hz: Logra una compresión extrema y una latencia ultrabaja, lo que permite una salida de audio inmediata en el «primer paquete».
- Libro de códigos múltiples discreto LM: Al modelar los tokens de voz directamente en una arquitectura de extremo a extremo, evita los cuellos de botella de información que se encuentran en los esquemas más antiguos de «LM + Diffusion».
Qué lo hace único
El Qwen3-TTS destaca por su alto grado de capacidad de control y su velocidad en hardware apto para el consumidor.
Configuración local y de código abierto (Promptus)
Puede ejecutar Qwen3-TTS completamente sin conexión a Internet mediante el Impulsar aplicación de escritorio. Esto garantiza que sus datos de audio permanezcan privados y evita los costos de crédito por minuto.
1. Configuración inicial
- Requisitos: Se recomienda usar una máquina local con una GPU NVIDIA (CUDA) por motivos de velocidad, aunque también se admite el modo CPU (a velocidades más lentas).
- Abra Promptus Manager: En la aplicación Promptus, ve a Perfil → Gestor abierto.
2. Instale el servidor y el flujo de trabajo
- Servidor ComfyUI: En el Administrador, haga clic en Instalar → Servidor ComfyUI. Esta es la columna vertebral necesaria para ejecutar los flujos de trabajo locales.
- Descargar Qwen3-TTS: Ir a la Flujos acogedores sección de la aplicación Promptus. Busque «Qwen» y seleccione QWen3-TTS flujo de trabajo (por ejemplo, voz personalizada, clonación de voz o diseño de voz) y haga clic Descargar/instalar.

3. Ejecutar sin conexión
- Inicie el flujo de trabajo: Regresa a la aplicación principal de Promptus y dirígete a la Flujos acogedores pestaña.
- Selecciona el modo de ejecución: Haz clic en el icono de la esquina superior derecha y elige Instalación local o Ejecutar sin conexión.
- Generar: Una vez que se inicie el servidor local, introduzca el texto y la configuración (idioma, tipo de voz, etc.) y haga clic Generar.
Nota: En la primera ejecución, la aplicación descargará automáticamente los pesos de modelo necesarios (0,6 o 1,7 B) de Hugging Face.
%20(2).avif)
%20transparent.avif)

