Ejecute Qwen TTS3 localmente

Aprenda a configurar Qwen TTS3 localmente en su PC

QWen3-TTS es la última generación de modelos de conversión de texto a voz de código abierto del equipo de Qwen en Alibaba Cloud, lanzada en enero de 2026. Está diseñado para ofrecer una latencia ultrabaja, una alta expresividad y un control flexible a través del lenguaje natural.

Cómo funciona Qwen3-TTS

A diferencia de los modelos tradicionales que utilizan una etapa de difusión independiente, Qwen3-TTS trata la síntesis de voz como una tarea de modelado del lenguaje, similar a cómo los modelos de texto predicen la siguiente palabra.

Arquitectura de doble vía: Utiliza una arquitectura híbrida de doble vía que admite tanto la generación de streaming como la generación sin streaming.
Tokenización de voz: El sistema comprime el audio en unidades discretas (tokens) mediante dos tokenizadores especializados:
- Tokenizador de 25 Hz: Captura detalles acústicos y de alta resolución temporal, priorizando la calidad.
- Tokenizador de 12 Hz: Logra una compresión extrema y una latencia ultrabaja, lo que permite una salida de audio inmediata en el «primer paquete».
Libro de códigos múltiples discreto LM: Al modelar los tokens de voz directamente en una arquitectura de extremo a extremo, evita los cuellos de botella de información que se encuentran en los esquemas más antiguos de «LM + Diffusion».

Qué lo hace único

El Qwen3-TTS destaca por su alto grado de capacidad de control y su velocidad en hardware apto para el consumidor.

Característica	Descripción
Latencia Ultra Baja	Puede empezar a reproducir audio tan solo 97 ms después de recibir un único carácter de entrada.
Diseño de Voz Natural	Permite crear nuevas voces usando descripciones en lenguaje natural como "susurrando", "persona mayor" o "locutor de radio".
Clonación en 3 Segundos	Puede clonar una voz objetivo con tan solo 3 segundos de audio de referencia.
Soporte Multilingüe	Admite 10 idiomas principales (chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español e italiano) y múltiples dialectos.
Estabilidad en Formato Largo	Es capaz de sintetizar más de 10 minutos de habla consistente y fluida en una sola sesión.

Configuración local y de código abierto (Promptus)

Puede ejecutar Qwen3-TTS completamente sin conexión a Internet mediante el Impulsar aplicación de escritorio. Esto garantiza que sus datos de audio permanezcan privados y evita los costos de crédito por minuto.

1. Configuración inicial

Requisitos: Se recomienda usar una máquina local con una GPU NVIDIA (CUDA) por motivos de velocidad, aunque también se admite el modo CPU (a velocidades más lentas).
Abra Promptus Manager: En la aplicación Promptus, ve a Perfil → Gestor abierto.

2. Instale el servidor y el flujo de trabajo

Servidor ComfyUI: En el Administrador, haga clic en Instalar → Servidor ComfyUI. Esta es la columna vertebral necesaria para ejecutar los flujos de trabajo locales.
Descargar Qwen3-TTS: Ir a la Flujos acogedores sección de la aplicación Promptus. Busque «Qwen» y seleccione QWen3-TTS flujo de trabajo (por ejemplo, voz personalizada, clonación de voz o diseño de voz) y haga clic Descargar/instalar.

3. Ejecutar sin conexión

Inicie el flujo de trabajo: Regresa a la aplicación principal de Promptus y dirígete a la Flujos acogedores pestaña.
Selecciona el modo de ejecución: Haz clic en el icono de la esquina superior derecha y elige Instalación local o Ejecutar sin conexión.
Generar: Una vez que se inicie el servidor local, introduzca el texto y la configuración (idioma, tipo de voz, etc.) y haga clic Generar.

Nota: En la primera ejecución, la aplicación descargará automáticamente los pesos de modelo necesarios (0,6 o 1,7 B) de Hugging Face.

Preguntas Frecuentes

¿Qué es Qwen TTS3 y por qué ejecutarlo de forma local?

Qwen TTS3 (Qwen3-TTS) es un modelo de texto a voz de código abierto que puede generar voces de IA naturales y expresivas. Ejecutarlo localmente significa que puedes crear locuciones sin conexión, mantener tu texto/audio privado en tu PC y evitar límites de pago por minuto en la nube; tu principal limitación será el rendimiento de tu hardware.

¿Puedo ejecutar Qwen TTS3 completamente sin conexión en mi PC?

Sí. Después de la configuración inicial y la descarga del modelo, puedes ejecutar Qwen TTS3 sin conexión. Una vez que los pesos del modelo están en tu equipo, la generación de voz sucede localmente sin enviar tus prompts o tu audio a un servicio en la nube.

¿Qué especificaciones de PC necesito (CPU vs GPU)? ¿Necesito una GPU NVIDIA?

Puedes ejecutarlo con CPU, pero será más lento. Para una generación fluida y práctica, se recomienda una GPU NVIDIA (CUDA) porque acelera notablemente la inferencia. Si haces locuciones con frecuencia o iteras mucho, la GPU ofrece la mejor experiencia.

¿Qué modelo debería elegir: 0.6B vs 1.7B?

0.6B es más rápido y ligero (ideal para borradores rápidos y GPUs más modestas). 1.7B suele ofrecer mayor calidad y expresividad, pero requiere más potencia y funciona más lento. Muchos creadores hacen borradores con 0.6B y generan la versión final con 1.7B.

¿Por qué Promptus instala un servidor de ComfyUI?

Promptus instala el servidor de ComfyUI porque ComfyUI es el motor local que ejecuta el flujo de trabajo (entrada de texto → modelo → salida de audio). Es lo que permite que el flujo funcione en tu PC en modo “Ejecutar sin conexión”, mientras que Promptus ofrece una interfaz más simple para gestionar y lanzar todo.

Escrito por:

Eden

Eden era una artista entrenada que alguna vez temió que el arte de la inteligencia artificial terminara con su carrera, y desde entonces lo ha adoptado como un fuerte aliado. Ahora está innovando con confianza utilizando la inteligencia artificial, combinando tradición y tecnología en su trabajo.

Pruebe Promptus Cosy UI hoy gratis.