qwen tts voice
Eden
Flujo de trabajo IA

Ejecute Qwen TTS3 localmente

Promptus
February 6, 2026
Wiki 318
promptus ai video generator

Aprenda a configurar Qwen TTS3 localmente en su PC

QWen3-TTS es la última generación de modelos de conversión de texto a voz de código abierto del equipo de Qwen en Alibaba Cloud, lanzada en enero de 2026. Está diseñado para ofrecer una latencia ultrabaja, una alta expresividad y un control flexible a través del lenguaje natural.

Cómo funciona Qwen3-TTS

A diferencia de los modelos tradicionales que utilizan una etapa de difusión independiente, Qwen3-TTS trata la síntesis de voz como una tarea de modelado del lenguaje, similar a cómo los modelos de texto predicen la siguiente palabra.

  • Arquitectura de doble vía: Utiliza una arquitectura híbrida de doble vía que admite tanto la generación de streaming como la generación sin streaming.
  • Tokenización de voz: El sistema comprime el audio en unidades discretas (tokens) mediante dos tokenizadores especializados:
    • Tokenizador de 25 Hz: Captura detalles acústicos y de alta resolución temporal, priorizando la calidad.
    • Tokenizador de 12 Hz: Logra una compresión extrema y una latencia ultrabaja, lo que permite una salida de audio inmediata en el «primer paquete».
  • Libro de códigos múltiples discreto LM: Al modelar los tokens de voz directamente en una arquitectura de extremo a extremo, evita los cuellos de botella de información que se encuentran en los esquemas más antiguos de «LM + Diffusion».

Qué lo hace único

El Qwen3-TTS destaca por su alto grado de capacidad de control y su velocidad en hardware apto para el consumidor.

Característica Descripción
Latencia Ultra Baja Puede empezar a reproducir audio tan solo 97 ms después de recibir un único carácter de entrada.
Diseño de Voz Natural Permite crear nuevas voces usando descripciones en lenguaje natural como "susurrando", "persona mayor" o "locutor de radio".
Clonación en 3 Segundos Puede clonar una voz objetivo con tan solo 3 segundos de audio de referencia.
Soporte Multilingüe Admite 10 idiomas principales (chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español e italiano) y múltiples dialectos.
Estabilidad en Formato Largo Es capaz de sintetizar más de 10 minutos de habla consistente y fluida en una sola sesión.

Configuración local y de código abierto (Promptus)

Puede ejecutar Qwen3-TTS completamente sin conexión a Internet mediante el Impulsar aplicación de escritorio. Esto garantiza que sus datos de audio permanezcan privados y evita los costos de crédito por minuto.

1. Configuración inicial

  • Requisitos: Se recomienda usar una máquina local con una GPU NVIDIA (CUDA) por motivos de velocidad, aunque también se admite el modo CPU (a velocidades más lentas).
  • Abra Promptus Manager: En la aplicación Promptus, ve a PerfilGestor abierto.

2. Instale el servidor y el flujo de trabajo

  • Servidor ComfyUI: En el Administrador, haga clic en InstalarServidor ComfyUI. Esta es la columna vertebral necesaria para ejecutar los flujos de trabajo locales.
  • Descargar Qwen3-TTS: Ir a la Flujos acogedores sección de la aplicación Promptus. Busque «Qwen» y seleccione QWen3-TTS flujo de trabajo (por ejemplo, voz personalizada, clonación de voz o diseño de voz) y haga clic Descargar/instalar.
qwen tts3 local generation

3. Ejecutar sin conexión

  • Inicie el flujo de trabajo: Regresa a la aplicación principal de Promptus y dirígete a la Flujos acogedores pestaña.
  • Selecciona el modo de ejecución: Haz clic en el icono de la esquina superior derecha y elige Instalación local o Ejecutar sin conexión.
  • Generar: Una vez que se inicie el servidor local, introduzca el texto y la configuración (idioma, tipo de voz, etc.) y haga clic Generar.

Nota: En la primera ejecución, la aplicación descargará automáticamente los pesos de modelo necesarios (0,6 o 1,7 B) de Hugging Face.

Preguntas Frecuentes

Qwen TTS3 (Qwen3-TTS) es un modelo de texto a voz de código abierto que puede generar voces de IA naturales y expresivas. Ejecutarlo localmente significa que puedes crear locuciones sin conexión, mantener tu texto/audio privado en tu PC y evitar límites de pago por minuto en la nube; tu principal limitación será el rendimiento de tu hardware.

Sí. Después de la configuración inicial y la descarga del modelo, puedes ejecutar Qwen TTS3 sin conexión. Una vez que los pesos del modelo están en tu equipo, la generación de voz sucede localmente sin enviar tus prompts o tu audio a un servicio en la nube.

Puedes ejecutarlo con CPU, pero será más lento. Para una generación fluida y práctica, se recomienda una GPU NVIDIA (CUDA) porque acelera notablemente la inferencia. Si haces locuciones con frecuencia o iteras mucho, la GPU ofrece la mejor experiencia.

0.6B es más rápido y ligero (ideal para borradores rápidos y GPUs más modestas). 1.7B suele ofrecer mayor calidad y expresividad, pero requiere más potencia y funciona más lento. Muchos creadores hacen borradores con 0.6B y generan la versión final con 1.7B.

Promptus instala el servidor de ComfyUI porque ComfyUI es el motor local que ejecuta el flujo de trabajo (entrada de texto → modelo → salida de audio). Es lo que permite que el flujo funcione en tu PC en modo “Ejecutar sin conexión”, mientras que Promptus ofrece una interfaz más simple para gestionar y lanzar todo.

Escrito por:
Eden
Eden era una artista entrenada que alguna vez temió que el arte de la inteligencia artificial terminara con su carrera, y desde entonces lo ha adoptado como un fuerte aliado. Ahora está innovando con confianza utilizando la inteligencia artificial, combinando tradición y tecnología en su trabajo.
Pruebe Promptus Cosy UI hoy gratis.
Simplemente crea tu próximo video de IA con Promptus
Empieza a usar Promptus ➜