voix de Qwen
Eden
Workflow

Exécutez Qwen TTS3 localement - Générateur vocal AI hors ligne

Promptus
February 6, 2026
Wiki 318
promptus ai video generator

Découvrez comment configurer Qwen TTS3 localement sur votre PC

QWEN3-TTS est la dernière génération de modèles de synthèse vocale open source de l'équipe Qwen d'Alibaba Cloud, publiée en janvier 2026. Il est conçu pour une latence ultra-faible, une expressivité élevée et un contrôle flexible via le langage naturel.

Comment fonctionne QWEN3-TTS

Contrairement aux modèles traditionnels qui utilisent une étape de diffusion distincte, QWEN3-TTS traite la synthèse vocale comme une tâche de modélisation du langage, de la même manière que les modèles textuels prédisent le mot suivant.

  • Architecture à deux voies : Il utilise une architecture hybride à double piste qui prend en charge à la fois la génération en streaming et sans diffusion.
  • Tokénisation vocale : Le système compresse le son en unités discrètes (jetons) à l'aide de deux tokeniseurs spécialisés :
    • Tokéniseur de jetons 25 Hz : Capture une haute résolution temporelle et des détails acoustiques, en donnant la priorité à la qualité.
    • Tokéniseur de jetons 12 Hz : Atteint une compression extrême et une latence ultra-faible, permettant une sortie audio immédiate « premier paquet ».
  • Livre multicode LM discret : En modélisant les jetons vocaux directement dans une architecture de bout en bout, il contourne les goulots d'étranglement d'informations présents dans les anciens schémas « LM + Diffusion ».

Qu'est-ce qui le rend unique

Qwen3-TTS se distingue par son haut degré de contrôlabilité et sa rapidité sur du matériel grand public.

Fonctionnalité Description
Latence ultra-faible Peut commencer à lire l’audio seulement 97 ms après la réception d’un seul caractère en entrée.
Conception de voix naturelle Permet de créer de nouvelles voix à partir de descriptions en langage naturel comme « chuchotement », « personne âgée » ou « animateur radio ».
Clonage en 3 secondes Peut cloner une voix cible avec seulement 3 secondes d’audio de référence.
Prise en charge multilingue Prend en charge 10 langues principales (chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol et italien) ainsi que plusieurs dialectes.
Stabilité en long format Capable de synthétiser plus de 10 minutes de parole cohérente et fluide en une seule session.

Configuration locale et open source (Promptus)

Vous pouvez exécuter Qwen3-TTS entièrement hors ligne à l'aide du Promptus application de bureau. Cela garantit la confidentialité de vos données audio et évite les frais de crédit par minute.

1. Configuration initiale

  • Exigences : Une machine locale équipée d'un GPU NVIDIA (CUDA) est recommandée pour des raisons de vitesse, bien que le mode CPU soit également pris en charge (à des vitesses plus lentes).
  • Ouvrez Promptus Manager : Dans l'application Promptus, accédez à ProfilOuvrir le gestionnaire.

2. Installation du serveur et du flux de travail

  • Serveur ComfyUI : Dans le gestionnaire, cliquez sur InstallerServeur ComfyUI. Il s'agit de l'épine dorsale nécessaire pour exécuter les flux de travail locaux.
  • Télécharger QWen3-TTS : Accédez au Flux de coûts section de l'application Promptus. Recherchez « Qwen » et sélectionnez QWEN3-TTS flux de travail (par exemple, voix personnalisée, clone vocal ou conception vocale) et cliquez sur Télécharger/Installer.
qwen tts3 local generation

3. Exécuter hors ligne

  • Workflow de lancement : Retournez à l'application principale Promptus et rendez-vous sur Flux de coûts onglet.
  • Sélectionnez le mode d'exécution : Cliquez sur l'icône en haut à droite et choisissez Installation locale ou Exécuter hors ligne.
  • Générez : Une fois le serveur local démarré, entrez votre texte et vos paramètres (langue, type de voix, etc.) et cliquez sur Générez.

Remarque : Lors de la première exécution, l'application téléchargera automatiquement les poids de modèle nécessaires (0,6 B ou 1,7 B) depuis Hugging Face.

Foire Aux Questions

Qwen TTS3 (Qwen3-TTS) est un modèle de synthèse vocale (text-to-speech) open-source capable de générer des voix IA naturelles et expressives. L'exécuter localement signifie que vous pouvez générer des voix hors ligne, garder vos textes et audios privés sur votre PC, et éviter les limites de coût par minute du cloud — votre seule contrainte est la performance de votre matériel.

Oui. Après la configuration initiale et le téléchargement du modèle, vous pouvez exécuter Qwen TTS3 hors ligne. Une fois que les poids du modèle sont sur votre machine, la génération vocale se fait localement sans envoyer vos prompts ou vos fichiers audio à un service cloud.

Vous pouvez l'exécuter sur CPU, mais ce sera plus lent. Pour une génération fluide et pratique, un GPU NVIDIA (CUDA) est recommandé car il accélère considérablement l'inférence. Si vous générez régulièrement des voix off ou si vous faites beaucoup de tests, le GPU offre la meilleure expérience.

Le modèle 0.6B est plus rapide et plus léger (idéal pour des brouillons rapides et les GPU moins puissants). Le 1.7B offre généralement une qualité et une expressivité supérieures, mais nécessite plus de puissance de calcul et s'exécute plus lentement. Beaucoup de créateurs préparent leurs projets avec le 0.6B et effectuent le rendu final avec le 1.7B.

Promptus installe le serveur ComfyUI car ComfyUI est le moteur local (runtime) qui exécute le graphe du workflow (entrée texte → modèle → sortie audio). C'est ce qui permet au workflow de fonctionner sur votre PC en mode "Exécuter hors ligne", tandis que Promptus fournit l'interface simplifiée pour tout gérer et lancer facilement.

Written by:
Eden
Artiste de formation qui craignait autrefois que l'art de l'IA ne mette fin à sa carrière, Eden l'a depuis considérée comme une puissante alliée. Aujourd'hui, elle crée en toute confiance grâce à l'IA, alliant tradition et technologie dans son travail.
Try Promptus Cosy UI today for free.
Créez simplement votre prochaine vidéo IA avec Promptus
Commencez à utiliser Promptus ➜