
Erfahren Sie, wie Sie Qwen TTS3 lokal auf Ihrem PC einrichten
Qwen3-TTS ist die neueste Generation von Open-Source-Text-to-Speech-Modellen des Qwen-Teams von Alibaba Cloud, die im Januar 2026 veröffentlicht wurde. Es wurde für extrem niedrige Latenz, hohe Ausdruckskraft und flexible Steuerung durch natürliche Sprache entwickelt.
So funktioniert Qwen3-TTS
Im Gegensatz zu herkömmlichen Modellen, die eine separate Diffusionsstufe verwenden, behandelt Qwen3-TTS die Sprachsynthese als eine Sprachmodellierungsaufgabe, ähnlich wie Textmodelle das nächste Wort vorhersagen.
- Dual-Track-Architektur: Es verwendet eine Dual-Track-Hybridarchitektur, die sowohl Streaming- als auch Nicht-Streaming-Generierung unterstützt.
- Sprach-Tokenisierung: Das System komprimiert Audio mithilfe von zwei speziellen Tokenizern in diskrete Einheiten (Tokens):
- 25-Hz-Tokenizer: Erfasst hohe zeitliche Auflösung und akustische Details, wobei Qualität im Vordergrund steht.
- 12-Hz-Tokenizer: Erreicht extreme Komprimierung und extrem niedrige Latenz und ermöglicht so eine sofortige Audioausgabe „nach dem ersten Paket“.
- Diskretes Multi-Codebook LM: Durch die direkte Modellierung von Sprach-Tokens in einer Ende-zu-Ende-Architektur werden die Informationsengpässe, die in älteren „LM + Diffusion“ -Schemata zu finden waren, umgangen.
Was macht es einzigartig
Qwen3-TTS zeichnet sich durch ein hohes Maß an Steuerbarkeit und Geschwindigkeit auf Geräten für Endverbraucher aus.
Lokales und Open-Source-Setup (Promptus)
Sie können Qwen3-TTS vollständig offline ausführen mit dem Promptus Desktop-Anwendung. Dadurch wird sichergestellt, dass Ihre Audiodaten privat bleiben, und es werden minutengenaue Kreditkosten vermieden.
1. Erste Einrichtung
- Anforderungen: Aus Geschwindigkeitsgründen wird ein lokaler Computer mit einer NVIDIA-GPU (CUDA) empfohlen, obwohl auch der CPU-Modus unterstützt wird (bei langsameren Geschwindigkeiten).
- Öffnen Sie den Promptus Manager: Gehen Sie in der Promptus-App zu Profil → Manager öffnen.
2. Installieren Sie den Server und den Workflow
- ComfyUI Server: Klicken Sie im Manager auf Installieren → ComfyUI Server. Dies ist das Backbone, das für die Ausführung der lokalen Workflows benötigt wird.
- Laden Sie Qwen3-TTS herunter: Gehe zum Gemütliche Flüsse Abschnitt in der Promptus-Anwendung. Suchen Sie nach „Qwen“ und wählen Sie das Qwen3-TTS Arbeitsablauf (z. B. Custom Voice, Voice Clone oder Voice Design) und klicken Sie auf Herunterladen/Installieren.

3. Offline ausführen
- Workflow starten: Kehren Sie zur Haupt-App von Promptus zurück und gehen Sie zur Gemütliche Flüsse Tab.
- Wählen Sie den Ausführungsmodus: Klicken Sie auf das Symbol oben rechts und wählen Sie Lokal installieren oder Offline ausführen.
- Generieren Sie: Sobald der lokale Server gestartet ist, geben Sie Ihren Text und Ihre Einstellungen (Sprache, Sprachtyp usw.) ein und klicken Sie auf Generieren.
Hinweis: Beim ersten Durchlauf lädt die App automatisch die erforderlichen Modellgewichte (0,6 B oder 1,7 B) von Hugging Face herunter.
%20(2).avif)
%20transparent.avif)

