Wen TTS-Stimme
Eden
Workflow

Run Qwen TTS3 Locally - Offline AI Voice Generator

Promptus
February 24, 2026
Wiki 318
promptus ai video generator

Erfahren Sie, wie Sie Qwen TTS3 lokal auf Ihrem PC einrichten

Qwen3-TTS ist die neueste Generation von Open-Source-Text-to-Speech-Modellen des Qwen-Teams von Alibaba Cloud, die im Januar 2026 veröffentlicht wurde. Es wurde für extrem niedrige Latenz, hohe Ausdruckskraft und flexible Steuerung durch natürliche Sprache entwickelt.

So funktioniert Qwen3-TTS

Im Gegensatz zu herkömmlichen Modellen, die eine separate Diffusionsstufe verwenden, behandelt Qwen3-TTS die Sprachsynthese als eine Sprachmodellierungsaufgabe, ähnlich wie Textmodelle das nächste Wort vorhersagen.

  • Dual-Track-Architektur: Es verwendet eine Dual-Track-Hybridarchitektur, die sowohl Streaming- als auch Nicht-Streaming-Generierung unterstützt.
  • Sprach-Tokenisierung: Das System komprimiert Audio mithilfe von zwei speziellen Tokenizern in diskrete Einheiten (Tokens):
    • 25-Hz-Tokenizer: Erfasst hohe zeitliche Auflösung und akustische Details, wobei Qualität im Vordergrund steht.
    • 12-Hz-Tokenizer: Erreicht extreme Komprimierung und extrem niedrige Latenz und ermöglicht so eine sofortige Audioausgabe „nach dem ersten Paket“.
  • Diskretes Multi-Codebook LM: Durch die direkte Modellierung von Sprach-Tokens in einer Ende-zu-Ende-Architektur werden die Informationsengpässe, die in älteren „LM + Diffusion“ -Schemata zu finden waren, umgangen.

Was macht es einzigartig

Qwen3-TTS zeichnet sich durch ein hohes Maß an Steuerbarkeit und Geschwindigkeit auf Geräten für Endverbraucher aus.

Feature Description
Ultra-Low Latency Can begin playing audio just 97ms after receiving a single character of input.
Natural Voice Design Allows you to create new voices using natural language descriptions like "whispering," "elderly person," or "radio presenter".
3-Second Cloning Can clone a target voice with as little as 3 seconds of reference audio.
Multilingual Support Supports 10 major languages (Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, and Italian) and multiple dialects.
Long-Form Stability Capable of synthesizing over 10 minutes of consistent, fluent speech in a single session.

Lokales und Open-Source-Setup (Promptus)

Sie können Qwen3-TTS vollständig offline ausführen mit dem Promptus Desktop-Anwendung. Dadurch wird sichergestellt, dass Ihre Audiodaten privat bleiben, und es werden minutengenaue Kreditkosten vermieden.

1. Erste Einrichtung

  • Anforderungen: Aus Geschwindigkeitsgründen wird ein lokaler Computer mit einer NVIDIA-GPU (CUDA) empfohlen, obwohl auch der CPU-Modus unterstützt wird (bei langsameren Geschwindigkeiten).
  • Öffnen Sie den Promptus Manager: Gehen Sie in der Promptus-App zu ProfilManager öffnen.

2. Installieren Sie den Server und den Workflow

  • ComfyUI Server: Klicken Sie im Manager auf InstallierenComfyUI Server. Dies ist das Backbone, das für die Ausführung der lokalen Workflows benötigt wird.
  • Laden Sie Qwen3-TTS herunter: Gehe zum Gemütliche Flüsse Abschnitt in der Promptus-Anwendung. Suchen Sie nach „Qwen“ und wählen Sie das Qwen3-TTS Arbeitsablauf (z. B. Custom Voice, Voice Clone oder Voice Design) und klicken Sie auf Herunterladen/Installieren.
qwen tts3 local generation

3. Offline ausführen

  • Workflow starten: Kehren Sie zur Haupt-App von Promptus zurück und gehen Sie zur Gemütliche Flüsse Tab.
  • Wählen Sie den Ausführungsmodus: Klicken Sie auf das Symbol oben rechts und wählen Sie Lokal installieren oder Offline ausführen.
  • Generieren Sie: Sobald der lokale Server gestartet ist, geben Sie Ihren Text und Ihre Einstellungen (Sprache, Sprachtyp usw.) ein und klicken Sie auf Generieren.

Hinweis: Beim ersten Durchlauf lädt die App automatisch die erforderlichen Modellgewichte (0,6 B oder 1,7 B) von Hugging Face herunter.

Frequently Asked Questions

Qwen TTS3 (Qwen3-TTS) is an open-source text-to-speech model that can generate natural, expressive AI voices. Running it locally means you can generate voiceovers offline, keep your text/audio private on your PC, and avoid per-minute cloud limits—your main constraint is your hardware performance.

Yes. After the initial setup and model download, you can run Qwen TTS3 offline. Once the model weights are on your machine, voice generation happens locally without sending your prompts or audio to a cloud service.

You can run on CPU, but it will be slower. For smooth, practical generation, an NVIDIA GPU (CUDA) is recommended because it speeds up inference significantly. If you’re generating voiceovers regularly or iterating a lot, GPU is the best experience.

0.6B is faster and lighter (great for quick drafts and weaker GPUs). 1.7B typically delivers higher quality and expressivity, but needs more compute and runs slower. Many creators draft with 0.6B and render finals with 1.7B.

Promptus installs the ComfyUI server because ComfyUI is the local runtime that executes the workflow graph (text input → model → audio output). It’s what lets the workflow run on your PC in “Run Offline” mode, while Promptus provides the simpler app interface to manage and launch everything.

Written by:
Eden
Als ausgebildete Künstlerin, die einst befürchtete, dass KI-Kunst ihre Karriere beenden könnte, hat Eden sie seitdem als mächtigen Verbündeten angenommen. Jetzt kreiert sie selbstbewusst mit KI.
Try Promptus Cosy UI today for free.
Erstelle einfach deinen nächsten KI-Workflow mit Promptus
Promptus kostenlos testen ➜