qwen TTS-Stimme
Eden
Workflow

Qwen TTS3 lokal ausführen — Offline-KI-Sprachgenerator

Promptus
March 12, 2026
Wiki 318
promptus ai video generator

Erfahren Sie, wie Sie Qwen TTS3 lokal auf Ihrem PC einrichten

Qwen3-TTS ist die neueste Generation von Open-Source-Text-to-Speech-Modellen des Qwen-Teams von Alibaba Cloud, die im Januar 2026 veröffentlicht wurde. Es wurde für extrem niedrige Latenz, hohe Ausdruckskraft und flexible Steuerung durch natürliche Sprache entwickelt.

So funktioniert Qwen3-TTS

Im Gegensatz zu herkömmlichen Modellen, die eine separate Diffusionsstufe verwenden, behandelt Qwen3-TTS die Sprachsynthese als eine Sprachmodellierungsaufgabe, ähnlich wie Textmodelle das nächste Wort vorhersagen.

  • Dual-Track-Architektur: Es verwendet eine Dual-Track-Hybridarchitektur, die sowohl Streaming- als auch Nicht-Streaming-Generierung unterstützt.
  • Sprach-Tokenisierung: Das System komprimiert Audio mithilfe von zwei speziellen Tokenizern in diskrete Einheiten (Tokens):
    • 25-Hz-Tokenizer: Erfasst hohe zeitliche Auflösung und akustische Details, wobei Qualität im Vordergrund steht.
    • 12-Hz-Tokenizer: Erreicht extreme Komprimierung und extrem niedrige Latenz und ermöglicht so eine sofortige Audioausgabe „nach dem ersten Paket“.
  • Diskretes Multi-Codebook LM: Durch die direkte Modellierung von Sprach-Tokens in einer Ende-zu-Ende-Architektur werden die Informationsengpässe, die in älteren „LM + Diffusion“ -Schemata zu finden waren, umgangen.

Was macht es einzigartig

Qwen3-TTS zeichnet sich durch ein hohes Maß an Steuerbarkeit und Geschwindigkeit auf Geräten für Endverbraucher aus.

Funktion Beschreibung
Ultra-niedrige Latenz Kann Audio bereits 97 ms nach dem Empfang eines einzelnen Zeichens Eingabe beginnen abzuspielen.
Natürliches Stimm-Design Ermöglicht das Erstellen neuer Stimmen mit natürlichen Sprachbeschreibungen wie „flüsternd“, „ältere Person“ oder „Radiomoderator“.
3-Sekunden-Klonen Kann eine Zielstimme mit nur 3 Sekunden Referenz-Audio klonen.
Mehrsprachige Unterstützung Unterstützt 10 wichtige Sprachen (Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch und Italienisch) sowie mehrere Dialekte.
Stabilität bei langen Inhalten Kann über 10 Minuten konsistente, flüssige Sprache in einer einzigen Sitzung synthetisieren.

Lokales und Open-Source-Setup (Promptus)

Sie können Qwen3-TTS vollständig offline ausführen mit dem Promptus Desktop-Anwendung. Dadurch wird sichergestellt, dass Ihre Audiodaten privat bleiben, und es werden minutengenaue Kreditkosten vermieden.

1. Erste Einrichtung

  • Anforderungen: Aus Geschwindigkeitsgründen wird ein lokaler Computer mit einer NVIDIA-GPU (CUDA) empfohlen, obwohl auch der CPU-Modus unterstützt wird (bei langsameren Geschwindigkeiten).
  • Öffnen Sie den Promptus Manager: Gehen Sie in der Promptus-App zu ProfilManager öffnen.

2. Installieren Sie den Server und den Workflow

  • ComfyUI Server: Klicken Sie im Manager auf InstallierenComfyUI Server. Dies ist das Backbone, das für die Ausführung der lokalen Workflows benötigt wird.
  • Laden Sie Qwen3-TTS herunter: Gehe zum Gemütliche Flüsse Abschnitt in der Promptus-Anwendung. Suchen Sie nach „Qwen“ und wählen Sie das Qwen3-TTS Arbeitsablauf (z. B. Custom Voice, Voice Clone oder Voice Design) und klicken Sie auf Herunterladen/Installieren.
qwen tts3 lokale Generierung

3. Offline ausführen

  • Workflow starten: Kehren Sie zur Haupt-App von Promptus zurück und gehen Sie zur Gemütliche Flüsse Tab.
  • Wählen Sie den Ausführungsmodus: Klicken Sie auf das Symbol oben rechts und wählen Sie Lokal installieren oder Offline ausführen.
  • Generieren Sie: Sobald der lokale Server gestartet ist, geben Sie Ihren Text und Ihre Einstellungen (Sprache, Sprachtyp usw.) ein und klicken Sie auf Generieren.

Hinweis: Beim ersten Durchlauf lädt die App automatisch die erforderlichen Modellgewichte (0,6 B oder 1,7 B) von Hugging Face herunter.

Häufig gestellte Fragen

Qwen TTS3 (Qwen3-TTS) ist ein Open-Source-Text-to-Speech-Modell, das natürliche und ausdrucksstarke KI-Stimmen erzeugen kann. Wenn du es lokal ausführst, kannst du Voiceovers offline generieren, deine Texte und Audiodaten privat auf deinem PC behalten und Minuten-Limits von Cloud-Diensten vermeiden – die Hauptbegrenzung ist dann nur noch deine Hardwareleistung.

Ja. Nach der ersten Einrichtung und dem Download des Modells kannst du Qwen TTS3 offline ausführen. Sobald sich die Modellgewichte auf deinem Computer befinden, erfolgt die Sprachgenerierung lokal, ohne dass Prompts oder Audiodaten an einen Cloud-Dienst gesendet werden.

Du kannst es auch auf der CPU ausführen, aber es wird deutlich langsamer sein. Für eine flüssige und praktische Nutzung wird eine NVIDIA-GPU (CUDA) empfohlen, da sie die Inferenz stark beschleunigt. Wenn du regelmäßig Voiceovers generierst oder viel iterierst, bietet eine GPU die beste Erfahrung.

0.6B ist schneller und leichter (ideal für schnelle Entwürfe und schwächere GPUs). 1.7B liefert normalerweise eine höhere Qualität und Ausdrucksstärke, benötigt jedoch mehr Rechenleistung und läuft langsamer. Viele Creators erstellen Entwürfe mit 0.6B und rendern das finale Ergebnis mit 1.7B.

Promptus installiert den ComfyUI-Server, weil ComfyUI die lokale Laufzeitumgebung ist, die den Workflow-Graph ausführt (Texteingabe → Modell → Audioausgabe). Dadurch kann der Workflow auf deinem PC im „Offline-Modus“ laufen, während Promptus eine einfachere Benutzeroberfläche bereitstellt, um alles zu verwalten und zu starten.

Geschrieben von:
Eden
Als ausgebildete Künstlerin, die einst befürchtete, dass KI-Kunst ihre Karriere beenden könnte, hat Eden sie seitdem als mächtigen Verbündeten angenommen. Jetzt kreiert sie selbstbewusst mit KI.
Testen Sie Promptus Cosy UI noch heute kostenlos.
Erstelle einfach deinen nächsten KI-Workflow mit Promptus
Go from idea to production-ready output in minutes.
Promptus kostenlos testen ➜