So installieren und verwenden Sie das Wan KI-Videomodell

Veröffentlicht am:

March 16, 2026

Wan Vase stellt den neuesten Durchbruch in der KI-Videogenerierung dar und ermöglicht es Benutzern, Videos aus einfachen Textanfragen zu erstellen.

So installieren und verwenden Sie das Wan KI-Videomodell

Wan Vase stellt den neuesten Durchbruch in der KI-Videogenerierung dar und ermöglicht es Benutzern, atemberaubende Videos aus einfachen Textanweisungen zu erstellen, Bilder in dynamische Inhalte umzuwandeln oder Videosequenzen mithilfe von Referenzmaterial zu steuern. Diese umfassende Anleitung führt Sie durch die Installation und Verwendung dieses leistungsstarken Modells in ComfyUI.

Erste Schritte mit ComfyUI Updates

Bevor Sie in Wan Vase eintauchen, vergewissern Sie sich, dass Ihre ComfyUI-Installation auf dem neuesten Stand ist. Navigieren Sie zum Manager und klicken Sie auf „Alle aktualisieren“. Wenn dieses automatische Update fehlschlägt, suchen Sie Ihren ComfyUI-Installationsordner, suchen Sie das Aktualisierungsverzeichnis und führen Sie die Datei „ComfyUI BAT aktualisieren“ aus. Starten Sie ComfyUI nach dem Update neu und führen Sie erneut „Update all“ aus, um alle Knoten zu aktualisieren.

Essentielle Komponenten für Wan Vase

Der Workflow erfordert nur eine minimale Einrichtung — Sie benötigen nur den Guff-Knoten, der bereits installiert sein sollte. Falls er fehlt, greifen Sie auf den Manager zu, öffnen Sie den Manager für benutzerdefinierte Knoten, suchen Sie nach „Guff“ und installieren Sie ihn. Denken Sie daran, ComfyUI nach der Installation neu zu starten.

Modellauswahl und Installation

Wählen Sie Ihre Modellgröße auf der Grundlage Ihrer Hardwarefähigkeit und Ihres Geduldsniveaus. Die Q4-Version bietet ein ausgewogenes Verhältnis zwischen Qualität und Geschwindigkeit, während Q8 eine höhere Qualität auf Kosten der Generierungszeit bietet. Für Benutzer mit leistungsstarken Grafikkarten liefert die 16-Version optimale Ergebnisse. Benutzer mit eingeschränktem VRAM sollten die Q3-Version in Betracht ziehen.

Platzieren Sie das heruntergeladene Modell im Ordner Diffusion Models in Ihrer ComfyUI-Installation. Laden Sie zusätzlich das FPScaled-Clipmodell herunter (das sich von den Flux-Modellen unterscheidet) und platzieren Sie es im Text-Encoder-Ordner. Laden Sie abschließend das benötigte VAE herunter und platzieren Sie es im VAE-Ordner.

Ihren ersten Text-to-Video-Workflow einrichten

Der grundlegende Arbeitsablauf umfasst mehrere wichtige Komponenten: positive und negative Eingabeaufforderungen, Wan Vase to Video Node, Case Sampler, Trim Video Latent Node für Framemanagement und Knoten zur Videoerstellung. Die integrierten Videoknoten von ComfyUI machen zusätzliche benutzerdefinierte Installationen überflüssig.

Konfigurieren Sie Ihre Abmessungen sorgfältig — vermeiden Sie eine Breite von 1280 Pixeln, um extrem lange Generierungszeiten zu vermeiden. Verwenden Sie Vielfache von 32 für optimale Ergebnisse. Die Frame-Berechnung folgt dieser Formel: Gewünschte Sekunden multipliziert mit Bildern pro Sekunde (normalerweise 16) plus einem zusätzlichen Frame. Beispielsweise benötigt ein 3-Sekunden-Video 49 Bilder (3 × 16 + 1).

Bessere Eingabeaufforderungen erstellen

Nutzen Sie KI-Assistenten wie ChatGPT, um effektive Videoaufforderungen zu generieren. Beschreiben Sie einfach Ihre Sicht und spezifizieren Sie bei Bedarf die Kamerabewegungen. Die KI bietet detaillierte Eingabeaufforderungen, die Sie direkt in das positive Prompt-Feld von ComfyUI einfügen können.

Umwandlung von Bild zu Video

Die Konvertierung in einen Bild-zu-Video-Workflow ist unkompliziert. Fügen Sie der Arbeitsfläche einen Lade-Image-Node hinzu, laden Sie Ihr Referenzbild hoch und verbinden Sie die Ausgabe mit der Referenzbildeingabe. Stellen Sie sicher, dass Ihre Videoabmessungen dem Seitenverhältnis des hochgeladenen Bildes entsprechen, um optimale Ergebnisse zu erzielen.

Um optimale Ergebnisse zu erzielen, sollten Sie Ihre Eingabeaufforderungen auf Elemente konzentrieren, die im Quellbild sichtbar sind. Vermeiden Sie es, Bewegungen von Objekten zu beschreiben, die im Originalbild nicht vorhanden sind, da dies dazu führen kann, dass die KI unerwünschte Artefakte oder Störungen erzeugt.

Erweiterte Video-zu-Video-Steuerung

Für den Video-to-Video-Workflow ist der Aux-Knoten erforderlich (ähnlich wie ControlNet). Installieren Sie ihn über den Manager, falls er nicht bereits verfügbar ist. In diesem Arbeitsablauf wird ein Referenzvideo zur Bewegungssteuerung verwendet. Dabei werden Vorverarbeitungstechniken wie die Erkennung von Eindringlingen, Tiefen oder Körperhaltung angewendet.

Laden Sie Ihr Kontrollvideo hoch und fügen Sie entsprechende Eingabeaufforderungen hinzu, die sowohl das Motiv als auch die gewünschte Bewegung beschreiben. Die KI folgt den Bewegungsmustern des Referenzvideos und wendet dabei die von Ihnen angegebenen Stil- und Inhaltsänderungen an.

Optimierung der Generierungsgeschwindigkeit mit LoRa

Beschleunigen Sie die Generierung mithilfe des RG3 Power LoRa-Loader-Knotens erheblich. Laden Sie die spezifische Wan Vase LoRa herunter und platzieren Sie sie im LoRAS-Ordner. Stellen Sie die Stärke auf 0,25 ein, um ausgewogene Ergebnisse zu erzielen. Experimentieren kann jedoch zu besseren Einstellungen für Ihren speziellen Anwendungsfall führen.

Passen Sie die Generierungsparameter an: Verwenden Sie 4-6 Schritte statt der üblichen 20, setzen Sie CFG auf 6 und wählen Sie Euler Ancestral mit Beta-Scheduler. Diese Optimierungen können die Generierungszeit um mehr als die Hälfte reduzieren.

Farbkorrektur für LoRa-Ergebnisse

Die LoRa-Beschleunigung führt manchmal zu Farbverschiebungen und erhöhtem Kontrast. Dem entgegenwirken, indem Sie den benutzerfreundlichen Knoten installieren und nach der VAE-Decodierung einen Knoten zur Farbanpassung hinzufügen. Verwenden Sie Ihr ursprüngliches Eingabebild als Referenz, um die Farbgenauigkeit während der gesamten generierten Sequenz aufrechtzuerhalten.

Qualitätsvergleich und Erwartungen

Wan Vase bietet zwar beeindruckende Funktionen zur kostenlosen Videogenerierung, kostenpflichtige Dienste wie Kling AI liefern derzeit jedoch hervorragende Ergebnisse. Wan Vase entwickelt sich jedoch ständig weiter und bietet ein hervorragendes Preis-Leistungs-Verhältnis für Benutzer, die eine kostengünstige KI-Videoerstellung suchen.

Bewährte Methoden für den Erfolg

Halten Sie die Videolänge unter 5 Sekunden, um optimale Ergebnisse und angemessene Generierungszeiten zu erzielen. Verwenden Sie geeignete Hardware — selbst High-End-Grafikkarten wie RTX 4090 benötigen mehrere Minuten pro Generation. Experimentieren Sie mit verschiedenen Modellgrößen und Einstellungen, um das optimale Gleichgewicht zwischen Qualität und Geschwindigkeit zu finden.

Testen Sie verschiedene Seeds, wenn die ersten Ergebnisse Artefakte enthalten oder nicht den Erwartungen entsprechen. Kleine zeitnahe Anpassungen können sich erheblich auf die endgültige Ausgabequalität auswirken.
‍

Häufig gestellte Fragen

Welche Hardware benötige ich, um Wan Vase effektiv zu nutzen?

Eine dedizierte Grafikkarte mit mindestens 8 GB VRAM wird empfohlen. Die Generierungszeiten variieren erheblich je nach Leistungsfähigkeit Ihrer Hardware.

Wie lange dauert die Videogenerierung normalerweise?

Die Generierungszeiten liegen zwischen 6–7 Minuten für Basis-Setups und über 40 Minuten für hochauflösende Ausgaben, abhängig von Ihrer Hardware und der gewählten Modellgröße.

Kann ich Wan Vase für kommerzielle Projekte verwenden?

Bitte prüfen Sie die spezifischen Lizenzbedingungen für die von Ihnen verwendete Modellversion, da für die kommerzielle Nutzung Einschränkungen gelten können.

Welche maximale Videoauflösung sollte ich anstreben?

Bleiben Sie unter einer Breite von 1280 Pixeln, um akzeptable Generierungszeiten beizubehalten. Höhere Auflösungen erhöhen die Rechenanforderungen drastisch.

‍

Weitere ComfyUI Workflows anzeigen