Die meisten Erklärungen für KI-Agenten sind entweder zu technisch oder zu einfach. Dieses Handbuch richtet sich an Personen, die KI-Tools regelmäßig verwenden, aber verstehen möchten, wie KI-Agenten funktionieren, ohne sich in komplexem Fachjargon zu verlieren.
Wir folgen einem einfachen dreistufigen Lernpfad, der mit Konzepten beginnt, die Sie bereits kennen, bis hin zu KI-Agenten.
Beliebte KI-Chatbots wie ChatGPT, Google Gemini und Claude basieren auf großen Sprachmodellen. Diese Tools zeichnen sich durch das Generieren und Bearbeiten von Text durch einen einfachen Prozess aus: Sie geben Eingaben ein, und das LLM erstellt die Ausgabe auf der Grundlage seiner Trainingsdaten.
Wenn Sie ChatGPT beispielsweise bitten, eine professionelle E-Mail zu verfassen, ist Ihre Anfrage die Eingabe und die ausgefeilte E-Mail-Antwort ist die Ausgabe. Das funktioniert gut für Aufgaben zur Textgenerierung.
LLMs haben jedoch zwei wichtige Einschränkungen:
Eingeschränktes Wissen: Trotz umfangreicher Trainingsdaten haben sie keinen Zugriff auf Ihre persönlichen Daten, Unternehmensdaten oder Echtzeitinformationen wie Ihren Kalender.
Passive Natur: Sie warten auf Ihre Aufforderung und reagieren, können aber keine unabhängigen Maßnahmen ergreifen.

KI-Workflows erweitern die LLM-Funktionen, indem sie sie mit externen Tools und Datenquellen verbinden. Anstatt nur auf Aufforderungen zu antworten, können sie vordefinierten Schritten folgen, um Aufgaben abzuschließen.
Stellen Sie sich dieses Beispiel vor: Sie sagen einem LLM: „Jedes Mal, wenn ich nach einem persönlichen Ereignis frage, durchsuchen Sie zuerst meinen Google-Kalender und geben Sie dann eine Antwort ab.“ Wenn Sie jetzt fragen: „Wann ist mein Kaffee-Chat mit John?“ Das System überprüft Ihren Kalender, bevor es antwortet.
Sie könnten diesen Workflow weiter erweitern, indem Sie Wetterdaten über eine API hinzufügen, sodass das System Ihnen auch die Prognose für Ihren Besprechungstag mitteilen kann.
Das Hauptmerkmal von KI-Workflows ist, dass sie vordefinierten Pfaden folgen, die von Menschen festgelegt wurden. Selbst bei Hunderten von Schritten ist es immer noch nur ein Arbeitsablauf, wenn ein Mensch die Entscheidungslogik entworfen hat.
Retrieval Augmented Generation (RAG) ist einfach eine Art KI-Workflow, der KI-Modellen hilft, Informationen nachzuschlagen, bevor sie Fragen beantworten.
Hier ist ein praktischer KI-Workflow mit Make.com:
Schritt 1: Kompilieren Sie die Links zu Nachrichtenartikeln in Google Sheets
Schritt 2: Verwenden Sie Perplexity, um die Artikel zusammenzufassen
Schritt 3: Verwende Claude, um LinkedIn- und Instagram-Beiträge zu verfassen
Schritt 4: Zeitplan, der automatisch täglich um 8 Uhr läuft
Dies folgt einem vordefinierten Pfad: mach das, dann das, dann das. Wenn die Ausgabe nicht zufriedenstellend ist, muss ein Mensch die Eingabeaufforderungen manuell anpassen und wiederholen.

Der grundlegende Unterschied zwischen KI-Workflows und KI-Agenten ist die Entscheidungskompetenz. Während Workflows von Menschen entworfenen Pfaden folgen, treffen KI-Agenten ihre eigenen Entscheidungen darüber, wie Ziele erreicht werden sollen.
Ein KI-Agent muss in der Lage sein:
Grund: Überlegen Sie sich, wie Sie ein Problem am besten lösen können
Handeln: Verwenden Sie Tools, um Maßnahmen zur Erreichung des Ziels zu ergreifen
Iterieren: Ergebnisse auswerten und eigenständig verbessern
Wenn wir unser Beispiel für soziale Medien verwenden, würde ein KI-Agent, anstatt vorgegebene Schritte zu befolgen,:
Begründung für die effizienteste Art, Nachrichtenartikel zusammenzustellen
Entscheiden Sie, welche Tools Sie verwenden möchten (Google Sheets vs. Word vs. Excel)
Evaluieren Sie den eigenen Output und wiederholen Sie ihn, bis er die Qualitätsstandards erfüllt
Die meisten KI-Agenten verwenden das REACT-Framework, das für Reason and Act steht. Diese einfache Struktur fängt die Essenz des autonomen KI-Verhaltens ein.
Ein wesentlicher Vorteil von KI-Agenten ist die autonome Iteration. Anstatt menschliches Eingreifen zur Verbesserung der Ergebnisse zu erfordern, können Agenten ihre eigene Arbeit kritisieren und die Ergebnisse automatisch verfeinern.
Andrew Ng hat eine Demo erstellt, die einen KI-Bildverarbeitungsagenten zeigt, der Videomaterial durchsuchen kann. Wenn Sie nach „Skifahrer“ suchen, geht der Agent wie folgt vor:
Gründe, wie ein Skifahrer aussieht
Wirkt durch Analyse von Videoclips
Identifiziert und indexiert relevantes Filmmaterial
Gibt die entsprechenden Clips zurück
Der Agent führt diesen gesamten Prozess autonom durch, ohne dass ein menschliches Vorab-Tagging oder eine manuelle Überprüfung erforderlich ist.
Level 1 — LLMs: Sie geben Eingaben ein, das Modell reagiert mit einer Ausgabe
Level 2 — KI-Workflows: Sie geben Eingaben und vordefinierte Schritte ein; das System folgt Ihrem programmierten Pfad mithilfe externer Tools
Level 3 — AG-Agents: Sie geben ein Ziel vor; die KI entscheidet über den besten Ansatz, ergreift mithilfe von Tools Maßnahmen, bewertet Ergebnisse, iteriert bei Bedarf und produziert das endgültige Ergebnis
Der entscheidende Unterschied liegt in der Entscheidungsfindung: Arbeitsabläufe folgen der menschlichen Logik, während Agenten autonome Entscheidungen treffen, um Ziele zu erreichen.
Wenn Sie diese Unterschiede verstehen, können Sie den richtigen KI-Ansatz für Ihre Bedürfnisse auswählen und KI-Tools besser bewerten, während sie sich weiterentwickeln.