Skip to content
Learning Lab · 5 min read

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.

LLM Workflow Automation: Connect ChatGPT, Claude to Tools

Sie haben einen Workflow in Slack erstellt. Er läuft manuell. Jeden Morgen kopiert jemand Daten aus einer Tabellenkalkulation, fügt sie in ChatGPT ein, bearbeitet die Ausgabe und sendet sie an Notion. Das sind drei Minuten pro Aufgabe. Multiplizieren Sie das mit 20 Aufgaben pro Woche, und Sie haben eine Stunde für Reibungsverluste verbrannt, die nicht sein müssten.

Die Lösung ist nicht der Wechsel zu einem „besseren“ Tool. Es geht darum, die bereits verwendeten Tools – ChatGPT, Claude oder Gemini – über APIs, Webhooks und Automatisierungsplattformen mit Ihrem tatsächlichen Workflow zu verbinden. Ich habe dieses Setup bei AlgoVesta entwickelt. Es reduziert die Ausführungszeit um 70 % und eliminiert die manuelle Copy-Paste-Schicht, in der sich Fehler einschleichen.

Die funktionierende Architektur

Es gibt drei Ebenen: Trigger, LLM-Aufruf und Ziel. Eine Nachricht in Slack löst einen API-Aufruf an Ihr LLM aus. Das LLM verarbeitet die Anfrage und gibt eine strukturierte Ausgabe zurück. Diese Ausgabe landet automatisch in Ihrer Datenbank, Notion oder E-Mail.

Der Haken: Jedes LLM hat ein anderes API-Verhalten. ChatGPT über die OpenAI API funktioniert auf eine Weise. Claude über die Anthropic API funktioniert anders. Gemini über die Google API ist eine dritte Variante. Sie können nicht ein Integrationsmuster für alle drei verwenden und Konsistenz erwarten.

Hier ist der Entscheidungsbaum:

  • ChatGPT (GPT-4o oder 4 Turbo): Niedrigste Latenz für die meisten Anwendungsfälle. Am besten für Echtzeit-Slack-Antworten. Kosten: 0,03 $ pro 1.000 Eingabetokens, 0,06 $ pro 1.000 Ausgabetokens (GPT-4o-Preise Stand März 2025).
  • Claude Sonnet 3.5: Besser bei komplexen Schlussfolgerungen und langen Dokumenten. Langsamere Latenz (in realen Tests ca. 500 ms länger als GPT-4o). Kosten: 0,003 $ pro 1.000 Eingabetokens, 0,015 $ pro 1.000 Ausgabetokens.
  • Gemini 2.0: Kostenlose Stufe verfügbar (begrenzt). Gut für nicht kritische Workflows. Native Sheets-Integration über Google Workspace.

Wählen Sie basierend auf Ihrem Workflow, nicht auf Hype. Wenn Sie Slack-Nachrichten in Echtzeit verarbeiten und Benutzer Antworten unter einer Sekunde erwarten, ist GPT-4o schneller. Wenn Sie Dokumente über Nacht stapelweise verarbeiten und die Genauigkeit wichtiger ist als die Geschwindigkeit, ist Claude günstiger und zuverlässiger.

Erstellung einer ChatGPT-zu-Slack-Automatisierung

Fangen Sie einfach an. Hier ist ein Slack-Bot, der eine Nachricht entgegennimmt, sie an GPT-4o sendet und mit der Antwort zurückmeldet.

import requests
import json
from flask import Flask, request

app = Flask(__name__)

OPENAI_API_KEY = "sk-your-key"
SLACK_BOT_TOKEN = "xoxb-your-token"

@app.route('/slack/events', methods=['POST'])
def handle_slack_event():
    data = request.json
    
    # Slack-Signatur verifizieren (vereinfacht)
    if data["type"] == "url_verification":
        return {"challenge": data["challenge"]}
    
    # Nachricht und Benutzer-ID abrufen
    event = data["event"]
    user_message = event["text"]
    channel = event["channel"]
    
    # OpenAI API aufrufen
    response = requests.post(
        "https://api.openai.com/v1/chat/completions",
        headers={"Authorization": f"Bearer {OPENAI_API_KEY}"},
        json={
            "model": "gpt-4o",
            "messages": [
                {"role": "user", "content": user_message}
            ],
            "temperature": 0.7,
            "max_tokens": 300
        }
    )
    
    # Antworttext extrahieren
    if response.status_code == 200:
        result = response.json()
        bot_reply = result["choices"][0]["message"]["content"]
        
        # Zurück an Slack senden
        requests.post(
            "https://slack.com/api/chat.postMessage",
            headers={"Authorization": f"Bearer {SLACK_BOT_TOKEN}"},
            json={
                "channel": channel,
                "text": bot_reply
            }
        )
    
    return {"ok": True}

if __name__ == '__main__':
    app.run()

Das funktioniert, hat aber einen Nachteil: Slack hat ein 3-Sekunden-Timeout für Antworten. Wenn OpenAI länger als 2 Sekunden benötigt, versucht Slack es erneut. Sie erhalten doppelte Nachrichten. Nutzen Sie stattdessen die asynchronen Antwort-URLs von Slack (separater Endpunkt für verzögerte Antworten) oder verwenden Sie eine Warteschlange wie Celery, um die Latenz zu bewältigen.

Grounding Prompts für Konsistenz

Wenn Claude oder GPT-4o in der Automatisierung laufen, erhalten sie kein menschliches Feedback. Sie können ihre Ausgabe nicht bearbeiten. Daher benötigen Sie strengere Prompts.

Schlechter Prompt für eine Notion-Zusammenfassungsaufgabe:

Fasse dieses Dokument zusammen.

Problem: „Zusammenfassen“ ist vage. LLMs produzieren bei jedem Durchlauf unterschiedliche Längen, Formate und Stile. Bei 50 automatisierten Aufgaben erhalten Sie 50 verschiedene Ausgaben.

Verbesserter Prompt:

Fasse das Dokument in genau 3 Stichpunkten zusammen. Jeder Stichpunkt muss ein Satz mit weniger als 20 Wörtern sein. Konzentriere dich nur auf Aktionspunkte und Fristen. Gib es als JSON mit dem Schlüssel „summary“ zurück, der ein Array von Strings enthält. Füge keinen anderen Text hinzu.

Jetzt kennt das LLM das genaue Format, die Länge und den Fokus. Wenn es in Notion landet, funktioniert die Feldzuordnung. Wenn Sie das JSON parsen, bricht es nicht zusammen. Sie sind von „gut genug“ zu „produktionsreif“ übergegangen.

Claude vs. GPT-4o in Produktions-Workflows

Bei der Extraktion von Handelssignalen bei AlgoVesta sind wir von GPT-4o zu Claude Sonnet 3.5 für eine Aufgabe gewechselt: die Analyse von Marktneuigkeiten. Die Latenz kostete uns (Sonnet benötigt pro Aufruf ca. 400 ms länger), aber der Genauigkeitsgewinn hat sich ausgezahlt. Sonnet übersieht bei dichten Finanzdokumenten seltener Kontextinformationen. GPT-4o halluziniert bei dieser Aufgabe etwa 23 % der Zeit Verbindungen, die nicht existieren. Claude tut dies etwa 8 % der Zeit.

Der Kompromiss ist real: Sie zahlen mit Latenz, um Genauigkeit zu gewinnen. In Echtzeit-Workflows (Slack-Bots, Chat-Interfaces) ist diese Latenz zu hoch. Bei Batch-Workflows (nächtliche Datenverarbeitung, Berichterstellung) gewinnt Claude.

Testen Sie beide mit Ihren tatsächlichen Daten, bevor Sie eine Entscheidung treffen. Ein Benchmark mit 10 Dokumenten reicht nicht aus. Verwenden Sie mindestens 100 Beispiele aus Ihrem realen Workflow, messen Sie die Fehlerraten und berechnen Sie die Kostenunterschiede. Normalerweise ist das günstigere Modell gut genug – aber nicht immer.

Machen Sie das heute

Wählen Sie eine manuelle Aufgabe, die Sie mindestens zweimal pro Woche erledigen. Sie muss drei Eigenschaften haben: (1) eine Eingabequelle, auf die Sie über API oder Webhook zugreifen können (Slack, E-Mail, Sheets), (2) eine regelbasierte Entscheidung oder Transformation, die Sie derzeit ChatGPT beschreiben, und (3) ein Ausgabeziel, das Daten programmatisch akzeptiert (Notion, Airtable, Sheets, E-Mail).

Schreiben Sie zuerst den Grounding Prompt – exaktes Format, exakte Länge, exakter Fokus. Verwenden Sie dann n8n (kostenlos, selbst gehostet) oder Make (kostenlose Stufe), um Eingabe → LLM → Ausgabe zu verketten. Diese visuellen Tools ermöglichen es Ihnen, den Workflow zu erstellen, ohne Code anzufassen. Führen Sie ihn fünfmal manuell aus. Wenn die Ausgabe konsistent und nutzbar ist, planen Sie die Ausführung nach einem Zeitplan.

Sie haben gerade eine Aufgabe automatisiert. Das ist das gesamte Muster. Wiederholen Sie es für die nächsten fünf Aufgaben, und Sie haben Stunden Ihrer Woche eingespart.

Batikan
· 5 min read
Topics & Keywords
Learning Lab sie die und ist eine der das mit
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren
Learning Lab

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.

· 4 min read
KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement
Learning Lab

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.

· 5 min read
Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Wählen Sie die richtige Technik
Learning Lab

Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Wählen Sie die richtige Technik

Zero-Shot, Few-Shot und Chain-of-Thought sind drei verschiedene Prompting-Techniken mit unterschiedlichen Genauigkeits-, Latenz- und Kostenprofilen. Erfahren Sie, wann Sie jede einsetzen, wie Sie sie kombinieren und wie Sie messen, welcher Ansatz für Ihre spezifische Aufgabe am besten funktioniert.

· 17 min read
10 ChatGPT-Workflows, die im Geschäftsleben tatsächlich Zeit sparen
Learning Lab

10 ChatGPT-Workflows, die im Geschäftsleben tatsächlich Zeit sparen

ChatGPT spart Stunden, wenn Sie ihm Struktur und klare Einschränkungen geben. Hier sind 10 produktive Workflows – von der E-Mail-Erstellung bis zur Wettbewerbsanalyse –, die repetitive Arbeit halbieren, mit funktionierenden Prompts, die Sie noch heute verwenden können.

· 2 min read
Schluss mit generischen Prompts: Modellspezifische Techniken, die wirklich funktionieren
Learning Lab

Schluss mit generischen Prompts: Modellspezifische Techniken, die wirklich funktionieren

Auszug: Claude, GPT-4o und Gemini reagieren unterschiedlich auf denselben Prompt. Lernen Sie modellspezifische Techniken, die die Stärken jedes einzelnen nutzen – mit funktionierenden Beispielen, die Sie heute verwenden können.

· 3 min read
Schreiben wie ein Mensch: KI-Inhalte ohne Roboterstimme
Learning Lab

Schreiben wie ein Mensch: KI-Inhalte ohne Roboterstimme

KI-generierte Inhalte sind standardmäßig durchschnittlich – sicher, professionell und ununterscheidbar. Lernen Sie vier Techniken, um Ihrer KI eine echte Stimme zu verleihen: Spezifitätsbeschränkungen, Musterabgleich mit Ihren eigenen Texten, Temperatureinstellung und ein Audit-Pass, der Roboter-Muster entfernt.

· 2 min read

More from Prompt & Learn

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich
AI Tools Directory

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.

· 5 min read
DeepL führt Sprachübersetzung ein. Was sich für Teams ändert
AI Tools Directory

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.

· 3 min read
10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen
AI Tools Directory

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.

· 6 min read
Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?
AI Tools Directory

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.

· 5 min read
KI-Tools, die Ihnen wirklich Stunden pro Woche sparen
AI Tools Directory

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

· 12 min read
Googles KI-Wasserzeichensystem angeblich geknackt. Was das bedeutet
AI News

Googles KI-Wasserzeichensystem angeblich geknackt. Was das bedeutet

Ein Entwickler behauptet, Googles SynthID-Wasserzeichensystem von DeepMind mittels einfacher Signalverarbeitung und 200 Bildern reverse-engineert zu haben. Google bestreitet die Behauptung, doch der Vorfall wirft Fragen auf, ob Wasserzeichen eine zuverlässige Abwehr gegen den Missbrauch von KI-generierten Inhalten darstellen können.

· 4 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder