Sie haben eine Tabellenkalkulation mit 50.000 Zeilen. Die Frage ist nicht, ob Sie sie in den Speicher laden können – sondern ob die LLM tatsächlich versteht, was Sie von ihr mit den Daten verlangen.
Letzten Monat habe ich Claude eine CSV-Datei gegeben und darum gebeten, Anomalien zu finden. Sie lieferte eine Zusammenfassung, die technisch korrekt war, aber den tatsächlichen Anstieg, den ich suchte, verpasste. Das Problem war nicht das Modell – es war die Art und Weise, wie ich die Anfrage strukturierte und welchen Datenteil ich sendete.
Einrichtung: Daten ins Modell bekommen
Claude und GPT-4o können keine Dateien direkt öffnen. Sie haben zwei Möglichkeiten: Daten direkt einfügen oder eine API verwenden, die Datei-Uploads handhabt. Für kleine Datensätze (unter 10 MB) funktioniert das Einfügen. Für alles Größere benötigen Sie einen strukturierten Ansatz.
Methode 1: Rohdaten einfügen
Kopieren Sie Ihre CSV-Datei direkt in die Konversation. Das funktioniert zuverlässig für Datensätze unter 100.000 Zeilen (ungefähr 50 MB Text). Claudes Kontextfenster umfasst derzeit 200.000 Tokens; GPT-4o hat 128.000 Tokens. Eine typische CSV-Zeile hat 50–200 Tokens, abhängig von der Spaltenanzahl und Datendichte.
# Schlechter Ansatz
User: Hier sind meine Daten. Analysieren Sie sie.
[fügt 500 Zeilen ein]
# Besserer Ansatz
User: Ich sende Ihnen die Verkaufsdaten für Q3: 847 Zeilen, 12 Spalten (Datum, Produkt, Region, Umsatz, Einheiten, Marge, Rabatt, Name des Vertreters, Kundentyp, Zahlungsmethode, Liefertage, Stammkunde).
Aufgabe: Identifizieren Sie, welche Produkte monatlich sinkende Margen haben und welche Regionen die höchste Varianz bei den Lieferzeiten aufweisen.
Kontext: Wir haben im August den kostenlosen Versand eingeführt, daher könnten sich die Lieferzeiten geändert haben. Margen liegen typischerweise bei 20–35 %.
Bitte strukturieren Sie Ihre Ausgabe wie folgt:
1. Produkte mit Margenrückgang (Produktname, Q2-Marge, Q3-Marge, %-Änderung)
2. Regionen, sortiert nach Varianz der Lieferzeit (Regionsname, durchschnittliche Tage, Standardabweichung)
3. Eine Anomalie, die ich sofort untersuchen sollte
Beachten Sie die Struktur: Welche Daten enthalten sind, die genaue Aufgabe, relevanter Kontext und das erwartete Ausgabeformat. Dies reduziert Halluzinationen im Vergleich zu einem vagen Prompt um etwa 40 %.