Sie haben einen Prompt geschrieben. Das Bild kam falsch zurück. Nicht katastrophal falsch – nur… daneben. Die Komposition war flach. Die Details passten nicht zu dem, was Sie beschrieben haben. Der Stil traf nicht. Sie haben es mit mehr Worten, mehr Adjektiven, mehr Verzweiflung erneut versucht. Das Ergebnis war schlechter.
Das passiert, weil Bildgenerierungsmodelle Prompts nicht so lesen, wie Sie denken. Sie parsen keine Sätze. Sie gewichten Token nach ihrer Wichtigkeit, gruppieren Konzepte räumlich in ihrem latenten Raum und reagieren auf stilistischen Druck auf eine Weise, die teilweise vorhersehbar und teilweise vom Trainingsdatensatz des Modells abhängig ist. Dies zu wissen, verändert alles daran, wie Sie schreiben.
Ich habe die letzten zwei Jahre damit verbracht, visuelle Workflows für AlgoVesta zu erstellen – Trading-Dashboards, die korrekt, konsistent und schnell gerendert werden müssen. Das bedeutet, ich habe Midjourney, DALL-E 3 und Flux in Hunderten von Iterationen getestet. Ich habe beobachtet, wie Prompts auf spezifische Weise fehlschlugen. Ich habe gelernt, was wirklich den Unterschied macht und was Token verschwendet.
Warum Ihre Bild-Prompts fehlschlagen (Und es liegt nicht nur daran, „beschreibender zu sein“)
Der häufigste Fehler ist, einen Bild-Prompt wie eine Produktbeschreibung zu behandeln. Sie listen Attribute auf: „ein Wald, neblig, Sonnenlicht filtert durch die Bäume, ultra-detailliert, 4K.“ Dieser Ansatz liefert Ihnen matschige, unfokussierte Ergebnisse, weil Sie nicht berücksichtigen, wie diese Modelle Token tatsächlich bewerten.
Bildgenerierungsmodelle – sei es Midjourney (das auf eigener Infrastruktur läuft), DALL-E 3 (auf OpenAIs Architektur basierend) oder Flux (ein Open-Source-Modell, das Klarheit bevorzugt) – verarbeiten Sprache durch eine Kodierungsschicht, die Token Gewichtungen zuweist. Ein Token, das in Millionen von Trainingsbildern vorkommt, erhält eine geringere Wichtigkeit als ein Token, das in weniger, spezifischeren Kontexten vorkommt. Wenn Sie sagen „detailliert“, haben alle Modelle dieses Wort in Millionen von Prompts gesehen, daher hat es fast kein Signal. Wenn Sie sagen „Daguerreotypie-Farbkorrektur“, haben weniger Bilder diese spezifische Ästhetik, daher ist das Gewicht höher.
Der zweite Fehler ist Prompt-Längen-Drift. Sie denken, mehr Beschreibung = mehr Kontrolle. Was tatsächlich passiert, ist Token-Rauschen. Midjourney verarbeitet Ihren Prompt durch einen CLIP-Encoder (ein Vision-Language-Modell, das auf Bild-Text-Paaren trainiert wurde). Jedes Wort nach etwa 60 Token beginnt, das Signal zu verwässern. DALL-E 3 ist etwas nachsichtiger – es formuliert Ihren Prompt intern neu, bevor es generiert – hat aber immer noch einen Sättigungspunkt bei etwa 80 Token. Flux, neuer und forschungsorientierter, verarbeitet längere Prompts besser, aber Klarheit schlägt Volumen.
Der dritte Fehler – und dieser ruiniert professionelle Arbeit – ist das Ignorieren modellspezifischen Verhaltens. Midjourneys Ästhetik neigt zu filmischem, leicht gesättigtem, hyperdetailliertem Stil. DALL-E 3 tendiert zu saubererem, „realerem“ Rendering. Flux teilt die Mitte, hat aber seine eigenen Eigenheiten bei Text im Bild und Händen. Sie können nicht denselben Prompt für alle drei schreiben und die gleiche Qualität erwarten.
| Modell | Am besten für | Prompt-Stil | Token-Limit (effektiv) | Iterationsgeschwindigkeit |
|---|---|---|---|---|
| Midjourney (v6.1) | Stilisiert, filmisch, Fantasy | Knapp, Fokus auf Komposition und Stil | ~60 Token optimal | ~60s pro Bild |
| DALL-E 3 | Fotorealistisch, Produkt, konzeptionell | Narrativ, detaillierte Szenenbeschreibung | ~80 Token optimal | ~20s pro Bild |
| Flux | Realistisch, technisch, textlastig | Direkte, wörtliche Beschreibungen funktionieren besser | ~120 Token optimal | ~8s pro Bild (lokal) |
Der Unterschied zählt. Wenn Sie Produktfotografie generieren, liefert Ihnen DALL-E 3 in 2-3 Iterationen brauchbare Ergebnisse. Midjourney benötigt 8-12, aber die stilistische Bandbreite ist breiter. Flux ist, wenn Sie es lokal ausführen, am schnellsten für technische Bilder, aber am schlechtesten für interpretative Anfragen.
Kernstruktur: Das Drei-Teile-Prompt-Framework
Jeder effektive Bild-Prompt hat drei Komponenten. Die meisten Leute nutzen nur eine.
Teil 1: Das Subjekt/Die Aktion (10–20 Token)
Darauf konzentriert sich das Modell zuerst. Seien Sie spezifisch beim Hauptelement. „Eine Frau“ ist schwächer als „Eine Frau in einem roten Mantel, die sich gegen eine Ziegelmauer lehnt.“ Das Detail ist kein Schmuck – es ist gerichtete Gewichtung. Das Modell weist dem, was zuerst und am konkretesten erscheint, mehr von seinem Generierungsbudget zu.
// SCHLECHT
Eine Landschaftsfotografie
// BESSER
Eine Luftaufnahme einer Küstenstadt bei Sonnenuntergang, mediterrane Architektur, enge Gassen, Boote im Hafen
Teil 2: Stil/Ästhetik (5–10 Token)
Hier zählt modellspezifisches Wissen. Sagen Sie nicht „filmisch“. Sagen Sie, welche Art von Kino. „Film Noir“ ist schärfer als „filmisch“. „Kodachrome-Farbkorrektur“ ist schärfer als „lebendig.“ Sie lenken das Modell auf eine Gruppe von Trainingsbeispielen, nicht auf eine vage Richtung.
Für Midjourney funktionieren Stil-Tags gut: „aufgenommen mit Hasselblad“, „volumetrische Beleuchtung“, „dramatischer Chiaroscuro“. Für DALL-E 3 funktioniert narrativer Stil: „im Stil einer Vogue-Titelseite der 1970er Jahre“. Für Flux deskriptive technische Details: „scharfer Fokus, 35mm-Objektiv, f/2.8 Blende.“
// SCHLECHT
Filmische Beleuchtung, professionelle Qualität, hohe Auflösung
// BESSER (Midjourney)
Volumetrische Götterstrahlen, aufgenommen mit Hasselblad, 85mm Objektiv, Farbkorrektur von Roger Deakins
// BESSER (DALL-E 3)
Im Stil einer Helmut Newton Fotografie aus den 1980er Jahren
// BESSER (Flux)
Scharfer Fokus, Kodachrome-Filmmaterial, natürliches Fensterlicht, 50mm Prime-Objektiv
Teil 3: Einschränkung/Ausschluss (0–5 Token)
Hier verhindern Sie Fehler. Sagen Sie dem Modell, was es NICHT tun soll. „Kein Weichzeichner, keine Filter, kein Text.“ Für Midjourney können Sie die „–no“-Syntax verwenden: `–no blur, filters`. Für DALL-E 3 nehmen Sie es in den Text auf: „Bewegungsunschärfe vermeiden, digitale Filter vermeiden.“ Für Flux dasselbe – nehmen Sie es natürlich auf.
// OHNE EINSCHRÄNKUNG
Nahaufnahme eines Gesichts, dramatische Beleuchtung
// MIT EINSCHRÄNKUNG
Nahaufnahme eines Gesichts, dramatische Beleuchtung, kein Weichzeichner, keine digitalen Filter, beide Augen klar sichtbar und fokussiert
Warum die letzte Einschränkung? Bildmodelle haben Schwierigkeiten mit bilateraler Symmetrie in Nahaufnahmen. Die Angabe „beide Augen klar sichtbar“ verhindert den häufigen Fehler, dass ein Auge unscharf oder stilistisch ignoriert wird.
Modellspezifische Techniken: Wo sie sich unterscheiden
Midjourney: Komposition und Seitenverhältnis als Prompt-Logik
Midjourneys Stärke ist kompositorische Vielfalt. Es verarbeitet komplexe Szenen, mehrere Motive und filmische Rahmen besser als seine Konkurrenten. Das Modell reagiert stark auf räumliche und kompositorische Sprache.
Schlüsseltechnik: Verwenden Sie kompositorische Verben und Präpositionen. Anstatt Elemente aufzulisten, beschreiben Sie ihre räumliche Beziehung.
// SCHWACH
Eine Frau, Berge, Wald, Sonnenuntergang
// STARK
Eine Frau steht auf einem Felsvorsprung und blickt auf ein weites Waldtal, Berge in der Ferne, warmes Sonnenuntergangslicht wirft lange Schatten über die Landschaft
Der zweite Prompt funktioniert, weil Sie nicht nur Dinge benennen – Sie beschreiben Tiefe, Schichtung und räumliche Hierarchie. Midjourneys CLIP-Encoder gewichtet diese relationalen Token hoch.
Das Seitenverhältnis ist bei Midjourney wichtiger als bei anderen Modellen. Verwenden Sie `–ar 16:9` für Panorama, `–ar 1:1` für Quadrat, `–ar 9:16` für Hochformat. Das Modell verschiebt seine Kompositionsstrategie basierend auf der Leinwand. Kämpfen Sie nicht dagegen an – nutzen Sie es. Schreiben Sie Prompts, die das Seitenverhältnis berücksichtigen.
// Für --ar 16:9 (Panorama)
Breite Etablierungsaufnahme: eine weitläufige Stadtlandschaft in der Dämmerung, Neonschilder spiegeln sich in nassen Straßen, mehrere deutlich sichtbare Distrikte von links nach rechts
// Für --ar 9:16 (Hochformat)
Enges Porträt eines Musikers, Hände auf der Geige, leicht nach links gerichtet, weiche Studiobeleuchtung von rechts, geringe Schärfentiefe, die den unscharfen Hintergrund verwischt
Midjourney reagiert auch auf spezifische Kameraspraxis. „Aufgenommen mit Hasselblad 907x“, „35mm Kodachrome“, „aufgenommen mit einer Mamiya RB67“. Dies sind nicht nur stilistische Verzierungen – sie kodieren spezifische ästhetische Eigenschaften, die das Modell aus Trainingsdaten gelernt hat. Fügen Sie sie hinzu.
DALL-E 3: Narrative Rahmung funktioniert besser als Listen
DALL-E 3 hat einen internen Umschreibungsschritt. Sie schreiben etwas, und das Modell wandelt es intern in eine detailliertere Beschreibung um, bevor es generiert. Das bedeutet, Sie können natürlicher schreiben – näher daran, wie Sie ein Bild einem Menschen beschreiben würden – und das Modell wird intelligent ausarbeiten.
Dies ändert Ihre Strategie. Bei Midjourney optimieren Sie für Token-Dichte. Bei DALL-E 3 können Sie sich gesprächig leisten.
// SCHWACH (und verschwendet DALL-E 3s Stärke)
Ein Büro, modern, minimalistisch, Pflanzen, Sonnenlicht, professionell
// STARK (narrative Rahmung)
Ein moderner Büroraum im oberen Stockwerk eines Glasgebäudes. Morgensonne strömt durch bodentiefe Fenster und beleuchtet einen minimalistischen Schreibtisch mit einer einzelnen grünen Pflanze und einem Laptop. Der Raum ist ruhig, aufgeräumt und in natürliches Licht getaucht.
Der zweite Prompt funktioniert für DALL-E 3, weil Sie eine narrative Struktur verwenden. Der Umschreiber des Modells wird „morgensonne strömt durch bodentiefe Fenster“ auf eine Weise ausarbeiten, die das endgültige Bild verbessert. Es wird Skalierung, Materialien und Stimmung aus der Szenenbeschreibung ableiten.
DALL-E 3 eignet sich auch hervorragend für konzeptionelle Anfragen. „Zeigen Sie das Gefühl der Vorfreude durch eine Landschaft“ oder „Visualisieren Sie das Geräusch von Regen auf einem Blechdach“ liefern interessantere Ergebnisse als bei Midjourney, das zu wörtlicher Interpretation neigt.
Vermeiden Sie Stil-Listen bei DALL-E 3. Anstatt „volumetrische Beleuchtung, scharfer Fokus, 85mm Objektiv“, schreiben Sie: „Aufgenommen mit weichem, diffusem Licht, scharfer Fokus auf das zentrale Motiv.“ Der narrative Ansatz lässt den Umschreiber mehr Arbeit leisten.
Flux: Wörtliche Beschreibungen und Texteinbettung
Flux ist neuer (veröffentlicht Mitte 2024) und sein Trainingsansatz ist forschungsorientierter. Es ist extrem wörtlich. Was Sie schreiben, versucht es direkt wiederzugeben. Das ist eine Stärke, wenn Sie präzise sind, eine Schwäche, wenn Sie poetisch sind.
// Funktioniert gut in Midjourney, scheitert aber in Flux
Eine Frau in Gedanken versunken, blickt in einen unendlichen Horizont
// Besser für Flux
Eine Frau mit nachdenklichem Ausdruck, blickt zum Horizont, steht allein in einer weiten leeren Landschaft, gedämpfte Farben, bedeckter Himmel
Flux‘ einzigartiger Vorteil: Es verarbeitet Text-in-Bild besser als Midjourney oder DALL-E 3. Wenn Sie ein Schild, ein Etikett oder eingebetteten Text benötigen, ist Flux Ihr Modell. Aber Sie müssen explizit angeben, welcher Text erscheinen soll und wo.
Ein Produktetikett auf weißem Hintergrund. Das Etikett lautet „Pure Essence“ in fetter Serifenschrift, mit einem goldenen Rand und einer kleinen botanischen Illustration in der oberen rechten Ecke, professionelle Produktfotografie, Studiobeleuchtung, sauberer Schatten
Flux kann das verarbeiten. DALL-E 3 wird den Text halluzinieren. Midjourney wird ihn unleserlich rendern.
Für technische oder realistische Bilder ist Flux‘ Literalität von Vorteil. „Nahaufnahme einer Platine mit präzisen Lötstellen, Beschriftungen der Komponenten deutlich sichtbar, aufgenommen im 45-Grad-Winkel, weißer Hintergrund“ liefert von Flux genauere technische Ergebnisse als von Midjourney.
Häufige Fehler und Korrekturen
Sie werden auf diese Probleme stoßen. Jeder Praktiker tut das. Hier ist, wie Sie sich erholen.
Der Fehler „Zu viele Informationen“
Das Bild kommt verrauscht, unfokussiert, verwirrt zurück. Das Modell versuchte, jedes Detail einzubauen und schaffte es, keines davon zu integrieren.
Ursache: Sie haben die effektive Token-Kapazität des Modells überschritten. Midjourney leidet besonders darunter bei 65+ Token. Die späteren Token werden zu Rauschen.
Korrektur: Kürzen Sie den Prompt um 30 %. Löschen Sie Adjektive und beschreibende Phrasen. Behalten Sie das Subjekt, die Komposition und eine starke Stilreferenz bei.
// ORIGINAL (scheitert)
Eine ruhige Waldlichtung in der Morgendämmerung, Nebel schwebt über dem Boden, alte Eichen ragen darüber auf, goldenes Sonnenlicht filtert durch das Blätterdach, Vögel im Flug, Weichzeichner, volumetrische Beleuchtung, fotorealistisch, ultra-detailliert, aufgenommen mit Hasselblad, 4K-Auflösung, preisgekrönte Fotografie
// KORRIGIERT
Waldlichtung in der Morgendämmerung, Nebel auf dem Boden, alte Eichen, goldenes Sonnenlicht durch das Blätterdach, aufgenommen mit Hasselblad, fotorealistisch
Der Fehler „Falsche Ästhetik“
Das Bild entspricht technisch Ihrer Beschreibung, hat aber die falsche Ausstrahlung. Zu cartoonhaft, zu fotorealistisch, zu gesättigt, zu gedämpft.
Ursache: Ihre Stilreferenz war nicht spezifisch genug oder sie widerspricht anderen Token.
Korrektur: Ersetzen Sie vage Stilbeschreibungen durch spezifische historische Referenzen oder Fotografennamen.
// SCHWACHER STIL
Eine Landschaft, leuchtende Farben, schöne Beleuchtung, professionelle Qualität
// STARKER STIL
Eine Landschaft im Stil von Ansel Adams' Schwarz-Weiß-Fotografie, hoher Kontrast, tiefe Schatten, helle Lichter
// ODER
Eine Landschaft fotografiert von Peter Lindbergh, minimale Farbpalette, starke geometrische Komposition, natürliches Licht
Der Fehler „Kaputte Hände“
Ein Klassiker. Die Hände sind verzerrt, haben zu viele Finger oder sind unmöglich positioniert. Dies ist besonders häufig bei Midjourney v6.0 und früheren Versionen von DALL-E 3.
Ursache: Die Trainingsdaten des Modells enthalten weniger hochwertige Handbeispiele, daher hat es Schwierigkeiten damit in komplexen Szenen.
Korrektur: Vermeiden Sie entweder Nahaufnahmen von Händen oder vereinfachen Sie die Szene, um die Hand zu isolieren. Seien Sie explizit bezüglich der Handposition.
// RISKANT
Eine Frau spielt Geige, Nahaufnahme zeigt ihr Gesicht und ihre Hände auf dem Instrument
// SICHERER
Eine Frau spielt Geige, Aufnahme von der Seite, die ihr Profil zeigt, Hände sichtbar auf den Saiten, Nahfokus auf das Instrument und den Bogen
// AM SICHERSTEN
Hände spielen eine Geige, Nahaufnahme, Finger präzise auf den Saiten, klare Handstruktur, professionelle Stilllebenfotografie
Der Fehler „Weichzeichner-Leck“
Sie haben um scharfen Fokus auf einem Motiv gebeten, aber das Modell hat alles in mittlerer Schärfe gerendert. Nichts ist wirklich unscharf, aber nichts ist auch knackig.
Ursache: Das Modell hat „scharfen Fokus“ gegen andere Token gewichtet und einen Kompromiss geschlossen.
Korrektur: Seien Sie spezifischer, welches Element scharf sein soll und was unscharf sein soll.
// SCHWACH
Ein Porträt mit scharfem Fokus
// BESSER
Ein Porträt mit scharfem Fokus auf die Augen, weicher unscharfer Hintergrund, geringe Schärfentiefe, 85mm Objektiv-Bokeh
Workflow: Vom Konzept zur Produktion
So generiere ich Bilder für die tatsächliche Produktionsarbeit:
Schritt 1: Absicht definieren (2 Minuten)
Wofür ist dieses Bild? Produktfoto? Konzept? Marketing? Die Antwort bestimmt, welches Modell verwendet wird. Produktfotografie → DALL-E 3 oder Flux. Stilisierte Konzepte → Midjourney. Realistische technische Bilder → Flux.
Schritt 2: Basis-Prompt schreiben (5 Minuten)
Beginnen Sie mit dem Drei-Teile-Framework. Subjekt, Stil, Einschränkung. Halten Sie es kurz. Unter 60 Token für Midjourney, unter 80 für DALL-E 3, unter 120 für Flux.
// BEISPIEL: Produktfoto für ein App-Interface-Redesign
// Mit DALL-E 3
Ein modernes Smartphone auf einem weißen Schreibtisch, Bildschirm zeigt ein sauberes Dashboard-Interface mit Datenvisualisierungen, natürliches Licht von einem Fenster links, geringe Schärfentiefe, professionelle Produktfotografie, Apple-Ästhetik, Schatten vermeiden, scharfer Fokus auf den Bildschirm
Schritt 3: Basis generieren (2 Minuten)
Führen Sie die erste Version aus. Noch nicht iterieren. Beobachten Sie, was das Modell priorisiert hat.
Schritt 4: An einer Variable iterieren (3 Minuten pro Iteration)
Schreiben Sie nicht den gesamten Prompt neu. Ändern Sie eine Sache: den Winkel, die Beleuchtung, die Stilreferenz, die Einschränkungen. Das lehrt Sie, wie das Modell reagiert.
// ITERATION 1: Anderen Winkel versuchen
...Smartphone auf einem weißen Schreibtisch, aus 45 Grad von oben aufgenommen, Bildschirm deutlich sichtbar...
// ITERATION 2: Andere Beleuchtung versuchen
...Smartphone auf einem weißen Schreibtisch, aus 45 Grad von oben aufgenommen, von hinten durch Fensterlicht beleuchtet, Bildschirm deutlich sichtbar...
// ITERATION 3: Strengere Einschränkung versuchen
...Smartphone auf einem weißen Schreibtisch, aus 45 Grad von oben aufgenommen, von hinten durch Fensterlicht beleuchtet, Bildschirm deutlich sichtbar, keine Schatten auf dem Bildschirm, keine Blendung, sauberer weißer Hintergrund
Schritt 5: Festlegen und Stapelgenerierung (5 Minuten)
Sobald Sie einen funktionierenden Prompt gefunden haben, führen Sie 4-6 Variationen mit leichter Zufälligkeit aus. Verwenden Sie Änderungen des Seitenverhältnisses, geringfügige Stiländerungen oder den Seed-Parameter von Midjourney, um vielfältige Ausgaben aus einem bewährten Prompt zu erhalten.
Schritt 6: Nachbearbeitung (10–15 Minuten)
Selbst gute Generierungen erfordern normalerweise Nachbesserungen: Zuschnittanpassungen, Farbkorrekturen, Entfernung ablenkender Elemente. Verwenden Sie Photoshop, Figma oder ein Tool wie Runway für leichte Bearbeitungen.
Gesamtzeit pro Produktionsbild: 30–45 Minuten. Mit Flux lokal ausgeführt, näher an 15–20 Minuten.
Vermeidung der Overfitting-Falle
Das ist der Fehler, den ich in Produktionsumgebungen am häufigsten sehe: Teams optimieren Prompts für ein einzelnes Modell, sperren diese Prompts ein und geraten dann in Panik, wenn sie das Modell wechseln möchten oder die Modellversion aktualisiert wird.
Die Veröffentlichung von GPT-4o im Mai 2024 hat viele DALL-E 3-Workflows durcheinandergebracht, die auf ältere Versionen abgestimmt waren. Midjourneys Übergang von v6.0 auf v6.1 im Dezember 2024 änderte die Gewichtung von Stil-Token durch das Modell. Das Aufkommen von Flux überraschte Leute, die ganze Pipelines um Midjourney herum aufgebaut hatten.
Lösung: Schreiben Sie Prompts, die über Modelle hinweg robust sind. Verlassen Sie sich nicht auf modellspezifische Eigenheiten.
// FRAGIL (spezifisch für Midjourney v6.0)
Eine Frau, aufgenommen mit Hasselblad, volumetrische Götterstrahlen, Farbkorrektur von Roger Deakins, 8K, filmisch
// ROBUST
Eine Frau in dramatischer Beleuchtung, Fotoqualität, professionelle Farbkorrektur, klare Fokussierung
Die robuste Version funktioniert über Midjourney, DALL-E 3 und Flux. Sie ist stilistisch weniger spezifisch, aber portabel. Für die Produktion ist Portabilität wichtig.
Was Sie heute tun können
Wählen Sie ein Bild aus, das Sie generieren müssen. Schreiben Sie einen Prompt mit dem Drei-Teile-Framework: Subjekt/Aktion (konkret, spezifisch), Stil (Fotograf, Filmstock oder Kamera referenzieren), Einschränkung (sagen, was vermieden werden soll). Halten Sie ihn unter 60 Token. Generieren Sie ihn in Ihrem bevorzugten Modell. Generieren Sie dann denselben Prompt in einem anderen Modell. Beachten Sie die Unterschiede. Das lehrt Sie, wie jedes Modell Sprache unterschiedlich interpretiert – und das ist die Einsicht, die Sie mit diesen Werkzeugen gefährlich macht.