DALL-E: Was sind AI-Bildgeneratoren und wie lassen sie sich nutzen?

By teamnext Editorial Team

DALL-E ist ein auf künstlicher Intelligenz basierendes Computerprogramm zur Erzeugung digitaler Bilder auf Grundlage von Texteingaben. Solche Systeme werden als KI-Bildgeneratoren bezeichnet, im Englischen AI image generators.

Dieser Artikel erklärt, wie DALL-E funktioniert, wie KI-Bildgeneratoren eingesetzt werden können, welche Alternativen es gibt und welche urheberrechtlichen Fragen bei KI-generierten Bildern relevant sind.

Was ist DALL-E?

Der Name DALL-E, stilisiert als DALL·E, ist eine Anspielung auf die Disney-Figur WALL-E und den spanischen Künstler Salvador Dalí. Steht eine 2 hinter dem Namen, ist die zweite Version gemeint. In diesem Artikel wird ausschließlich DALL-E 2 betrachtet.

DALL-E basiert auf künstlicher Intelligenz. Für ein genaueres Verständnis ist eine Differenzierung notwendig.

Die zugrunde liegende Technologie ist maschinelles Lernen. Dabei kommen heute überwiegend künstliche neuronale Netze zum Einsatz. DALL-E nutzt Deep Learning. Zwischen Eingabe und Ausgabe liegen zahlreiche Zwischenschichten, sogenannte hidden layers. Der Begriff Deep Learning lässt sich daher als tiefschichtiges Lernen verstehen.

Wer hat DALL-E entwickelt?

DALL-E wurde vom US-Unternehmen OpenAI entwickelt. Zu den bekannten Geldgebern zählen unter anderem Microsoft und Elon Musk. OpenAI ist auch für den Textgenerator ChatGPT verantwortlich.

Beide Systeme basieren auf GPT-3.

Exkurs: Was ist GPT?

GPT steht für Generative Pre-trained Transformer. Die Zahl bezeichnet die jeweilige Version.

Ein Transformer ist im Kontext des maschinellen Lernens ein Verfahren, das eine Abfolge von Zeichen in eine andere Abfolge von Zeichen überführt. Vereinfacht handelt es sich um ein vortrainiertes Sprachmodell.

Das Training erfolgte mit einem sehr großen Textkorpus aus dem Internet. Der verwendete Datenbestand umfasste rund 500 Milliarden Wörter.

Wie funktioniert DALL-E?

DALL-E wandelt Texteingaben mithilfe von Deep Learning in eine Anordnung von Pixeln um. Das Ergebnis ist ein digitales Bild.

Das Modell wurde nicht nur mit Texten, sondern auch mit rund 650 Millionen Text-Bild-Paaren trainiert. Gemeint sind Bilder mit Beschreibungen oder passenden Schlagwörtern.

Die technische Verarbeitung im Detail ist komplex. Entscheidend ist jedoch Folgendes:

• Semantisch präzise Texteingaben führen zu akkuraten Ergebnissen
• Die erzeugten Bilder sind neu und eindeutig
• Unterschiedliche Stilrichtungen sind möglich

Wie lässt sich DALL-E nutzen?

Die Nutzung erfolgt über die Website von OpenAI. Nach der Registrierung steht ein kostenloses Startkontingent von 50 Credits zur Verfügung.

• 1 Credit erzeugt 4 Bilder
• Monatlich werden 15 Credits ergänzt
• Zusätzliche Credits sind kostenpflichtig erhältlich

Erste Schritte mit DALL-E

Ein Beispiel für eine Texteingabe lautet:

„sliced air-dried sausage with bread and butter, photo“

Das Ergebnis ist ein Bild, das wie eine Fotografie einer aufgeschnittenen luftgetrockneten Wurst mit Brot und Butter wirkt.

Englische Eingaben liefern derzeit die zuverlässigsten Ergebnisse. Deutsche Texte werden erkannt, führen aber teilweise zu geringerer Präzision.

DALL-E erzeugt pro Eingabe vier Bildvarianten. Auf Basis eines Ergebnisses können weitere Varianten generiert werden.

Täuschend echt, nur das Messer ist etwas daneben geraten.

Wie die eigentliche Stärke von DALL-E genutzt wird

Die größte Stärke von DALL-E liegt nicht in der Reproduktion bekannter Motive, sondern in der Erzeugung neuer Bildideen.

Dafür sollten drei Punkte beachtet werden:

• präzise Formulierungen ohne Mehrdeutigkeit
• kreative Kombination ungewöhnlicher Elemente
• Angabe des Mediums oder der Technik am Ende der Eingabe

Beispiele für Techniken sind Foto, digitales Gemälde oder 3D-Rendering.

Beispiel 2

Texteingabe:

„copper statue of herkules drinking beer, digital art“

Das Ergebnis zeigt eine stilisierte Kupferstatue von Herkules mit Bier. Die bunten Quadrate im Bild dienen als DALL-E Branding.

Das Bild wirkt konzeptionell, obwohl keine bewusste Idee entwickelt wird. Die Ausgabe basiert ausschließlich auf Berechnungen.

Die bunten Quadrate unten rechts im Bild fungieren als DALL-E-Branding.

Jedes Bild ist ein Unikat

Bei identischer Texteingabe erzeugt DALL-E jedes Mal neue Bilder.

Grund dafür ist ein variabler Startwert, der sogenannte seed key. Dieser bestimmt die Zufallsverteilung innerhalb des Modells.

Identische Bilder wären nur bei gleichem Startwert und unverändertem Modell möglich. Diese Funktion ist derzeit nicht verfügbar.

Die aktuelle Standardauflösung beträgt:

• 1024 x 1024 Pixel
• 1792 x 1024 Pixel
• 1024 x 1792 Pixel

DALL-E und Urheberrecht

DALL-E selbst kann keine Urheberrechte besitzen. Urheberrechte stehen ausschließlich natürlichen Personen zu.

Trotz einzigartiger Bildgenerierung können Rechte Dritter verletzt werden, etwa durch:

• bekannte Marken
• geschützte Figuren
• der Stil lebender Künstler

Das Modell erkennt keine rechtlichen Grenzen. Eine Prüfung der Nutzung ist daher erforderlich.

Trainingsdaten als rechtliche Herausforderung

Ungeklärt ist weiterhin, ob das Training mit urheberrechtlich geschütztem Material zulässig war.

Gerichtsurteile liegen bislang nicht vor. Plattformen wie „Have I Been Trained?“ ermöglichen es, Trainingsdatensätze einzusehen und eigene Werke entfernen zu lassen.

Bislang hat sich nur Stable Diffusion öffentlich zu entsprechenden Maßnahmen verpflichtet.

Alternative KI-Bildgeneratoren

Stable Diffusion

• Open Source
• Entwicklung durch Forschungseinrichtungen und Organisationen
• Transparenter Umgang mit Trainingsdaten

Craiyon

• ehemals DALL-E mini
• basiert auf DALL-E 1
• kostenlose Nutzung stark eingeschränkt
• kostenpflichtig für wasserzeichenfreie Bilder

Midjourney

• kommerzielles Projekt
• Nutzung ausschließlich über Discord
• richtet sich an technisch affine Nutzer

Blick in die Zukunft

KI-Bildgeneratoren verändern die Medienproduktion bereits heute.

Typische Einsatzfelder:

• Blogartikel
• News Portale
• Marketing Content

Vorteil ist die Einsparung von Lizenzkosten bei gleichzeitig individueller Bildgenerierung.

Risiken bestehen insbesondere bei:

• Fake News
• Täuschend echten Bildmanipulationen

Berufsbilder werden sich verändern. Illustratoren könnten verstärkt an der Überarbeitung und Finalisierung von KI Entwürfen arbeiten.

Ein neues Rollenbild entsteht bereits: der sogenannte KI Prompt Spezialist.

Fazit

DALL-E und vergleichbare Systeme stehen noch am Anfang. Ihr Einfluss auf Medien, Marketing und Content-Produktion ist jedoch bereits deutlich sichtbar.

In Zukunft dürfte ein Großteil digitaler Bilder durch KI entstehen. Die Unterscheidung zwischen real und synthetisch wird zunehmend schwieriger.

Ein grundlegendes Verständnis dieser Technologie ist daher unerlässlich.