AI basierte visuelle Suche: Bilder mit natürlicher Sprache finden
By teamnext Editorial Team
Im Bereich künstlicher Intelligenz sorgen neue Sprachmodelle wie GPT oder Gemini derzeit für deutliche Veränderungen. Auch in der professionellen Medienverwaltung, also im DAM-Bereich, entstehen Möglichkeiten, die zuvor kaum praktikabel waren. Eine davon ist die visuelle Suche mit natürlicher Sprache. Bilder und Videos lassen sich damit nach ihren sichtbaren Inhalten durchsuchen, auch wenn keine Metadaten vorhanden sind.
In diesem Beitrag stehen die technischen Grundlagen und die praktischen Vorteile der AI basierten visuellen Suche im Mittelpunkt. Im Deutschen gibt es dafür noch keine einheitliche Bezeichnung. Im Englischen wird häufig von AI visual search gesprochen. Der Kürze halber wird im Folgenden von visueller Suche gesprochen. Der übergeordnete Fachbegriff lautet jedoch neuronale Suche, weil die Technologie auf trainierten künstlichen neuronalen Netzen basiert. Zunächst ist zu klären, was mit natürlicher Sprache gemeint ist.
Was ist natürliche Sprache
Natürliche Sprache ist menschliche Sprache, in gesprochener und schriftlicher Form. Voll entwickelte Gebärdensprachen zählen ebenfalls dazu. In diesem Kontext ist die Schriftform relevant. Gesprochene Sprache oder Gebärden können zwar erfasst werden, müssen für die maschinelle Verarbeitung aber in kodierte Zeichen überführt werden.
In der Praxis können bei der visuellen Suche Wörter, Wortkombinationen, ganze Sätze oder Satzteile eingegeben werden, um Bilder zu finden. Es gelten keine speziellen Regeln über den normalen Sprachgebrauch hinaus. Suchanfragen können sehr präzise formuliert werden, zum Beispiel:
-
Foto von einem älteren Mann mit Sonnenhut, der in einem Ruderboot sitzt und angelt
Wenn keine Treffer erscheinen, sollten weniger wichtige Kriterien schrittweise entfernt werden, zum Beispiel:
-
Ein älterer Mann sitzt in einem Boot und angelt
Regeln zur Groß und Kleinschreibung sind dabei nicht relevant. Auch die Satzstellung ist meist austauschbar, solange die Bedeutung erhalten bleibt. Die Sätze Ein Mann angelt am See und Am See angelt ein Mann sollten daher zu vergleichbaren Ergebnissen führen.
Visuelle Suche funktioniert auch in weniger verbreiteten Sprachen, allerdings nicht immer mit gleicher Präzision. Technisch sind Implementierungen für über hundert Sprachen möglich, von Afrikaans bis Zulu.
Was sind die technischen Grundlagen der visuellen Suche
Visuelle Suche nutzt große Sprachmodelle, im Englischen large language models oder LLMs, um Bilder neuartig zu analysieren. Das schließt Einzelbilder aus Videos ein. Für das Training der zugrunde liegenden künstlichen neuronalen Netze werden in der Regel sehr große Mengen an Bild Text Paaren benötigt, häufig im Bereich von hunderten Millionen.
Ziel ist es, semantische Beziehungen zwischen Bildinhalten und Texten wie Bildbeschreibungen oder Schlagwörtern zu erfassen und in vektorisierter Form abzulegen. Dafür werden Bild und Text jedes Datenpaares in einem gemeinsamen Vektorraum repräsentiert. Anschließend wird die semantische Nähe zwischen passenden Bild und Text Kombinationen verstärkt. Das Ergebnis ist ein Modell, das zu neuen Bildern passende Beschreibungen erzeugen kann, auch wenn bestimmte Objekte nicht explizit im Training vorkamen.
Eine so aufgebaute visuelle Suche erkennt viele alltägliche Dinge, einschließlich bekannter Produkte und Marken, mit hoher Zuverlässigkeit. Text in Bildern, Videos oder Dokumenten wird ebenfalls erfasst. Manuell gelabelte Trainingsdatensätze sind vor allem dann nötig, wenn sehr spezifische Objekte erkannt werden sollen.
Fazit dieses Abschnitts: Bildinhalte lassen sich mit Texteingaben in natürlicher Sprache zuverlässig finden, ohne dass Metadaten zwingend vorhanden sein müssen oder zusätzliches Training erforderlich ist. Die Bewertung als Game Changer ist in dieser Form jedoch zu werblich und sollte in einem redaktionellen Text neutraler formuliert werden.
Drei Vorteile der visuellen Suche im DAM Bereich
Für Digital Asset Management ergeben sich insbesondere drei Vorteile:
-
Effizienzsteigerung
Wenn Inhalte über visuelle Suche gefunden werden können, sinkt der Aufwand für manuelle Verschlagwortung und Kategorisierung. Arbeitsprozesse werden durch automatische Analyse und Klassifikation beschleunigt. -
Verbesserte Auffindbarkeit
Bilder und Videos bleiben auch dann auffindbar, wenn keine oder nur wenige Metadaten vorliegen. Suchanfragen können sehr spezifisch formuliert werden, ohne auf manuell gepflegte Felder angewiesen zu sein. -
Zugänglichkeit
Die Nutzung ist auch für Personen ohne technisches Spezialwissen möglich, weil Suchanfragen in Alltagssprache formuliert werden können. Das senkt Einstiegshürden und erweitert den Nutzerkreis.
Zusätzlich kann visuelle Suche die Zusammenarbeit verbessern, weil benötigte Medien schneller bereitgestellt werden können.
Kombination mit klassischer Metadaten Suche
Visuelle Suche wird metadatenbasierte Suche nicht in allen Fällen ersetzen. In bestimmten Branchen bleiben Metadaten relevant, etwa durch rechtliche Anforderungen oder Branchenstandards. In historischen Archiven, Forschungseinrichtungen, Museen oder spezialisierten Bildagenturen werden geprüfte Metadaten voraussichtlich dauerhaft notwendig bleiben. Manche Inhalte lassen sich nur mit Fachwissen korrekt beschreiben und klassifizieren.
Für Inhalte, deren Beschreibung kein tiefes Domänenwissen erfordert, kann AI gestützte Erschließung jedoch einen großen Teil der Arbeit übernehmen. In der Praxis können hierarchisch organisierte Metadaten und AI generierte Vektordaten ohne Hierarchie parallel durchsucht werden. Das erhöht Flexibilität und verbessert die Auffindbarkeit.
Lösungen, die klassische Metadatenstrukturen und AI basierte Suchfunktionen kombinieren, setzen sich daher im DAM Markt zunehmend durch.
Anwendungsbeispiele
Visuelle Suche kann in unterschiedlichen Branchen Prozesse vereinfachen. Beispiele:
-
Profisport
Spielszenen oder emotionale Momente lassen sich nach einem Event über Suchsätze finden. Beispiel:-
Fußballspieler in roten Trikots jubeln nach einem geschossenen Tor
-
-
Marketing und Werbung
Kampagnenmotive können schneller gefunden werden, wenn Emotionen und Szenarien direkt als Text formuliert werden. Beispiel:-
Eine junge Frau liegt auf einer grünen Wiese und schaut leicht lächelnd in den Himmel
-
-
E-Commerce
Kunden könnten nach visuellen Merkmalen suchen, zum Beispiel im Modebereich. Beispiel:-
Lederstiefel für Damen, in Grün und mit Reißverschluss
-
Schlussbetrachtung
AI basierte visuelle Suche verändert den DAM Markt spürbar. Die automatische Erschließung kann den Aufwand für manuelle Verschlagwortung in vielen Organisationen deutlich reduzieren. In Bereichen, die auf geprüfte Metadaten angewiesen sind, werden kombinierte Ansätze trotzdem relevant bleiben und ebenfalls Zeit sparen.
Gleichzeitig wird die Nutzung von DAM Systemen einfacher, weil Inhalte über natürliche Sprache gefunden werden können. Davon profitieren auch Nutzergruppen ohne tiefes technisches Know how.