Header-Grafik - Foto einer Büroklammer in Holzrahmen mit Bildbeschreibung - Symbolbild KI-basierte visuelle SucheCanva / Unsplash (Mockup)

Die KI-basierte visuelle Suche: Bilder suchen mit natürlicher Sprache

Lesedauer: 8 Minuten

Inhaltsverzeichnis

Im Bereich künstlicher Intelligenz (KI) sorgen neuartige Sprachmodelle wie GPT oder Gemini zurzeit für bahnbrechende Veränderungen. Auch in der professionellen Medienverwaltung / DAM-Branche ergeben sich Möglichkeiten, die zuvor undenkbar erschienen. Eine davon ist die visuelle Suche anhand natürlicher Sprache. Sowohl Bilder als auch Videos können mit dieser Technologie nach abgebildeten Inhalten durchsucht werden – und zwar ohne dass dafür Metadaten vorliegen müssten.

In diesem Beitrag erkunden wir die technischen Grundlagen und die praktischen Vorteile der KI-basierten visuellen Suche. Da es sich um ein völlig neues Bündel an Funktionen handelt, hat sich im Deutschen noch keine einheitliche Bezeichnung durchgesetzt. Im Englischen ist meist von AI visual search die Rede. Der Kürze halber werden wir im Folgenden bloß von visueller Suche sprechen. Es sei aber erwähnt, dass der korrekte Oberbegriff neuronale Suche (neural search) lautet; denn die Technologie basiert, wie die anderer KI-Suchen auch, auf speziell trainierten künstlichen neuronalen Netzen. Mehr dazu im übernächsten Abschnitt. Zunächst sollte aber noch geklärt werden, was mit dem zweiten wichtigen Terminus – natürliche Sprache –  genau gemeint ist.

Was ist natürliche Sprache?

Natürliche Sprache ist nichts anderes als menschliche Sprache, sowohl in gesprochener als auch in schriftlicher Form. Voll ausgebildete Gebärdensprachen zählen ebenfalls dazu. Für uns ist aber nur die Schriftform relevant. Natürlich lassen sich Worte auch einsprechen und Gebärden aufzeichnen, aber es liefe auf das Gleiche hinaus, denn für die maschinelle Sprachverarbeitung müssen die Informationen stets in binär kodierte Schriftzeichen übersetzt werden.

In der Praxis können bei der visuellen Suche einfach Worte, Wortkombinationen, Sätze oder Halbsätze zum Finden von Bildern verwendet werden. Dabei sind über den alltäglichen Sprachgebrauch hinaus keine besonderen Regeln zu beachten. Man ist folglich äußerst flexibel beim Formulieren einer Suchanfrage. Diese darf auch sehr spezifisch sein und könnte z.B. so aussehen:

Foto von einem älteren Mann mit Sonnenhut, der in einem Ruderboot sitzt und angelt

Werden damit keine Treffer erzielt, sollten weniger wichtige Suchkriterien schrittweise entfernt werden. Beispiel:

Ein älterer Mann sitzt in einem Boot und angelt

Usw., wobei die Regeln für Groß- und Kleinschreibung nicht relevant sind. Gleiches gilt für die Stellung von Satzgliedern (solange die Bedeutung des Satzes erhalten bleibt). Die Sätze Ein Mann angelt am See und Am See angelt ein Mann sollten daher zum selben Suchergebnis führen.

Die visuelle Suche funktioniert übrigens auch mit weniger verbreiteten Sprachen (jedoch nicht immer mit gleicher Präzision). Eine Implementierung ist bereits für über hundert Sprachen möglich – von Afrikaans bis Zulu.

Was sind die technischen Grundlagen der visuellen Suche?

Die visuelle Suche nutzt große Sprachmodelle (engl. large language models, kurz LLMs), um Bilder auf eine neuartige Weise zu analysieren (Video-Einzelbilder eingeschlossen). Für das Training der zugrundeliegenden künstlichen neuronalen Netze (KNN) werden üblicherweise hunderte Millionen Bild-Text-Paare benötigt.

Die Zielsetzung besteht darin, die semantischen Beziehungen zwischen abgebildeten Objekten und dazugehörigen Texten wie Bildbeschreibungen oder Schlagwörtern mit Deep-Learning-Methoden zu erfassen und in vektorisierter Form zu speichern. Dafür werden die Bild- und Textinformationen jedes Datenpaares in einem gemeinsamen Vektorraum abgebildet. Abschließend gilt es, die semantische Nähe (oder Distanz) zwischen bestimmten Bildern und Texten zu erkennen und zu verstärken. Im Ergebnis soll ein solches Modell passende Beschreibungen zu neu vorgelegten Bildern erzeugen, auch wenn abgebildetete Objekte nicht explizit als Trainingsbeispiel vorkamen.

Tatsächlich erkennt eine derartig entwickelte visuelle Suche sämtliche alltäglichen Dinge (einschließlich bekannter Produkte und Marken) mit hoher Verlässlichkeit. Texte innerhalb von Bildern, Videos oder Dokumenten werden ebenfalls zuverlässig erfasst. Manuell gelabelte Trainingsdatensätze müssen daher nur noch dann erstellt werden, wenn besonders spezifische Objekte erkannt werden sollen.

Fazit: Mit der visuellen Suche können Bildinhalte anhand von Texteingaben in natürlicher Sprache zuverlässig gefunden werden – ohne Metadaten oder zusätzliches Training. Die Technologie erweist sich im Bereich KI-basierter Bilderkennung mithin als absoluter Game-Changer.

3 Vorteile der visuellen Suche im DAM-Bereich

Für die professionelle Medienverwaltung (fachsprachlich Digital Asset Management, kurz DAM) wurden schon einige Vorteile der visuellen KI-Suche benannt. Hier führen wir die drei wichtigsten noch einmal auf:

  1. Effizienzsteigerung: Da es mit dem Vorhandensein der visuellen Suche nicht mehr nötig ist, jedes Bild manuell zu verschlagworten und zu kategorisieren, werden viel Zeit und Ressourcen gespart. Insgesamt werden die Arbeitsprozesse durch KI-getriebene Analysen und Klassifikationen von Bildinhalten enorm beschleunigt.
  2. Verbesserte Auffindbarkeit: Die visuelle Suche maximiert die Auffindbarkeit von Bild- und Videodateien, selbst wenn sehr spezifische oder seltene Inhalte gesucht werden. Nutzer können präzise Suchanfragen in natürlicher Sprache eingeben und erhalten relevante Ergebnisse, ohne auf manuell hinzugefügte Metadaten angewiesen zu sein.
  3. Zugänglichkeit: Benutzer mit unterschiedlichem technischen Verständnis können die visuelle Suche nutzen, da die Suchanfragen in einfacher Alltagssprache erfolgen können. Dies senkt die Einstiegshürden und ermöglicht es einem breiteren Publikum, DAM-Systeme effektiv zu nutzen.

Zusätzlich zu diesen drei Hauptvorteilen trägt die visuelle Suche auch zur Verbesserung der Zusammenarbeit innerhalb von Teams bei, indem sie eine schnellere und präzisere Bereitstellung von benötigten Medieninhalten ermöglicht.

In Kombination am besten

Die KI-basierte visuelle Suche wird die metadatenbasierte Suche nicht in allen Anwendungsbereichen ersetzen. In bestimmten Branchen ist es sinnvoll, die verschiedenen Technologien miteinander zu kombinieren. Metadaten werden bei rechtlichen Anforderungen oder spezifischen Branchenstandards auch weiterhin eine wichtige Rolle spielen. In historischen Archiven, wissenschaftlichen Forschungseinrichtungen, Museen oder Spezialbildagenturen wird man vermutlich nie ganz auf menschlich geprüfte Metadaten verzichten können. Manche Inhalte lassen sich (bislang) eben nur mit besonderen Fachkenntnissen korrekt beschreiben, bewerten und klassifizieren.

Allerdings können Inhalte, für deren Verschlagwortung kein akademisches Fachwissen nötig ist, nun durch KI-getriebene Technologien quasi nebenher erschlossen werden. Nutzer können dadurch hierarchisch organisierte Metadaten und KI-generierte Vektordaten (ohne Hierarchie) parallel durchsuchen. Auch das erhöht die Auffindbarkeit und sorgt insgesamt für mehr Flexibilität.

Lösungen, in denen klassische Metadatenstrukturen und KI-basierte Suchfunktionen kombiniert werden, sind daher der neue Goldstandard im DAM-Sektor.

Anwendungsbeispiele

In der Praxis kann die visuelle Suche (eingebettet in ein DAM-System) in ganz verschiedenen Branchen für mehr Komfort und Effizienz sorgen. Einige Beispiele:

  • Profisportbranche: Bilder von bestimmten Spielszenen oder emotionalen Momenten können nach einem Wettbewerbstag schnell und einfach gefunden werden, indem Aktionsbeschreibungen in natürlicher Sprache eingegeben werden. Zeitaufwendiges Sichten von neuem Foto- und Filmmaterial ist nicht länger nötig. Eine sinnvolle Suchanfrage könnte z.B. lauten: Fußballspieler in roten Trikots jubeln nach einem geschossenen Tor
  • Marketing- und Werbebranche: Passende Kampagnenmotive können durch die visuelle Suche schneller gefunden werden, weil spezifische Emotionen oder Szenarien direkt in der Suchanfrage formuliert werden können. Die ganze Flexibilität natürlicher Sprache steht einem zur Verfügung: Eine junge Frau liegt auf einer grünen Wiese und schaut leicht lächelnd in den Himmel. Jetzt muss ein solches Motiv nur noch vorhanden sein :)
  • E-Commerce: Im Modebereich könnten Kunden z.B. gezielter nach visuellen Produktmerkmalen suchen, um zu sehen, welches der angebotenen Produkte den persönlichen Vorgaben und Stilvorstellungen entspricht. Dies verbessert die Produktpräsentation und das Einkaufserlebnis für Kunden. Beispiel: Lederstiefel für Damen, in Grün und mit Reißverschluss. Die sollten doch zu haben sein!

Schlussbetrachtung

Die KI-basierte visuelle Suche revolutioniert zurzeit die gesamte DAM-Branche. Anbieter professioneller Medienverwaltungssoftware werden ohne den Einsatz diese Technologie schon bald nicht mehr konkurrenzfähig sein. Die Effizienzsteigerung, die sich durch automatisches Erschließen ergibt, ist so enorm, dass niemand daran vorbei kommen wird. Manuelles Verschlagworten wird in vielen Unternehmen gar nicht mehr nötig sein. Zwar wird es weiterhin Branchen geben, die auf menschlich geprüfte Metadaten angewiesen sind, aber auch dort werden kombinierte Methoden viel Zeit und Ressourcen einsparen.

Außerdem wird die Verwaltung von digitalen Assets einfacher. Durch die Verwendung natürlicher Sprache zur Identifikation von Bild- und Videoinhalten profitieren auch weniger technisch versierte Nutzer in hohem Maße von der Technologie.

Testen Sie die Visual Search von teamnext

Bislang gibt es in der DACH-Region erst zwei Anbieter, die diese neue Technologie in eine DAM-Lösung integriert haben. Einer dieser Vorreiter ist teamnext aus Kassel. Wir sind mit unseren KI-Ingenieuren stets am Puls der Zeit und können Ihnen mit unserer Visual Search schon heute all die Funktionen bieten, die in diesem Artikel beschrieben wurden.

Haben wir Sie neugierig gemacht? Gerne können Sie unsere KI-basierte Suche im Praxistest erleben. Mit einer kostenlosen 14-tägigen Testphase für den teamnext | Media Hub besteht die Möglichkeit, die Visual Search umfassend auszuprobieren. Alternativ lässt sich auch ein Termin für eine persönliche Online-Demo mit einem Experten vereinbaren.

Bei weiteren Fragen steht unser Support-Team jederzeit zur Verfügung. Weitere Informationen sind unter teamnext.de/kontakt zu finden.

Das könnte Sie auch interessieren

Media Hub: Gridansicht auf Mac (Mockup) - Headerbild Fotos und Videos schnell und sicher verteilenCanva / Studio Blafield / teamnext (Mockup)
Headerbild: Microsoft Sharepoint im Vergleich mit DAM-Systemenunsplash (Hintergrund)