Symbolbild Bilderkennung: Gesichtserkennung und Identifikation

Die Macht der Bilderkennung – die 10 wichtigsten Anwendungsbeispiele in 2024

Lesedauer: 13 Minuten

Inhaltsverzeichnis

Bilderkennung ist eine Fähigkeit, die dank künstlicher Intelligenz (KI) zunehmend von Computern beherrscht wird. Seien es Gesichter, Objekte oder Symbole – fast überall, wo optische Informationen erfasst werden müssen, kommt heute maschinelle Bilderkennung zum Einsatz. Auch für Endanwender ist es empfehlenswert, sich mit der Technologie auseinanderzusetzen, schließlich kann sie in so vielen Bereichen nützlich sein. Denken Sie z.B. an die Google-Bildersuche, an das Entsperren ihres Smartphones per Face ID, an die Verwaltung von Fotos auf dem PC, an Apps zur Bestimmung von Pflanzenfotos oder an zukünftiges autonomes Fahren. Wie Sie sehen, betrifft computergestützte Bilderkennung schon jetzt unterschiedlichste Lebensbereiche. Doch bevor wir den Status quo dieser vielseitigen Technologie in den Blick nehmen, lohnt sich ein kurzer Ausflug in die Vergangenheit. Es bedurfte nämlich vieler Vordenker, um die Leistungsfähigkeit von heute zu erreichen.

Wie alles begann – die Pioniere der Bilderkennung

Den großen Nutzen maschineller Zeichen- und Mustererkennung erkannte man schon vor über hundert Jahren. Bereits in den 1910er Jahren wurden zwei entsprechende Maschinen erdacht: Das Optophone, das gedruckte Buchstaben in Töne wandeln konnte, und der „Controller“ von Hyman Eli Goldberg, der ebenfalls Drucktext las und diesen in Fernschreibcode übersetzte.

Mary Jameson (von Geburt an blind) benutzt ein Optophone, Foto von 1918

1931 stellte Emanuel Goldberg in Dresden eine Maschine vor, die mit Hilfe von Lichtmessung und Mustererkennung nach Metadaten auf Mikrofilmrollen suchen konnte. 1949 gab es erste Experimente rund um die Barcode-Technologie (Bernard Silver zusammen mit Norman Joseph Woodland) – und in den 70er Jahren wurde die optische Zeichenerkennung (optical character recognition, OCR) auf ein neues Level gehoben (hauptsächlich durch Ray Kurzweil). Buchstaben und Ziffern konnten nun auch bei wechselnden Schriftarten verlässlich erkannt werden.

Musterabgleich als Grundprinzip

Damals ging es natürlich „nur“ um das Erkennen von Zeichen und einfachen Mustern. Von Bilderkennung kann auch bei OCR-Software noch nicht die Rede sein. Aber das Grundprinzip ist ähnlich: Scans gedruckter Texte werden segmentiert (ein Segment pro Zeichen), die Pixelmuster innerhalb der Segmente werden mit bekannten Mustern in einer Datenbank abgeglichen und wenn es aufgrund von großer Ähnlichkeit ein Match gibt, wird ein Wert gesetzt, der einem bestimmten Buchstaben oder Satzzeichen entspricht.

Ein digitales Foto ist technisch gesehen auch nur eine Pixelmenge, aber die Aufgabe des Musterabgleichens ist natürlich ungleich komplexer. Was sind schon 26 Buchstaben im Vergleich zur Vielfalt einer ganzen Welt? Trotzdem ist die Technologie heute schon so weit entwickelt, dass sie in nahezu alle Bereiche hineinwirkt, in denen die Verarbeitung optischer Information eine Rolle spielt.

Wichtige Beispiele im Bereich Gesichtserkennung

Der bekannteste Anwendungsbereich ist vermutlich die Gesichtserkennung (engl. facial recognition). Hier ist es nicht nur so, dass ein Algorithmus erkennt, wo auf Bildern menschliche Gesichter zu sehen sind. Das allein wäre noch vergleichsweise trivial. Bei den meisten Anwendungsfällen werden auch die individuellen biometrischen Merkmale vorgefundener Gesichter erfasst. Gibt es hohe Übereinstimmungen, handelt es sich wahrscheinlich um Abbildungen derselben Person. Abgleiche mit Biometriedatenbanken ermöglichen zudem die genaue Identifikation abgebildeter Personen.

1. Gesichtserkennung zur Authentifizierung

Menschliche Gesichter haben einzigartige Merkmale. Es ist also naheliegend, dass Gesichtserkennungstechnologie zum Einsatz kommt, wenn es darum geht, sich auszuweisen. Z.B. beim:

    • Entsperren von Computern oder Smartphones durch einen Blick in die Kamera, siehe Face ID (Apple) oder Windows Hello (Microsoft)
    • Zugang zu Gebäuden (Hotels, Büros etc.)
    • Passieren von Kontrollstellen am Flughafen (z.B. am Boarding Gate)
    • Bezahlen im Internet (siehe z.B. Smile to Pay von Alipay)
    • Bezahlen im stationären Handel, im Nahverkehr etc. (Mastercard in Zusammenarbeit mit diversen Technologiepartnern, Stand 2022 noch nicht global ausgerollt)
    • sowie als Bestandteil einer 2-Faktor-Authentifizierung, um zusätzliche Sicherheit zu gewährleisten

Bei Gesichtern eineiiger Zwillinge kommt die Technologie zwar weiterhin an ihre Grenzen, aber da dies nur etwa 0,3 Prozent der Weltbevölkerung betrifft, wird dieser Sachverhalt bei den meisten Anwendungen vernachlässigt.

2. Gesichtserkennung in der professionellen Bildverwaltung

2008 führte Google eine Gesichtserkennungsroutine als neues Feature von Picasa ein. Viele werden Picasa noch kennen. Picasa war eine kostenlose Bildverwaltungssoftware und der Vorgänger von Google Photos. Den Autor dieses Textes beeindruckten die neuen Möglichkeiten damals nachhaltig. Bis ein Bildbestand von mehreren tausend Fotos verarbeitet war, dauerte es zwar eine Weile, aber danach konnte man zuverlässig nach Bildern bestimmter Personen suchen und in Windeseile entsprechende Alben, Collagen oder Videos erstellen.

Heute ist Gesichtserkennung aus der Bildverwaltung kaum noch wegzudenken. Insbesondere bei professionellen Lösungen im Bereich Digital Asset Management* wird schon länger auf solche Funktionen gesetzt, schließlich erleichtern sie das Auffinden abgebildeter Personen enorm und sorgen für eine erhebliche Beschleunigung der Workflows.

* Digital Asset Management (DAM) ist die engl. Fachbezeichnung für das professionelle Verwalten von Bildern und anderen Mediendateien.

3. Gesichtserkennung bei der Rückwärtssuche

Eine normale Rückwärtssuche mit einem Bild ist vielen von Google, Bing und Co. vertraut. Man lädt eine Bilddatei hoch oder fügt eine URL ein und schon werden Versionen in anderer Auflösung, ähnliche Bilder und relevante Suchbegriffe angezeigt. Einen Schritt weiter geht die Gesichtssuche: Hier lädt man ein frontales Porträtfoto hoch, um als Suchtreffer andere Fotos der abgebildeten Person angezeigt zu bekommen. Verwendet man z.B. ein Foto von Kurt Cobain, werden tausende Treffer erzielt, da die Fangemeinde groß und das Netz voll von Bildern des Musikers ist. Es funktioniert aber auch bei Nicht-Promis. Sobald sich ein paar Fotos einer Person im Internet verbreitetet haben (z.B. über Unternehmenswebseiten oder Social-Media-Plattformen), werden sie von Diensten wie PimEyes indexiert und für die Gesichtssuche verfügbar gemacht. Für investigative Zwecke sind das natürlich mächtige Tools. Weil sie zu illegitimer Nutzung verleiten (z.B. durch Stalker), sind sie jedoch umstritten.

4. Gesichtserkennung zur Verbrechensbekämpfung

Sicherheitsbehörden haben das Potential dieser Technologie natürlich von Beginn an für sich erkannt. Der amerikanische Inlandsgeheimdienst FBI hält z.B. biometrische Gesichtsdaten von etwa 117 Millionen US-Bürgern bereit. Hierfür wurden alle verfügbaren Führerscheinfotos digitalisiert und mit intelligenten Algorithmen ausgewertet. Viele gesuchte Personen können dadurch schnell und zuverlässig auf Fotos und Videos identifiziert werden. Das hilft sowohl bei der Vermeidung als auch bei der Aufklärung von Verbrechen und macht die Welt insbesondere in Bezug auf die Terrorbekämpfung ein Stück weit sicherer. Natürlich kann die Technologie auch zu illegitimer Überwachung missbraucht werden. Diesem Thema ist der nächste Punkt gewidmet.

5. Gesichtserkennung in den sozialen Medien und im öffentlichen Raum

Bereits 2010 begann Facebook damit, Benutzer der Plattform auf hochgeladenen Fotos automatisch zu markieren; eine Praxis, die von Beginn an kritisch betrachtet wurde. Zudem stellte sich heraus, dass der praktische Mehrwert aus Nutzersicht gering war. 2021 wurde die Funktion weltweit eingestellt, sicherlich auch aufgrund juristischen Drucks.

In der Europäischen Union gibt es Datenschutzgesetze, die den anlasslosen Einsatz von Gesichtserkennungstechnologie im öffentlichen Raum verbieten (z.B. die Auswertung von Live-Bildern öffentlicher Überwachungskameras). Es ist jedoch davon auszugehen, dass sich nicht alle Akteure daran halten. Nachrichtendienste machen bekanntlich das, was technisch möglich ist.
In China ist die Überwachung mit Hilfe von Gesichtserkennungssoftware übrigens schon etwas Alltägliches. Die Menschen dort wissen also, woran sie sind – obgleich das für viele ein schwacher Trost sein dürfte.

Spannende Beispiele im Bereich Objekterkennung

Genau genommen sind Gesichter natürlich auch Objekte – und Gesichtserkennung mithin ein Teilbereich der Objekterkennung. Sie werden uns hoffentlich nachsehen, dass wir diese Aufteilung trotzdem vorgenommen haben.

6. Objekterkennung bei autonomen Fahrsystemen

Für autonomes Fahren ist die Detektion von Objekten natürlich von essenzieller Bedeutung. Das Fahrsystem muss schließlich nicht nur Fahrspuren erkennen, sondern auch Lichtsignale (Ampeln) und Verkehrsschilder interpretieren und zuverlässig erfassen, welche Objekte sich in der Nähe des Fahrzeugs befinden. Fachlich begeben wir uns hier in den Bereich computerbasiertes Sehen (engl. computer vision).

Cockpit eines Tesla Model S P100D

Die Verarbeitung der Daten muss beim autonomen Fahren natürlich im Millisekundenbereich erfolgen, denn schon eine geringe Verzögerung bei der Einleitung von Brems- oder Ausweichmanövern kann fatale Folgen haben. Ein besonders wichtiger Bereich der Bilderkennung ist bei solchen Fahrsystemen aus naheliegenden Gründen die Fußgängererkennung. Objekte müssen aber nicht nur richtig klassifiziert werden; es geht auch darum, räumliche Positionen schnell und exakt zu ermitteln (hierbei helfen neben Kameras auch Ultraschall-, Radar- und Lidar-Sensoren). Außerdem muss das System gut abschätzen können, in welche Richtung sich andere Verkehrsteilnehmer bewegen werden. Die hochkomplexen Fähigkeiten, die hier insgesamt abverlangt werden, fallen größtenteils in den Bereich künstliche Intelligenz (KI). Mit klassischer Programmierung kommt man da natürlich nicht aus. Heute wird bei computergestützter Bilderkennung weitestgehend auf maschinelles Lernen mit Hilfe künstlicher neuronaler Netze gesetzt. Eine dabei häufig zur Anwendung kommende Methode nennt sich Deep Learning.

Das Beispiel Waymo One

In Phoenix, Arizona, ist mit Waymo One bereits ein vollautonomer Taxidienst zugelassen und im täglichen Einsatz. Hinter Waymo steht der Google-Konzern Alphabet. Im nächsten Schritt ist die Einführung des Dienstes in San Francisco geplant. Hat sich die Technologie dort erst einmal bewährt, wird sie schon in den nächsten Jahren weitere Großstädte erobern, so viel ist sicher.

7. Objekterkennung bei der Rückwärtssuche

Während vollautonomes Fahren in Deutschland noch Zukunftsmusik ist, werden den nächsten Anwendungstyp bereits viele aus dem Alltag kennen (insbesondere Android-Nutzer). Die Rede ist von der Suche per Foto, um zu erfahren, was das Foto zeigt. Die bekannteste Allround-Lösung kommt wie angedeutet vom Alphabet-Konzern und heißt Google Lens. Die Zuverlässigkeit wird auch hier durch maschinelles Lernen nach und nach verbessert. Bei Spezialthemen sollte man aber eher auf eine App zurückgreifen, die genau für den gewünschten Themenbereich entwickelt und trainiert wurde. Wenn es z.B. darum geht, Pflanzenfotos zu bestimmen, bieten sich Apps wie Flora Incognita, PlantNet oder PictureThis an. Auch bei der Artikel- und Produktsuche per Foto kommt die Technologie nach entsprechendem Training zum Einsatz.

8. Objekterkennung bei der Bildverwaltung und in der Stockfotobranche

Bei der Verschlagwortung von Bildern und anderen Medien geht es hauptsächlich darum, welche Objekte auf diesen zu sehen sind. Bis vor ein paar Jahren bedeutete das mühsames Eintippen und monotones Arbeiten. Zum Glück sind diese Zeiten vorbei. Wenn es sich nicht gerade um Bildmaterial mit Spezialthemen handelt, werden abgebildete Objekte mit hoher Zuverlässigkeit erkannt. Das sind z.B. alltägliche Gegenstände wie ein Stuhl, eine Bohrmaschine oder ein Fahrrad. Die Erzeugung automatischer Schlagwörter funktioniert in der Praxis also schon sehr gut. Insbesondere in der Stockfotobranche hat sich die Technologie schon mehrere Jahre bewährt.

Technische Hürden
Wenn man eine exakte Bestimmung von Fabrikat, Marke oder Typ benötigt, werden natürlich auch hier individuelle Trainingsvorgänge notwendig.

Beim Erkennen biologischer Arten (z.B. von Insektenarten) kommt maschinelles Sehen häufig an seine Grenzen, da die Unterscheidungsmerkmale sehr nuanciert und subtil sein können.

Erwähnenswert ist auch das Phänomen, dass völlig verschiedene Gegenstände starke optische Ähnlichkeiten aufweisen können. So bekannt, dass man von einem Meme sprechen kann, wurde in diesem Zusammenhang die Collage chihuahua or muffin (von Karen Zack), zu finden hier: karenzack.com/work/recognition-series.

Ähnlichkeiten dieser Art stellen für Objekterkennungsroutinen Herausforderungen dar, die durchaus bewältigt werden können. Auch das Erkennen verwendeter Stilmittel ist mit Deep-Learning-Methoden möglich. Fraglich bleibt jedoch, inwiefern Bildkonzepte und andere Bedeutungsebenen maschinell erfasst werden können. Bis Computer mit hoher Verlässlichkeit Bildaussagen erkennen und ausgeben können, werden also vermutlich noch ein paar Jahre vergehen müssen.

9. Objekterkennung in der Medizin

Im medizinischen Bereich lassen sich Objekterkennungsverfahren für eine verbesserte Erhebung von Diagnosedaten nutzen. Dazu werden z.B. Röntgenbilder und CT-Aufnahmen automatisch analysiert. Dabei wird sichergestellt, dass auch sehr geringe Auffälligkeiten erfasst werden; Details, die dem Blick des Arztes eventuell entgangen wären. Zudem arbeiten solche Systeme mit Millionen von Vergleichsdaten, so dass sie selbst für erfahrene Mediziner ein wichtige diagnostische Ergänzung sein können. Besonders vielversprechend ist KI-basierte Bilderkennung für die Früherkennung verschiedener Krebsarten. Hier gibt es zahlreiche Ansätze, die zurzeit klinisch erprobt werden.

10. Bilderkennung Total: Amazon Go Stores

Besonders fortschrittlich sind die stationären Amazon Go Stores. In den mittlerweile 42 Filialen wurden in puncto Bilderkennung neue Maßstäbe gesetzt. Die Technologie ist dort so weit entwickelt, dass Kunden einkaufen können, ohne dass am Schluss ein sichtbarer Kassiervorgang notwendig wird. Wie im Supermarkt üblich, können Waren mit und ohne Barcode (Frischwaren) beliebig aus den Regalen und Auslagen genommen und in Einkaufskörbe oder -wagen gelegt werden. Anschließend können die Kunden das Geschäft ohne weiteres Zutun verlassen. Realisiert wird dies mit hunderten Kameras und einer Objekt- und Gesichtserkennung, die auf dem neuesten Stand ist. So können alle Produkte der richtigen Person und alle Personen dem entsprechenden Kundenkonto zugeordnet werden. Willkommen in der schönen neuen Welt.

Check-in per Smartphone vor Betreten des Amazon Go Stores.

Weitere Anwendungsbereiche

Es gibt mittlerweile so viele Bereiche, in denen Objekterkennung erfolgreich zur Anwendung kommt, dass hier nur eine kleine Auswahl wiedergegeben werden konnte. Vielleicht sollte man zumindest erwähnen, dass die Waffenindustrie neue Technologien häufig als Erstes nutzt. Das gilt auch hier. Man denke z.B. an die Entwicklung autonomer Drohnen oder Roboter, die natürlich auf Bilderkennung angewiesen sind. Auch die Qualitätskontrolle im produzierenden Gewerbe wäre ein Bereich, in dem Objekterkennung schon seit vielen Jahren zum Einsatz kommt, z.B. bei der automatischen Kontrolle von Bauteilen oder empfindlichen Lebensmitteln wie Eiern.
Ein ganz neuer Anwendungsbereich hat sich in der Versicherungsbranche ergeben. Hier werden intelligente Objekterkennungsroutinen für die automatische Bewertung von Schadensbildern genutzt. Dadurch können Schadensfälle schneller abgewickelt und Reparaturkosten besser prognostiziert werden.
Und zu guter Letzt wird bei KI-Bildgeneratoren wie DALL-E ebenfalls Technologie eingesetzt, die dem Bereich maschinelles Sehen entstammt.

Bilderkennung mit der Bildverwaltungssoftware von teamnext

Falls Sie größere Bildmengen verwalten und Bilderkennung auf eigene Fotobestände anwenden möchten, dann benötigen Sie eine professionelle Lösung, die technisch auf dem neuesten Stand ist und gleichzeitig den hiesigen Datenschutzbestimmungen gerecht wird. Denken Sie an Dienste wie die automatische Gesichtserkennung. Hier geht es um sensible Daten, die nicht in falsche Hände geraten sollten. Bei unserer Lösung, dem teamnext | Media Hub, wurden alle Software-Module inhouse in Deutschland entwickelt. Biometrische Ähnlichkeitsvektoren verlassen bei uns niemals ihren Wirkungskreis und werden ausschließlich auf Servern innerhalb der Europäischen Union gehostet.

Außerdem ist unsere Lösung flexibel trainierbar; sowohl im Bereich Gesichtserkennung als auch im Bereich Objekterkennung. Für die Erkennung bestimmter Personen reichen schon zwei Bilder als Trainingsmaterial aus. Um spezielle Produkte oder individuelle Logos erfassen zu können, wird etwas mehr Material benötigt, aber nach Abschluss des Trainingsvorgangs werden die entsprechenden Objekt mit sehr hoher Zuverlässigkeit erkannt.

Falls Sie unsere Lösung kennenlernen möchten, dann können Sie hier eine kostenlose 14-tägige Testphase starten. Zusätzlich können Sie jederzeit einen Termin für eine Online-Produktdemo mit einem unserer Experten buchen. Hierfür bitte einfach unser Kontaktformular benutzen.

Das könnte Sie auch interessieren

Beitragsbild: DALL-E und andere KI-Bildgeneratoren
Junge Frau am Videoschnittplatz - Symbolbild digitale MedieniStock 846843010
Display von Profikamera bei Food-Aufnahme - Symbolbild RAW-FormatiStock 933844508