Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.
Erik Pfannmöller: Hallo und herzlich willkommen zu einem neuen AI Unplugged Podcast von digitalkompakt. Mein Name ist Erik Pfannmöller, Gründer und CEO von SolveMate. SolveMate automatisiert Kundensupport. Auf unserer KI-basierten Plattform bauen sich unsere B2B-Kunden Chatbots, mit denen ihre Endkonsumenten ihre Kundenanfragen in Sekundenschnelle 24 Stunden am Tag selbst lösen können. Wie immer bei AI Unplugged erklären wir Alltagsthemen rund um das Thema KI einfach. und für jedermann verständlich. Heute geht es bei IAMplugged um das Thema Computer Vision, also wie Computer eigentlich Bilder sehen und wie das funktioniert. Dazu habe ich einen ganz spannenden Gast bei mir, Sebastian Gerke. Sebastian ist Computer Vision Experte und seit elf Jahren in dem Feld unterwegs, aktuell bei Revision und vorher CTO bei TerraLoop. Aber bevor ich was über dich sage, Sebastian, stelle ich doch mal lieber selbst vor.
Sebastian Gerke: Erstmal danke, Erik, dass ich hier sein darf. Wie schon gesagt, Sebastian Gerke ist mein Name. Ich bin seit elf Jahren in dem Bereich tätig und zuletzt bei, ich muss dich korrigieren, Re-Technology im Bereich Computer Vision, einem jungen Start-up, das sich mit Computer Vision für autonomes Fahren beschäftigt, unter anderem. Und da eben im Bereich Computer Vision tätig, zuvor war ich CTO bei TerraLoop, auch einem Start-up, das sich mit der Bildanalyse von Luftbildern beschäftigt hat. Und davor habe ich mich beteiligt. beim Fraunhofer Heinrich-Herz-Institut in Berlin hier mit dem Thema Sportvideoanalyse beschäftigt, um genauer zu sein, der Identifikation von Fußballspielern.
Erik Pfannmöller: Sportvideoanalyse ist spannend. Ich war ja früher mal Leistungssportler. Wir haben auch Videoanalyse gemacht, aber noch nicht mit Computern, sondern händisch haben wir uns unsere Videos angeschaut. Kommen wir bestimmt noch drauf. Sehr gut. Fangen wir doch am Anfang an. Was ist eigentlich Computer Vision? Wie würdest du das beschreiben?
Sebastian Gerke: Computer Vision würde ich beschreiben als die Informationsextraktion aus Bildern, also aus visuellen Informationen. In der Regel Bildern oder aber auch Videos. Das heißt also, wie ein Computer letztendlich versucht, vollautomatisch höherwertige Informationen aus Bildern abzuleiten. Zum Beispiel auch zu erkennen, ob in einem Bild Partybilder sind, ob das Strandfotos sind. Also eine einfache Klassifikation zu machen. Das heißt, ich gebe dem System ein Bild und das System soll mir dann zum Beispiel eine Kategorie zuordnen zu jedem einzelnen Bild.
Erik Pfannmöller: Ist Computer Vision sowas wie Bilderkennung, Image Recognition? Ist es das Gleiche? Sind das Synonyme? Wie würdest du das einordnen?
Sebastian Gerke: Ja, ich würde sagen, das ist sehr verwandt und ich sehe keine starke Trennschärfe zwischen den beiden Begriffen. Also Image Recognition ist schon sehr nah an Computer Vision. Computer Vision ist vielleicht ein bisschen breiterer Begriff, weil Computer Vision eben auch nicht nur Image Recognition, sondern vielleicht auch Video Recognition umfasst. Also alles, was mit Vision, also der Perzeption von visuellen Informationen behandelt.
Erik Pfannmöller: Das ist spannend. Das heißt, einerseits hast du gerade gesagt, Bilder und auch Videos. Wir kommen gleich noch auf den Unterschied zwischen Videos und Bilder. Ein Video besteht ja aus 25 Einzelbildern pro Sekunde. Das heißt, Videoerkennung oder Video Recognition oder Computer Vision als Überbegriff, besteht ja faktisch aus Image Recognition. Das heißt, wenn unsere Hörer, wie erklären wir bei AI Unplugged, immer schwierige Themen einfach erklärt, das Thema Computer Vision verstehen müssen, dann muss man doch beim Bild anfangen, oder?
Sebastian Gerke: Genau.
Erik Pfannmöller: Super. Wie sieht ein Computer ein Bild? Stellen wir uns vor, nimm mal ein Bild deiner Wahl, beschreib das mal für unsere Hörer und dann beschreib mal, wie ein Computer das Bild wahrnehmen würde.
Sebastian Gerke: Nehmen wir zum Beispiel das Beispiel, was ich gerade erwähnt hatte, dass es darum geht, zum Beispiel meine private Fotokollektion besser zu sortieren. Ich bin ein fauler Mensch, ich habe keine Lust, da einzelne Stichwörter zu vergeben, sondern ich möchte das gerne den Computer machen lassen. Und angenommen, ich habe jetzt aus irgendeinem Grund Portraitaufnahmen machen lassen, habe da aber auch zum Beispiel Fotos von Partys oder vom Strand oder von den Bergen, Landschaftsbilder und all diese Fotos gemischt. Und wenn der Computer jetzt verstehen möchte, was in dem Bild vorhanden ist, dann ist es in der Regel so, je nachdem, welchen Ansatz man wählt. Aber in aller Regel ist es so, dass man von den einzelnen Bildpunkten ausgeht. Das heißt also, ein Bild zum Beispiel in einem Video besteht aus 1920 mal 1080 Pixeln. Was dann Full HD ist oder auch mehr Pixeln, je nachdem wie viele Megapixel meine Kamera liefert. Und das sind die einzelnen Bildpunkte, die jeweils einen Farbwert letztendlich beschreiben. Drei Komponenten, Rot, Grün, Blau, wird jeder einzelne Bildpunkt beschrieben. Das sind sehr viele Informationen, wenn man sich das mal zusammenrechnet. 1029 mal 1080 mal 3 für die drei verschiedenen Farbkanäle, da ist man bei sehr viel Farbwert. Information pro Bild.
Erik Pfannmöller: Aber der Computer hat ja in dem Moment noch nicht verstanden, was auf dem Bild drauf ist. Er weiß nur jeden Bildpunkt.
Sebastian Gerke: Genau, er kennt nur jeden Bildpunkt. Und die Aufgabe ist jetzt, diese Information so weit zu kondensieren, dass ich eigentlich nur noch ein Label haben müsste. Und was die meisten Ansätze macht in irgendeiner Form, ist versuchen, Stück für Stück aus diesen sehr kleinteiligen Informationen höherwertige Informationen zusammensetzen. Das heißt, in der Regel passiert es so, dass man entweder versucht, einen Computer-Vision-Ingenieur, Low-Level-Features zu erkennen, zum Beispiel Kanten, Ecken und so weiter. Oder aber, was heutzutage eher gemacht wird, dass man versucht, den Computer diese Low-Level-Features lernen zu lassen. Da geht es wirklich um Kanten, Ecken oder aber auch Farbübergänge, Farbverläufe und versucht da dann hierarchisch quasi von diesen einzelnen Bildpunkten immer höherwertige Informationen zusammenzubauen. Wenn man jetzt von den Kanten dann weggeht, dann hat man irgendwann charakteristische Merkmale, zum Beispiel für eine Nasenspitze, für eine Augenpartie.
Erik Pfannmöller: Ich würde ein einfaches Beispiel machen, weil gerade Urlaubszeit ist. Wir stellen uns mal ein Bild von einem Strand vor. Ein Strand und darauf ist ein Strandschirm. Also nur Strand, Meer hinten und ein Strandschirm. Wie würde der Computer jetzt anfangen, sich dieses Bild zusammenzusetzen? Also müsste der sozusagen tausend Strandbilder sehen, um zu erkennen, was Strand und was Himmel und was der Strandschirm ist? Oder würde der selbst lernen, also dass er Ecken und Kanten erkennt? Das kann er, glaube ich, alleine. Aber wie kann er sozusagen aus Lower-Level-Features, wie du das genannt hast, aus einfachen Kanten später auch Objekte erkennen?
Sebastian Gerke: Ja, das setzen dann, wenn man über die Feature-Extraktion quasi hinaus ist, Machine Learning-Verfahren auf. Das heißt, da habe ich wieder, ich glaube, das hast du in einer der letzten Folgen schon mal erklärt, hast du eben sehr viele Beispieldaten, zum Beispiel für Strandbilder auf der einen Seite und zum Beispiel Porträts auf der anderen Seite. Und die fütter ich eben dem Machine Learning-Verfahren, das dann diese Low-Level-Features, die ich gerade erwähnt hatte, nutzt. Und daraus versucht, aus diesen Low-Level-Features, aus denen dann ein Infokarten, Immer noch hochdimensionaler Repräsentation, aber nicht mehr ganz so viel Information enthalten wie das ursprüngliche Bild. Versucht daraus eben zu charakteristische Bereiche oder aber charakteristische Gesamtkompositionen, die es wahrscheinlich bei Strandbildern häufig eher ist. Also da ist es vermutlich eher, wie sind die Farben im Bild verteilt. Aber das ist eben das Entspannende an machine learning basierten Verfahren. Man weiß eben nicht genau, was letztendlich die Entscheidungsgrundlage ist. Warum hat er das jetzt als Strand klassifiziert und nicht als Porträt?
Erik Pfannmöller: Da hört man schon direkt den Experten daraus. Er sagt nicht, welchen Algorithmus er benutzt. Learning-Verfahren. Wir hatten ja sozusagen in Folge 1 über das Thema Algorithmus versus sozusagen Typ von KI gesprochen und wir hatten in der letzten Folge einen besonderen Typ von Algorithmus, nämlich das Thema neuronale Netze tiefer beleuchtet und erklärt, wie neuronale Netze funktionieren. Wir gehen jetzt davon aus, der interessierte Hörer hat die Folge schon gehört. Das heißt, wir erklären nicht, wie neuronale Netze per se funktionieren. Wir können jetzt aber darüber sprechen, was ist ein tiefes neuronales Netz, das die aufeinander aufbauen können. Sind das typischerweise neuronale Netze, in denen man sozusagen Tausende von Strandbildern reinfeedet, zum Schluss sagt, das ist ein Strand und das ist der Himmel. Wie sagt man denn im Computer, ja, das Blaue war jetzt der Himmel und das Gelbe war der Sand? Wie macht man das bei Bildern?
Sebastian Gerke: Also was du ansprichst, ist dann quasi schon, was über eine reine Klassifikation des Bildes hinausgeht, dass man nicht nur sagt, ich habe eine Strandszenerie, sondern ich möchte auch genau wissen, welche Bereiche des Bildes sind dann eigentlich Strand und wo ist ein Baum? Also das heißt, geht dann in Richtung Objekterkennung, Objektdetektion. Wegdeckung heißt quasi, ich möchte um jedes Objekt in einem Bild genau identifizieren und idealerweise das auch in dem Bild lokalisieren. Das heißt, ich werde üblicherweise zum Beispiel mit so einer Boundingbox, also mit einem Kasten drumherum, um jedes Objekt gelegt. Oder aber noch weitergehend, das ist eine semantische Segmentierung, wo man quasi eine pixelgenaue Aufteilung des Bildes erhält. Das heißt, ich weiß vor jedem Bildpunkt eigentlich, zu welcher Kategorie gehört das. Das heißt, ich kann dann zum Beispiel Porträt, wo genau jeder Bildpunkt einzeln das Gesicht beschreibt und habt dann wirklich eine pixelgenaue Beschreibung des Eingangsbildes. Was dann zum Beispiel in dem Fall häufig genutzt werden kann, um irgendwelche Bildverarbeitungsschritte drauf anzuwenden. Zum Beispiel den Hintergrund irgendwie ein bisschen unschärfer zu machen im Porträtfall.
Erik Pfannmöller: Oh, sprichst du auf ein Software-Feature eines großen Handyherstellers an?
Sebastian Gerke: Genau, das ist ja heute schon in vielen Handys vorhanden, dass man Hintergründe versucht unscharf zu machen, um eine höherwertige Kamera quasi zu simulieren, sage ich mal.
Erik Pfannmöller: Liebe Hörer, wir sprechen natürlich über Apple Portrait, was natürlich ganz groß angekündigt wurde mit den neuen Telefonen. Derjenige, der das nicht kennt, man nimmt ein Foto auf von einem Portrait und es wird automatisch erkannt, dass eine Person auf dem Bild ist und der Hintergrund wirklich sehr, sehr genau wird unscharf gemacht, um sozusagen das wie eine höherwertige Linse aussehen zu lassen. Das sieht sehr schön aus für den Endkonsumenten. Benutze ich auch selbst. Ist ein tolles Feature. Aus Interesse habe ich mal ganz nah herangesoomt in so ein Bild. Wirklich im Computer so ganz nah ran. Und man erkennt, wie der Algorithmus sozusagen sich um die Ohren, um die Haare das erkennt. Und dass er auch einzelne Haare zum Beispiel nicht zum Kopf hinzugehörig macht. Das heißt, Apple hat einen Algorithmus geschrieben. Und der erkennt, du hast gesagt, der erkennt das Objekt. Das ist manchmal dieser gelbe Rahmen. Der erkennt, das ist ein Gesicht. Und dann sagt er, dieser Pixel gehört zu diesem Objekt. Und das nennt man semantische Segmentierung. Ist das richtig?
Sebastian Gerke: Genau. Ich sage quasi nicht nur, ich habe ein grob hier ein Gesicht in diesem gelben Rechteck, sondern es muss letztendlich für jeden einzelnen Bildpunkt sagen, gehört das zum Gesicht oder gehört das zum Hintergrund? Und ich möchte ja nur den Hintergrund unscharf machen. Das heißt, Apple möchte das. Und ja, das ist eben auch eine Anwendungsmöglichkeit für solche Computer Vision Sachen und von semantischer Segmentierung, wo das für jeden eine Relevanz hat. Ein anderes Beispiel wäre zum Beispiel, wenn man sich Google Fotos anschaut. Mhm. Was ich zum Beispiel auf meinem Handy nutze und ich wusste das gar nicht, hatte irgendwann mal eine Ankündigung gelesen, dunkel, dass das auch jetzt Machine Learning und automatische Bildklassifikation dort integriert ist. Und wenn man jetzt einfach seine Google-Foto-App nutzt und dann zum Beispiel Strand eingibt, dann sucht er mir alle Strandbilder aus. Oder wenn ich andere Stichwörter, ich weiß jetzt nicht genau, was alles unterstützt ist, aber ich kann dadurch meine Bilder letztendlich durchsuchen, ohne dass ich irgendwas gemacht hätte, ohne dass ich das irgendwie verschlagwortet hätte, sondern das passiert eben vollautomatisch im Hintergrund.
Erik Pfannmöller: Für unsere Hörer in dem Fall nochmal der Vorbeißer Folge 1, das Machine Learning Modell. Bitte korrigiere mich, wenn ich falsch liege. Google hat auf Millionen von Google Suchanfragen und du suchst eine Katze, du klickst auf das Katzenbild und der Google-Leiter kann, okay, da muss eine Katze drauf sein. Google hat irgendeinen riesengroßen Algorithmus trainiert, der Bilder analysieren kann und sie vertaggen kann. Und weiß sozusagen, was da drauf ist. Und dann benutzt er deine Bilder sozusagen als Echtszeitvorhersage und sagt vorher, das sollte wahrscheinlich drauf sein. Und das ist sozusagen die Anwendung auf deinem Telefon. Meine Frage, glaubst du, du trainierst den Google-Algorithmus, indem du deine Bilder anschaust und zum Schluss sagst, nein, das war kein Strand? Gibt es diese Möglichkeit?
Sebastian Gerke: Soweit ich weiß, gibt es nicht die Möglichkeit, explizit Feedback zu geben. Wo ich mir sicher bin, ist, dass man versucht, aus der Interaktion der Nutzer mit der App Rückschlüsse zu ziehen, ob die Information korrekt war oder nicht. Das heißt, wenn ich nach einem Schlagwort suche und ich klicke ein bestimmtes Bild an, dann ist die Wahrscheinlichkeit relativ groß, dass das auch dann bestätigt wird, wenn ich nach Strand suche und ich klicke ein Bild an, dass es kein Strand ist. Das könnte ich mir vorstellen, aber genauer weiß ich auch nicht, was da letztendlich hinter steckt, ob man dieses Feedback nutzt. Es ist immer ein Abwägen zwischen mehr Trainingsdaten, die man durch solches Feedback bekommt, und der Qualität dieser Trainingsdaten. Das heißt, ich kann vielleicht zu 90 Prozent davon ausgehen, dass korrekt klassifizierte Bilder angeschaut werden, aber sicher bin ich mir nicht.
Erik Pfannmöller: Das ist interessant. Kennst du die, ich weiß nicht, ich bin ja selbst Apple-Nutzer, ich will jetzt keine Werbung für Apple machen, ich benutze nicht Google-Fotos von meinen Privaten, aber dort kann ich meine eigenen Familienmitglieder taggen. Das heißt, sie sagen, da ist eine Person, die sieht ähnlich aus und sagt, diese 50 Bilder sind vielleicht meine Frau oder meine Eltern und dann kann ich denen sozusagen das Label vergeben und dann kann ich auch sagen, diese Person ist es nicht oder diese Person ist es doch zusätzlich. Trainiere ich damit mein eigenes neuronales Netz auf meinem eigenen Telefon, kriege ich da sowas wie eine Art Algorithmus-Ableger? Die müssen das ja für mich trainieren, für meine Familienmitglieder, oder?
Sebastian Gerke: Bei Apple weiß ich nicht genau, wo letztendlich das Training passiert. Ich gehe nur stark davon aus, dass dort ein personalisiertes Modell trainiert wird. Das heißt, ich vermute, dass jeder Apple-iPhone-Besitzer oder auch Apple-Fotos auf einem MacBook Da habe ich das auch schon mal getestet und gesehen, dass dort spezifische Modelle dann trainiert werden, weil es letztendlich für die meisten User nicht relevant ist, ob das du bist oder ob das deine Frau ist, weil die meisten nicht Bilder von dir und deiner Frau in ihren Apple-Fotos haben und das vielleicht auch aus Privatsphäregründen vielleicht gar nicht so gewünscht.
Erik Pfannmöller: Das finde ich sehr interessant. Das heißt, habe ich dann eine Kopie sozusagen des trainierten neuronalen Netzes auf meinem Telefon, also so eine lokale Kopie oder vielleicht auch in meinem Apple-Account gespeichert, Ja. Und da werden dann die Gewichte der einzelnen Neuronen angepasst? Oder wie könntest du dir vorstellen, läuft das?
Sebastian Gerke: Genau. Ich gehe davon aus, dass es genauso funktioniert. Man wird eine Kopie des Neuronalens bekommen und da geht so ein bisschen der Trend hin. Eine Zeit lang war es so, dass die Verfahren sehr aufwendig waren und eigentlich nicht auf einem Handy liefen. Jetzt sind immer mehr spezielle Chips in den Handys, in den Appen. Da gibt es diesen Bionic-Chip mit Mural Processing Engine und was weiß ich was. Dann haben alle Chiphersteller letztendlich integriert. Und der Trend geht, glaube ich, immer mehr dazu, alles on device zu machen. Aus Privatsphäregründen hauptsächlich, aber auch aus, ja, es geht auch schneller. Das heißt, ich kriege schneller Feedback letztendlich über die Klassifikation. Und auch in der Wissenschaft ein Trend ist sogenanntes Federated Learning. Das heißt, ich habe ein großes neuronales Netz, was ich mir, wie du erzählt hast, auf mein Gerät runterlade. Und das trainiere ich aber dann nicht und das trainiere ich weiter auf meinem Gerät. Und das muss nicht mehr irgendwie in einem großen Rechenzentrum passieren, sondern ich habe ganz viele User, die immer ein bisschen das neuronale Netz besser machen. Bei Fotos ist es vermutlich gar nicht so wichtig, dass das wieder zurückgespeist wird, weil da ist es für dich wichtig, dass deine Klassifikation gut ist. Aber in anderen Beispielen könnte es eben sein, dass man daran interessiert ist, dieses Feedback wieder zurückzuspielen. Wenn man zum Beispiel eine App hat zum kastenbelegenden Scannen und korrigiert das. Oder ich habe eine Scan-App, die mir zum Beispiel die Seitenumrisse beschneidet. Wenn ich da manuell korrigiere, sind das Informationen, die spannend sein könnten. Und wo man dann ein Modell lokal auf dem Endgerät, also Handy, quasi weiter trainiert und dann die Veränderung, die dieses zusätzliche Training gebracht hat, dann wieder zurückspielt, sodass ich dann für alle die Verbesserung habe, aber eben nicht die Bilder übertragen muss, weil es zum Beispiel aus Datenschutzgründen nicht gewollt ist oder nicht erlaubt ist, die Bilder an eine zentrale Stelle zu übermitteln.
Erik Pfannmöller: Das ist interessant. Wir hatten also gerade über einen dreischrittigen Prozess gesprochen. Schritt eins war früher, man hat das Bild an einen Server im Internet übermittelt und dort hat der Computer im Internet das Bild analysiert und zurückgeschickt das Label. Und was ist da noch auf sozusagen? Dann hast du gesagt, im zweiten Schritt wurden die Telefone immer leistungsfähiger und man kann das on-premise, also sozusagen auf dem Telefon machen, da aber sozusagen nicht, also nur die Vorhersage, nicht die Backpropagation im Online-Roller-Netz, das heißt nicht das Trainieren des neuen Lernens, nur die Vorhersage, weil es schneller geht. Es ist natürlich schneller, spart auch mobile Daten, bevor ich ein Bild an den Server schicke, das ich komprimieren muss, dass ich direkt die Prediction on-Device mache. Und jetzt hast du gesagt, der nächste Schritt wäre ja, wenn ich die Vorhersage on Device mache, dass ich dann das Feedback und zu dem Bild zurück an ein großes neuronales Netzwerk schicke, dass sozusagen die einzelnen Devices, Federated Learning hast du das genannt, das Große und Ganze besser machen. Bei der Scan-App kann ich mir das total vorstellen. Ich benutze selbst eine Scan-App und wenn die nicht richtig liegt, dann schiebe ich immer noch die Ränder hinten rein und das ist natürlich etwas, was jeder haben will. Du willst nicht das Dokument verschicken, du willst nur die. Dieses Foto mit diesen Werten hat die und die Edges gehabt. Das ist ein neuer Trainingsdatenpunkt. Das ist ja spannend. Du hattest vorhin gesagt, du hast Computer Vision mit Sportanalyse gemacht. Was hat dann Computer Vision mit Sportanalyse zu tun?
Sebastian Gerke: Genau, das war eine Sache, die ich auch immer noch in meiner Dissertation bearbeite, die ich hoffentlich demnächst abschließen werde. Weil ich mich
Erik Pfannmöller: Bald Herr Doktor.
Sebastian Gerke: Genau, bald Herr Doktor. Zum Glück habe ich mich irgendwann in die Start-up-Welt begeben, was im Fortkommen der Dissertation nicht so förderlich war. Aber da habe ich mich mit Sportanalyse, im Speziellen Spielererkennung in Fußballvideos beschäftigt. Da gibt es verschiedene Anwendungsfälle. Ein Anwendungsfall, damals hatten wir mehrere Projekte mit vielen Rundfunkanstalten, Forschungsanstalt der öffentlich-rechtlichen und auch mehreren europäischen Rundfunkkanälen und die haben große Sportarchive zum Teil. In den USA haben wir auch gehört, gibt es Fernsehsender, die Millionen Stunden von Sportvideos haben und sie haben keine Ahnung, was da drin ist. Da wäre ein Schritt zum Beispiel zu sagen, okay, erstmal zu erkennen, was ist überhaupt in meinem Archiv. Das ist ein eher langweiliger, weil nicht sehr zeitnah.
Erik Pfannmöller: Also du hast Millionen Stunden von Bundesliga-Videos und willst wissen, wo überall Mehmet Scholl oder Jürgen Klinsmann drauf ist. Weil du deine Archive, die ewig alt sind, nicht einzeln durchsuchen kannst. Du willst wissen, ich brauche eine Szene von Jürgen Klinsmann.
Sebastian Gerke: Genau. Das geht bisher nicht. So fein sind die nicht annotiert. Es gibt Archivare, die dann auf vorher spezifizierte Hierarchien quasi hinterlegt sind, aber nicht auf Szenebene. Nur bei Interviews zum Beispiel. Wen habe ich da im Interview? Und das wird meistens hinterlegt. Aber nicht jetzt das Solo von Lothar Matthäus oder Maradona von 86. Das ist da das vielleicht schon, aber sonst sind die Daten so feingranular nicht hinterlegt. Und da wäre ein Ansatz eben, dass man versucht, automatisch erstmal zu erkennen, welche Mannschaften spielen da. Damit habe ich mich nicht so beschäftigt. sondern wirklich damit beschäftigt, welche Spieler sind da, wer hatte gerade den Ball, welcher Spieler ist wer auf dem Spielbett. Dadurch kann man eben zum einen Archive, aber eine andere Idee war eben interaktive Dienste mit dem Fernsehzuschauer, dass man sagt, okay, ich kann den jeweils permanent anklicken, den Spieler, und kriege dann Zusatzinformationen angezeigt. Oder was wir mal eine Demo gemacht hatten, dass man in einem hochauflösenden Videoaufnahme dann eine Tablet-App hatte, die mir quasi meine virtuelle Mehmet-Scholl-Kamera geliefert hat und ich konnte die ganze Zeit irgendwie Mehmet-Scholl zu gucken, wie seine Bewegungsläufe waren. Das heißt, ich hatte eine virtuelle Kamera, die die ganze Zeit Mehmet-Scholl gefolgt ist. weil ich wusste, okay, ich habe ein Tracking gemacht, ich wusste, das ist Mehmet Scholl und so konnte ich dann eine virtuelle Kamera generieren.
Erik Pfannmöller: Das heißt also, der Computer muss wiederum, wir hatten vorhin gesagt, Objektdetektion machen, macht einen Rahmen drum, weiß, das ist in dem Fall Mehmet Scholl. Ich frage dich gleich, was du für ein Fußballfan bist. Folgt dem und kann somit ein Video sozusagen ausschneiden oder die Kamera entsprechend folgen lassen, dass man halt wirklich nur bestimmte Dinge sehen kann. Das ist ja das gleiche Prinzip. Der muss eigentlich ja Bild für Bild suchen, ist da die Person drauf und im nächsten Bild und passt den Rahmen an und hat somit das Video zugeschnitten oder sozusagen einzeln gemacht.
Sebastian Gerke: Genau.
Erik Pfannmöller: Wenn man versteht hat, wie Bildererkennung funktioniert, dann ist ja Videoerkennung nur der zeitliche Versatz dazu. Das heißt, man hat die Dimension, was ist da jetzt drauf und was ist im nächsten Bild, was ist in 25 Bildern drauf. und muss sozusagen auf einer Abstraktionsebene höher das über die Zeit speichern.
Sebastian Gerke: Genau, ich habe da also letztendlich eine Dimension mehr, die mir Zusatzinformationen geben kann. Ich kann Bewegungen versuchen nachzuverfolgen, also ein Objekt-Tracking durchzuführen. Was eine Zusatzinformation ist, wir gewisse Sachen einfacher machen. Wenn ich weiß, der Spieler befand sich im einen Frame vorher, bei 25 Frames per Second sind das 40 Millisekunden, das heißt, das ist nicht viel vor. Das heißt, ich weiß im nächsten Frame, im Einzelbild des Videos, kann ich schon sehr gute Annahmen treffen, wo sich die Spiele dann befinden wird. Das heißt, man hat da gewisse Redundanzen, die man nutzen kann. Auf der anderen Seite ist es dann halt, macht es komplexer, weil wenn ich diese Redundanzen nutzen will, habe ich aber dann die Komplexität, in welcher Form nutze ich die und mache ich dieses Tracking besser oder mache ich die Einzeldetektion besser. Das heißt, die Anzahl der Lösungsmöglichkeiten und der Probleme potenziert sich so ein bisschen. Und natürlich die Datenmenge wird dann sehr viel mehr, weil man eben nicht nur ein Bild hat, sondern 24 Bilder entweder pro Sekunde oder noch mehr in neueren Aufnahmen, sodass man da eben dann noch rechenpowermäßig Probleme bekommt oder sich noch mehr Gedanken darüber machen muss, wie geht man damit um. Vor allen Dingen, wenn man, wie im Sport ja auch sehr wichtig ist, live ist immer King und alles, was aus der Konserve kommt, ist nicht so spannend. Das heißt, da ist auch häufig relevant, solche Analysen live zu machen.
Erik Pfannmöller: Das stimmt. Über das Thema Trainingsgeschwindigkeit und wie lange das dauert, ähnlich wie bei der letzten Folge der Erasmus-Route von Marantix gesagt, ja, Sie stoßen abends ihr Experiment an, lassen ihre 100.000 Röntgenbilder durchlaufen und haben dann am nächsten Morgen die Ergebnisse des Experiments. Das ist natürlich Training, aber auch die Echtzeitvorhersage in live ist ein Thema. Was für ein Fan bist du jetzt?
Sebastian Gerke: Ich bin Bayern-Fan.
Erik Pfannmöller: Du bist Bayern-Fan? Dann hoffen wir, dass wir irgendwann Bayern-Spiele sehen und möglicherweise die Algorithmen, die du dir überlegt hast, von deiner Doktorarbeit auch in die Realität umgesetzt werden. Ja, man sieht ja immer spannende Anwendungen. Apropos Anwendungen, ich erinnere mich an eine App, die hieß Prism, die habe ich mir auf mein Telefon runtergeladen, da habe ich ein Bild hochgeladen und der hat dann das Bild ganz toll verändert und das war mal ganz gehypt. Ist das auch Image Recognition und ist sozusagen diese Veränderung, würdest du das mit in der Computer Vision sehen?
Sebastian Gerke: Das würde ich Eigentlich traditionellerweise als Bildverarbeitung. Weil eigentlich geht es ja gar nicht um irgendwelche höherwertigen Informationen in irgendeiner Weise, sondern ich will das Bild einfach verändern. Das ist zum Beispiel wie bei Prism, dass es ein Aussehen wie ein Gemälde bekommt von einem bestimmten Künstler, sei es von Picasso und so weiter. Das Spannende hier ist, dass man eben dort auch die Methoden, die, sage ich mal, für Computer Vision verwendet werden, für neuronale Netze, immer mehr dazu übergeht, die für solche künstlerischen oder bildverarbeitenden Zwecke zu nutzen. Das heißt, dass man sagt, bei Sachen, wo man erst früher vielleicht nicht auf die Idee gekommen wäre, okay, das ist eigentlich eine Sache für ein neuronales Netz, dass man trainieren muss, das ist ja auch ein Riesenaufwand. Und eigentlich, ich trainiere ja keine höherwertigen, sag ich mal, semantischen Konzepte, sondern ich trainiere in dem Fall wäre es dann halt, okay, wie ist denn der Stil von einem bestimmten Maler? Das sind dann, vielleicht sind es doch höherwertige Konzepte, es sind abstraktere Konzepte auf jeden Fall und auch sehr viel subjektivere.
Erik Pfannmöller: Aber ich muss ja dazu trotzdem erkennen, was auf dem Bild drauf ist.
Sebastian Gerke: Genau, das muss ich eben nicht. Also die werden einfach nur, ich habe zum Beispiel mehrere tausend Bilder von Picasso und mehrere tausend Bilder von Monet oder sonstigen Künstlern. Und das neuronale Netz muss nicht wissen, was da drauf ist. Es muss nur wissen, was von welchem Künstler ist. Und dann ist letztendlich die Bildklassifikation in die eine Richtung. Ich erkenne erstmal, welchem Künstler ein bestimmtes Bild zuzuordnen ist. Und dann aber auch den Umkehrschritt. Ich möchte zu einem Bild zu einem bestehenden Bild und einem Künstler quasi ein Bild synthetisieren, das aussieht wie ein Bild dieses Künstlers. Und dann kann ich zum Beispiel ein Foto reinstecken. Ich sage, das sollte bitte so aussehen wie ein Bild von Picasso. Und dann synthetisiert mir das neuronale Netz quasi solch ein Bild. Und das nutzt Verfahren mit neuronalen Netzen, die versuchen mehrere Sachen zu optimieren letztendlich. Das heißt, das versucht ein Bild zu generieren, von dem ein anderes neuronales Netz nicht unterscheiden kann von dem Originalbild des Künstlers.
Erik Pfannmöller: Genau, das heißt faktisch ist das Thema Style Transfer, also ein Bild künstlich synthetisieren, so ein bisschen das Ganze umgedreht. Das heißt, man will nicht ein Bild erkennen, was drauf ist, sondern man will ein Bild so verändern, dass ein anderer Algorithmus es nicht mehr unterscheiden kann. Und das ist ganz interessant, dass du sagst, ja, ein anderes neuronales Netz. Wenn man alle unsere Folgen bis jetzt von vorne bis hinten durchgehört hat, dann wird einem irgendwann klar, dass diese neuronalen Netze eigentlich immer nur Daten nehmen und irgendwas drauf erkennen und irgendwelche Muster erkennen und dass man die miteinander, gegeneinander, hierarchisch zusammen benutzen kann. Und dass das eigentlich so der Grundgedanke von KI und Machine Learning heutzutage ist, ist aber spannend. Du hast gerade gesagt, etwas künstlich synthetisieren. Ich würde gerne auf das Thema Deepfake eingehen. Letztens habe ich ein Video gesehen online, wo Mark Zuckerberg sozusagen das Gesicht verändert wurde, als ob er was gesagt hätte. Die Lippen haben sich zum Ton bewegt und es war offensichtlich ein Fake-Video. Das ist ein ganz brisantes Thema heutzutage. Wie siehst du das? Wie einfach oder schwierig ist das, so ein Deepfake-Video zu machen heutzutage?
Sebastian Gerke: Ich glaube, es ist nicht einfach. Man braucht vor allen Dingen viel Trainingsdaten von einer bestimmten Person oder von beiden Personen, also von der Original- und von der Person, dessen Gesicht ich dort einsetzen möchte. Das heißt, das sieht man häufig bei Prominenten.
Erik Pfannmöller: Wiederum das Thema Trainingsdaten, weil es hunderte Millionen Bilder gibt, Einzelframes, die man trainieren kann, um das Bild von Mark Zuckerberg oder Donald Trump oder irgendjemand Bekanntem zu trainieren. Genau.
Sebastian Gerke: Von daher, und ich habe mir das auch jetzt im Vorfeld der Sendung nochmal angeschaut, ist schon beeindruckend teilweise, wie gut das funktioniert. Und es wird Wenn man sich das genauer anschaut, sieht man immer noch, okay, das ist synthetisiert worden.
Erik Pfannmöller: Woran würde man das dann erkennen?
Sebastian Gerke: Auch an den Schnittstellen, weil letztendlich eine Gesichtserkennung läuft und es wird häufig nur das Gesicht erkannt oder ersetzt. Und der untere Bereich wird dann nicht ersetzt. Das heißt, da kann man, und da gibt es auch forensische Verfahren sogar, und es gibt Forschungsbereiche, die sich ausschließlich damit beschäftigen, ob Bilder modifiziert worden sind. Darin kann man das erkennen, aber ich denke, das wird immer besser werden von den Methoden und dann wird es spannend und immer besser, aber auch natürlich vielleicht gefährlich, dass man vielleicht nicht mehr dem trauen kann, was man sieht, weil die Person, die da gerade was im Fernsehen sagt, vielleicht gar nicht die Person ist, sondern das synthetisiert wurde.
Erik Pfannmöller: Muss ich denn als normaler Mensch Angst haben, dass ein Video von mir mit Deepfake live gestellt wird?
Sebastian Gerke: Ich glaube, das geht momentan noch nicht. Aber ich denke, das wird irgendwann möglich sein, dass man immer mit immer weniger Trainingsdaten versucht, irgendwie Bilder zu synthetisieren. Da kommt es vermutlich auf die Ausgangsqualität des Bildes an, dass ich das modifizieren kann. Wie sieht mein Gesicht aus, wenn ich spreche? Und die Qualität wird vermutlich nicht so gut sein, wie wenn ich wirklich viele Trainingsdaten habe.
Erik Pfannmöller: Das habe ich jetzt auch schon sozusagen öfter gehört, dass ein genereller Zukunftstrend ist, neuronale Netzwerke mit weniger Trainingsdaten zu füttern, um einfach schneller mit weniger Aufwand in der Aufbereitung von Daten zu besseren Erfolgen führen kann. Würdest du sagen, das ist ein genereller Trend im Bereich Machine Learning oder auch Computer Vision?
Sebastian Gerke: Ja, das ist ein genereller Trend, weil es aus mehreren Perspektiven problematisch wird, weil die großen Tech-Konzerne immer mehr Trainingsdaten haben. Dort aber auch immer mehr Energie verwendet wird, um diese neuronalen Netze zu trainieren. Und deshalb gibt es auch unter Forschungsinstituten letztendlich den Trend, versuchen mit weniger Trainingsdaten zurechtzukommen, weil nicht jedes Forschungsinstitut, nicht jede Universität trainiert. Und auch nicht jedes Startup hat unbegrenztes Budget, massiv neuronale Netze zu trainieren, sondern da ist eben der Trend dahin, versuchen mit weniger Trainingsdaten zurechtzukommen. Zum einen, weil es das Training beschleunigt, zum anderen, weil es aber auch die Menge an Daten, die man benötigt und vor allen Dingen an gelabelten Daten, Ground-Truth-Daten reduziert, weil das ist ein wirklicher Kostenfaktor für ein Startup. Da muss man sich, wenn man sich dann mal in so ein Projekt begibt und lässt mal 100.000 Bilder labeln oder 100.000 Einzel-Videosnippets von irgendeinem Auto, das durch die Gegend fährt.
Erik Pfannmöller: Wie kann man denn was machen, so ein Bild labeln lassen? Macht man das mit so Outsourcing nach Indien, die dann gucken darauf, was drauf ist?
Sebastian Gerke: Genau, genau. Also wenn man überhaupt keine Labels hat, dann ist das der normale Weg. Es gibt viele Startups inzwischen, die sich ausschließlich damit beschäftigen, von Menschen Bilder labeln zu lassen oder auch Texte annotieren zu lassen und sich mit nichts anderem beschäftigen. Und das sieht man ihre Kunden dann weitergeben, weil das auch ein sehr komplexer Prozess ist, weil die Sachen nicht immer eindeutig sind. Ist das Gesicht jetzt noch da drauf, weil es sehr weit im Hintergrund ist oder nicht? Es gibt sehr viele Edge Cases. Das heißt, es ist ein relativ komplexer Prozess, den man nicht unterschätzen sollte und der auch zeit- und kostenaufwendig dadurch ist.
Erik Pfannmöller: Das Thema gute Gesichtserkennung hängt also auch von guten Trainingsdaten ab und es ist gar nicht so einfach, sozusagen auch gute Trainingsdaten zu haben, weil es ja so schwierige Fälle gibt. Das finde ich interessant. Wann sagt ein Mensch, eine Person ist noch auf dem Bild drauf, der Computer kann ja die Pixel sehen. Menschen sagen, klar, der ist ganz weit im Hintergrund, der ist da nicht mehr drauf. Es ist aber schwierig, Computern beizubringen, was ist Vordergrund, was ist Hintergrund und wann ist eine Person so weit weg, dass sie nicht mehr als Person erkannt wird.
Sebastian Gerke: Genau.
Erik Pfannmöller: Apropos Gesichtserkennung. Ich habe gehört von einer Schule in China, die sozusagen alle ihre Schüler mit Gesichtserkennung überwachen. Und zwar zum Beispiel, ob sie gerade im Unterricht aufmerksam sind oder nicht, ob sie traurig sind und das einfach überwachen. Grundsätzliche Frage, glaubst du, das funktioniert schon effektiv gut? Und dann sozusagen, wie ist deine Einstellung dazu?
Sebastian Gerke: Ich glaube, dass in dem Beispiel Schulklasse, wenn ich wirklich weiß, okay, das ist der Klassenraum und da habe ich nur mit 30 verschiedenen Kindern maximal zu rechnen, Ich denke schon, dass das da sehr gut funktioniert, dass man 30 Personen unterscheiden kann. Ich glaube, was anderes ist, es gab schon Feldversuche bei der Deutschen Bahn, wo man versucht hat, an einem Bahnhof mit Kameras Leute zu identifizieren aus Hunderttausenden. Da hat es damals, glaube ich, meines Wissens nicht so gut funktioniert, dass man daraus zuverlässig Gesichter erkennen konnte. Das heißt, im kleinen Rahmen mit relativ wenigen Möglichkeiten, würde es sicherlich schon sehr gut funktionieren. Hängt natürlich dann immer auf. Abstand zur Kamera ab und von der Anzahl der Personen, wie gesagt. Ich glaube, da muss man sowohl als Bürger als auch als Entwickler muss man schon sich überlegen, ist das noch gewollt, wollen wir das? Ist das was, was ich aktiv mit meiner Arbeit unterstützen möchte, dass ich permanent überall überwacht werden kann?
Erik Pfannmöller: Es geht ja auch um das Thema Ethik und Algorithmen. Da gibt es ja das Thema Open AI, eine große Initiative, überhaupt darüber nachzudenken, was Algorithmen dürfen, wie kann ich da reinschauen und was sind moralische Grenzen. Aber nochmal ganz praktisch. Die Bundesdruckerei hat mein Personalausweisfoto. Können Sie anhand von dem Personalausweisfoto einen Algorithmus trainieren, wo Sie sagen, das ist er, die haben ja die Ground Truth, die wissen ja, dass ich das bin, ein schönes biometrisches. Wenn ich jetzt die Daten vom Bahnsteig an die Bundesdruckerei gebe, die das Foto von mir haben hoch aufgelöst, können die mich da erkennen als Erik? Oder ist es sehr schwierig, weil es ja 80 Millionen andere Menschen in Deutschland gibt und es bestimmt irgendjemand gibt, der mir sehr ähnlich ist?
Sebastian Gerke: Also ich denke, die Fehlerquote vermute ich, aber ohne es genau zu wissen, ist momentan noch zu hoch, als dass es praktikabel einsetzbar wäre. Wahrscheinlich viel Forts Positives bekämen.
Erik Pfannmöller: Was ist nochmal ein Worts-Positiv für unsere Zuhörer? Also
Sebastian Gerke: in dem Fall zum Beispiel, wenn ich eine gesuchte Person habe und möchte am Flughafen zum Beispiel irgendwann rausfiltern, wenn dort jemand als eine gesuchte Person erkannt wird, wenn ich eine Person suche und es gehen jeden Tag hunderttausende Leute durch meine Gates zum Beispiel am Flughafen, Und der wird mir als falsch positiver. Das heißt, er wird mir als die gesuchte Person erkannt, obwohl er es gar nicht ist. Und das ist wohl auch schon passiert. Dann habe ich ein Problem, weil dadurch generiere ich mehr Arbeit, weil ich das dann verifizieren muss. Wenn ich am Tag tausend Leute verifizieren muss, aufwendig, weil ich glaube, es könnte der eventuell sein, dann verursacht es mehr Arbeit, als dass es mir nutzt.
Erik Pfannmöller: Es gibt aber auch einen falschen Negative, oder?
Sebastian Gerke: Genau, natürlich. Es kann sein, dass wenn eine bestimmte Person, die gesucht ist zum Beispiel, signifikant von dem unterscheidet, wie das Bild, was in der Datenbank letztendlich vorliegt, oder aber der Algorithmus ist einfach nicht gut genug, um das abzufangen, dann geht mir der eben durch die Lappen. Das heißt, ich finde eben, wurde mir als nicht zutreffend klassifiziert, obwohl er eigentlich zutreffend wäre in dem Fall.
Erik Pfannmöller: Also wenn Erik als Sebastian Gerke klassifiziert wird, wäre es ein Falsch-Positiv, weil es das Positive hat klassifiziert, aber er hat mich falsch klassifiziert. Und wenn ich sozusagen auf der Kamera bin, aber nicht erkannt wurde, dass ich es bin, dann wäre es ein False-Negative, also fälschlicherweise negativ. Auf der anderen Seite der Confusion-Matrix ist dann noch das True-Positive, also wenn ich gefunden werde und ich es auch wirklich bin. Und das True-Negative in dem Fall, wenn ich korrekterweise nicht gefunden wäre, aber auch nicht auf dem Bild drauf bin. Was muss noch passieren, damit man in Deutschland 80 Millionen Menschen voneinander per Video überwachen? Also was muss technisch, aber auch organisatorisch passieren, damit man diese Überwachung von Menschen, wo sie sich bewegen, im öffentlichen Raum hinkriegt als Staat?
Sebastian Gerke: Wenn man das hinkriegen möchte. Ich glaube, ein Punkt ist noch mehr Trainingsdaten. Ich denke, das ist eine Herausforderung. Ich glaube, Kameraqualität ist sicherlich ein Punkt. Dann ist die Frage, wie viel will man pro Kamera investieren und wie nah kriegt man die Gesichter eigentlich rangeholt in einem Bahnhof? Wenn man sich landläufig die Kamerabilder ansieht, die zur Fahndung ausgeschrieben sind, da ist es halt selbst für Menschen sehr schwer, einzelne Personen wirklich zu identifizieren. Von einem automatischen Verfahren muss man dann vermutlich gar nicht sprechen, weil denen letztendlich die gleichen Bilder zur Verfügung stehen. Und wenn die Qualität nicht ausreichend ist, dann hat es auch ein automatisiertes Verfahren schwer. Das heißt, man muss dann an der Kamerakualität, den Datenmengen, Trainingsdaten letztendlich arbeiten und vermutlich auch an den Verfahren natürlich. Da kann man eben immer wieder mehr Verbesserungen rausholen, weil das eben auch ein sehr spezielles Problem ist eben, dass ich eine Kategorisierung von eventuell 80 Millionen Leuten haben möchte, wenn ich wirklich genau einen suche.
Erik Pfannmöller: Das ist interessant. Apropos Gesichtserkennung und eine Möglichkeit, was vielleicht was Gutes wäre, so ein Thema Blitzer. Wenn man sozusagen geblitzt wird, hat man auch ein Bild und da muss der Kommissar meistens händisch gucken, kenne ich die Person, muss die vergleichen, anhand des Kennzeichens ist der Halter auch der auf dem Pass und man kann ja auch verweigern. In dem Fall würde es, glaube ich, ich weiß gar nicht, wie viele Blitzer es in Deutschland gibt, vielleicht hunderttausende Millionen jedes Jahr. Jeder fährt ja mal ein paar kmh zu schnell. Ich natürlich nicht, wir sind ganz ehrliche Fahrer. Aber ich glaube, das würde auch der Verwaltung viel, viel Aufwand sparen. Und so könnte Machine Learning, Computer Vision, Image Recognition auch den Start effizienter machen. Das wäre wahrscheinlich eine gute Anwendungsmöglichkeit.
Sebastian Gerke: Ja, genau. Also da könnte es sicherlich helfen. Auch da ist für das Problem häufig die Bildqualität. Gerade nochmal dann durch die Windschutzscheibe. Nicht so eine kontrollierte Aufnahmebedingungen. Von daher wird es da immer schwieriger. Und ich vermute auch, die Frage ist, inwiefern ist dieses Erkennungsergebnis gerichtlich dann verwertbar? Also wie sicher kann ich mir sein, dass die Person das ist letztendlich? Aber das wäre ein Punkt, wo man sich ansetzen könnte. Ob ich das jetzt gut finde, weiß ich noch nicht so ganz.
Erik Pfannmöller: Das ist sicherlich schlecht für den Autofahrer. Aber wir denken ja nicht nur an den Autofahrer. Wir denken ja sozusagen an die Gesellschaft. Es würde ja Steuergelder sparen, wenn man einen Algorithmus hätte. Apropos gerichtliche Verwertbarkeit, glaubst du, dass Algorithmen zur Verwertbarkeit vor Gericht zugelassen werden? Zum Beispiel jetzt bei Bilderkennung oder bei Titerüberführung?
Sebastian Gerke: Ich glaube, dass vollautomatisierte Ergebnisse mittelfristig nicht zugelassen werden, sondern eher, dass sich vielleicht Gutachter auf die Ergebnisse solcher Sachen stützen, aber trotzdem noch ein Mensch, ein Gutachter, ein Experte quasi auch seine Einschätzung dazu abgeben muss, wie zuverlässig ist denn das Verfahren. Also wenn es zum Beispiel darum geht, zum Beispiel einen Deep Fake zu ermitteln. Und es gibt forensische automatisierte Verfahren, die versuchen eben auch zu erkennen, ist das Bild modifiziert worden oder ist es ein Originalbild. Und dann gibt es Algorithmen, die versuchen das zu machen und die versuchen, versuchen, die Bereiche zu identifizieren, die modifiziert werden. Aber es ist immer noch dann an einem Experten darzulegen, wie zuverlässig das funktioniert und dem Gericht glaubhaft zu machen, dass das zuverlässig oder eben aber auch nur mit einer 90-prozentigen Wahrscheinlichkeit zuverlässig ist.
Erik Pfannmöller: Das habe ich sozusagen schon öfter gehört, dass man eigentlich gerade die hochintelligenten Algorithmen, dass die sozusagen eher zur Augmentation, das heißt zur Unterstützung sind. und je nach Confidence, also je nach Sicherheit des Algorithmus, könnte man in dem Fall vor Gericht sagen, ich bin mir zu 99% sicher und gewichtet das gegen menschlichen Experten. Das ist wie bei Diagnosen von Ärzten. Das ist wie bei der Vorhersage von Kundenserviceanfragen. Damit kenne ich mich jetzt gut aus. Da geht es auch um Confidence und Wahrscheinlichkeiten. Und zum Schluss sagt man, je nachdem, wie wichtig oder teuer mir ein False Positive oder False Negative wäre. Wir hatten in der letzten Folge das Thema Krebserkennung. Wenn ich sozusagen den Krebs übersehe, das heißt in dem Falle ein False Negative, ist mir viel, viel teurer, weil ich will lieber einmal mehr den Mensch draufschauen lassen als einmal. zu wenig. Das heißt, diese Augmentation zwischen, wenn ich mir sicher bin als Algorithmus, ist gut, aber wenn ich mir nicht sicher bin, dann will ich es einem Menschen übergeben und Menschen schauen zum Schluss nochmal drauf. Das ist was, was ich öfter höre als genereller Trend, jetzt mehr Human plus AI. Ich sage dann immer, jetzt guck mal zehn Jahre in die Zukunft und dann ist es wie mit der Navigation. Vor zehn Jahren habe ich Google Maps nicht vertraut oder dem Handy und jetzt würde ich nie wieder eine physische Karte in die Hand nehmen, weil sie veraltet ist und den Echtzeitstaudaten nicht hat. und Ich traue mittlerweile dem guten Navigationssystem mehr als meinem Beifahrer. Die Frage ist, wann das vielleicht auch beim Thema Beweis vor Gericht oder bei der Blitzererkennung von Rasern.
Sebastian Gerke: Ich glaube, das ist dann eine Sache wirklich des ganz konkreten Use Cases, wann die Verfahren so zuverlässig sind, dass man da davon ausgeht, dass die Zuverlässigung sehr viel höher ist als das, was ein Mensch machen kann. Und das ist hier noch Use Case. Bei den Blitzern sehe ich das noch ein bisschen längerfristig, wenn man das in der Zukunft Und ich denke, von der Gerichtsverwertbarkeit, dass man automatisch sagt, okay, ich vertraue dem Algorithmus blind, weil das Algorithmus hat gesagt, das ist die und die Person dort. Und dann sage ich, stimmt das, ohne mir als Richter vielleicht sogar auch Personenidentifizierung ist vielleicht auch als Richter einfach nachzuvollziehen, weil ich natürlich einfach nur sagen muss, ist die Person, die vor mir steht, die gleiche wie auf diesem Blitzerfoto. Das ist einfach. Bei Krebsdiagnosen wird es dann schon schwieriger. Für einen Laien ist das vermutlich unmöglich, um da zu sagen. Aber ich denke, die Grenze wird sich natürlich weiter verschieben. Davon gehe ich aus. Aber ich sehe, sage ich mal, in vielen Bereichen, wo es wirklich auf Einzelfälle ankommt, um wirklich einen Einzelfall als negativ, der fatale Folgen haben kann, noch relativ lange dauern wird, bis man Algorithmen hundertprozentig vertrauen kann.
Erik Pfannmöller: Super. Ich würde gerne mal das Thema ganz verändern und dir eine Frage stellen, nämlich kann ein Computer Schönheit erkennen?
Sebastian Gerke: Ja, denke ich schon. Lustigerweise habe ich mich da auch eine Zeit lang in meiner akademischen Laufbahn bei Fraunhofer beschäftigt. Da haben wir an einem Wettbewerb teilgenommen, wo es um Bildklassifikationen ging und da ging es eben auch um nicht nur die Kategorie Strand- oder Partybild. sondern auch um aesthetically pleasing oder beautiful. Und das ist ein recht dankbares, weil es zum einen sehr unscharf ist. Das ist eine sehr subjektive Sache. Was es für einen Algorithmus einfacher macht, weil wenn ich dort fälschlicherweise was als schön klassifiziere, ist das sehr subjektiv. Das heißt, man ist weniger streng. Das heißt, selbst für Menschen ist die Einschätzung sehr, sehr subjektiv. Und da sind unterschiedliche Menschen, geben unterschiedliche Antworten. welche Bilder schön sind. und das funktioniert durchaus. Und ich glaube, das wird auch schon verwendet, zum Beispiel in verschiedenen Handy-Apps, ich weiß jetzt nicht bei wem, aber dass, wenn man Serienaufnahmen macht, automatisch das beste Bild ausgewählt wird.
Erik Pfannmöller: funktioniert das nach dem gleichen Prinzip, wie wenn ich eine Objektdetektion mache, nur halt, dass ich nicht lerne, das ist eine Palme, das ist ein Baum, das ist der Strand, sondern dieses Foto, was auch immer daran schön ist, ich denke mir, es gibt ja Porträts, die schön sein können, wie man lächelt versus wie man weint. oder auch wenn ein Naturfoto schön ist, dann muss der Algorithmus ja nur sagen, schön, nicht schön. und dann lernt das neuronale Netz, man weiß nicht, was es lernt, es lernt das aber. Kann ich dann bald die Best-of von meinen Fotos selbst generieren lassen? Du kennst das ja, man macht viel zu viele Fotos und möchte zum Schluss nur die 10% schönsten Bilder haben.
Sebastian Gerke: Ja, das denke ich, das ist machbar. Und ich glaube, die Selektion, die dabei rauskommt, und ich gehe davon aus, dass einige schon machen, es gibt ja auch bei Google Fotos so Highlights von meinem Urlaub zum Beispiel. Dass sie zum Beispiel das Handy sieht, okay, ich war eine Zeit lang irgendwo an einem Ort, an dem ich nicht so häufig bin. Und dann macht es mir so eine Fotokollage eigentlich von dieser Zeit da. Und es ist sehr subjektiv, das heißt, es kann auch nicht viel falsch machen, weil es einfach beliebig, also nicht beliebig, aber es versucht, die schönsten Fotos rauszusuchen. Und es ist immer spannend zu sehen, weil es eigentlich ganz gut hinhaut. Und das ist ein Foto, was ich dann auch häufiger mal nutze und verschicke und sage, viele Grüße aus dem Urlaub und so. Als Postkartenersatz.
Erik Pfannmöller: Das ist wirklich verrückt, wie die Algorithmen unser Leben einfach machen. Ich hatte genau das Gleiche. Ich war mal wieder in Italien und dann habe ich sozusagen Italien von vor zwei Jahren und habe mich dann erinnert, dass ich mit Freunden in Italien zum Bergsteigen war. Und ich habe dann das fertige Video von, wie gesagt, ich bin Apple-Nutzer, von Apple-Fotos genommen und habe gesagt, teilen via Messenger. Und habe da sozusagen eine fertige Fotokollage durch eine KI generiert. Da saß ja kein Mensch dahinter. Und das hat ja sozusagen noch mehr Dimensionen als nur die Computervision, wo wir heute darüber gesprochen haben, sondern auch zu erkennen, wiederum ein anderes neuronales Netz. Aha, der ist an einem anderen Ort, da war er schon mal. Jetzt wäre ein guter Moment, ihm die Erinnerung von vorletztem Jahr aus Italien wieder anzubieten, weil die natürlich wollen, dass man interagiert mit der Foto-App und die Fotos teilt.
Sebastian Gerke: Genau, das ist, glaube ich, auch ein Thema, dass man nicht nur versucht, Bilddaten zu nutzen, sondern auch Zusatzinformationen wie die Zeitpunkt der Aufnahme, Ort der Aufnahme, dass man das natürlich auch verknüpfen kann und auch zur Bildklassifikation verwenden kann. Und wo auch zum Beispiel Google jetzt relativ stark ist, wenn man eine Google-Bildersuche macht und da bestimmte Stichwörter eingibt. Es ist ja in der Regel eine Suche eigentlich in dem umgebenden Text letztendlich. Vielleicht noch in der Fotobeschreibung, aber häufig gar nicht, dass das Foto an sich angeschaut wird. Trotzdem funktioniert das ja relativ gut, wenn ich zum Beispiel Strand eingebe, dass es mir viele Strandfotos gibt. Da wird eben sehr viel auch der Kontext aus allen möglichen Webseiten verwendet.
Erik Pfannmöller: Sehr gut, Sebastian. Das ist doch ein toller Ausblick in die Zukunft, dass wir immer mehr Fotos machen können, aber wie so oft die Technologie uns rettet und aus den vielen Fotos, die wir haben, hoffentlich in der Zukunft die Top 5% raussucht und keiner mehr. nach dem Urlaub oder seine Best-of selbst machen muss. Das finde ich gut. Computer Vision ist toll. Computer können Bilder erkennen. Läuft über neuronale Netzwerke. Ganz spannendes Thema. Wir haben über Objektdetektion, segmentische Segmentierung gesprochen, wie Apple Portraits funktionieren und auch, dass man Sportler beim Fußballspielen tracken kann. Wir haben gelernt, dass eigentlich immer das Gleiche ist. Der Computer trainiert ein neuronales Netz über Daten, die in Bildern sind. Wir haben über Gesichtserkennung und Deepfake gesprochen und ich finde, das ist eine spannende Zeit und ich danke dir, dass du heute hier warst, Sebastian. Ja, und viele Grüße an die Hörer.
Sebastian Gerke: Dankeschön. Danke, dass ich hier sein durfte.