Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.
Joel Kaczmarek: Hallo Leute, hier ist Joel. Ihr wisst ja, ich bin großer KI-Fan, benutze das fleißig und ich brauche aber auch immer mal jemanden und vielleicht geht es euch genauso, der mich mal so mit den wichtigsten Updates mitnimmt. Weil ganz ehrlich, ich war jetzt knapp zwei Wochen in Vietnam, komme wieder und mein Freund Hamid sagt, Joel, hast du unterm Stein gelebt? Es hat sich schon so viel getan in Sachen KI. Also habe ich mir gedacht, hey, März 2025 ist mal wieder Zeit für ein ordentliches KI-Update. Und besagter Hamid, Hamid Hosseini nämlich, der hat eine eigene KI-Beratung namens Eco Dynamics. Und ich darf das sagen, weil er selber ist dazu zu bescheiden, voll die Maschine der Typ. Also MIT-Absolvent, kennt sich ganz tief aus mit KI-Sachen, ganz nahe Bezüge zu OpenAI. Also er kennt richtig viel Shit und wir gehen heute mal durch. Also wir nehmen euch mal mit an der Hand. Was sind so die wichtigsten Entwicklungen? Und zwar, wir werden natürlich reden über das neue Bildmodell von OpenAI, da redet ja gerade die ganze Welt drüber. Wir werden viel auch über autonome Agenten sprechen, da speziell auch Manus, also das solltet ihr unbedingt gehört haben. Plus wir gucken mal rüber nach China, was gibt's denn eigentlich so für neue chinesische Modelle, was ist mit DeepSeek. Und dann haben wir noch ein geiles Tool für euch am Ende, das No-Code-Modell N8n, das ist ja auch gerade bei vielen in Benutzung, also heute nehmt ihr richtig was mit. So, that being said, hallo Hamid, danke, dass du mich hier wieder aufschlaust.
Hamid Hosseini: Hallo Joel, ja, vielen Dank für die Einladung. Es ist immer eine Freude, mit dir Podcasts zu machen und ja, den Menschen da draußen hoffentlich auch mal ein paar Neuigkeiten zu erzählen.
Joel Kaczmarek: Gut, und wie angedroht. Also, Bildmodell OpenAI, lass uns mal damit anfangen, weil ich glaube, das ist das, womit die meisten Leute richtig geil relaten können und was ja auch gerade viele Menschen begeistert. Magst du mal so einen kurzen Wrap-Up geben, was das Modul jetzt kann, was daran anders ist und warum alle so drauf abgehen?
Hamid Hosseini: Ja klar, also grob gesagt, wir haben in den letzten Jahren, wir haben ja seit Dolly nichts mehr gehört und hatten zum Beispiel Probleme teilweise mit Halluzinationen, wenn man zum Beispiel so einen Mensch gepromptet hat, dann waren da sechs Finger da dran oder vier Beine. Oder teilweise war das auch so, dass Schriften auf irgendwelche Bilder überhaupt nicht richtig dargestellt wurden, wenn überhaupt mit mehreren Versuchen auf Englisch, aber andere Sprachen waren nicht möglich. Das heißt also, die Modelle haben tatsächlich oder das Modell hat Ein Kontextverständnis bekommen, kann also auch Schriften sehr gut darstellen, kann auch vor allem das, was in dem Prompt gefordert wird, super gut abbilden. Und da sind eine Reihe von zusätzlichen Neuigkeiten dazu gekommen, die durchaus auch, sagen wir mal, das Prompten auf der einen Seite vereinfachen, auf der anderen Seite auch viele Möglichkeiten und Optionen bieten.
Joel Kaczmarek: Also so wie ich es ja auch mitbekommen habe, haben Sie es ja von Dolly entkoppelt, so habe ich das verstanden, richtig? Also dass ich quasi aus meinem Chat heraus Bilder erzeugen kann und nicht mehr diese Anbindung brauche?
Hamid Hosseini: Richtig, genau. Normal war das so, dass mir Dolly extra angesteuert werden musste und jetzt ist es quasi ein Teil des Transformer oder neuronalen Netzes für O und Sora, beziehungsweise als Sora mit Anbindung und vielleicht ein paar Highlights dazu. Das war vorher schon vielen kreativen Menschen da draußen, die schon sehr gute Bildprompt erstellen konnten oder auch Fotografen, Fotografinnen. Das ist relativ klar. Nur jetzt ist es so, dass das auch demokratisiert wird. Das heißt also, jeder von uns oder jede ist in der Lage, auch sehr schöne Bilder zu erstellen und auch mal ein paar Tipps zu geben oder Beispiele. Ich kann halt viel mehr über die Figuren schreiben, über die Szene mit einfachen, auch wenn ich kein Know-how habe in dem kreativen Bereich. Stil, Medium, Schriften, Sprache und Charakterkonsistenz ist natürlich ein Top-Thema. Ich habe ja auch eine Zusammenfassung auf meinem LinkedIn-Profil dazu gepostet. Das heißt also, bis Anzahl der Positionen, Detailgrad und, und, und. Deshalb, ja, ich würde sagen, fast regelrecht flippt das Netz aus. Und da sieht man fast jede zwei Stunden neue Bilder, wo eine Katze gerade zum Beispiel ins Wasser guckt und das Spiegelbild ein Löwe ist oder ein Küken, was im Spiegel guckt, ein T-Rex sieht. Und das wirklich sehr detailgetreut und sehr gut. Aber auch professionelle Anwendungen mit Produkten und Schriften da drauf. Und das ist wirklich schon etwas, wo ich sage, das sind Nuancen sogar besser als mit Journey mittlerweile.
Joel Kaczmarek: Ja, ich meine, lange war es ja so, dass man auch gerade für sowas wie Midjourney so sehr spezifisch diese genauen Prompts brauchte. Und es war gar nicht so einfach manchmal zu verstehen, wenn ich jetzt was in dem und dem Look will, wie brauche ich das dann? Und also das erste, was ich jetzt mitnehme, ist diese Demokratisierung. Es ist viel einfacher geworden. Das zweite, ich brauche kein Tool mehr ansteuern. Und das Dritte, wo ich ja hellhörig geworden bin, ist das Thema Schrift. Also, dass es jetzt endlich auch mal funktioniert, dass da geschrieben Inhalte draufstehen, weil das war ja bisher ein einziger Krampf. Wenn du mit KI Bilder erzeugt hast und irgendwas mit Text drin hattest, da hat man sich immer bis heute sehr geschickt, sag ich mal, mit enttarnt.
Hamid Hosseini: Ja, das hat auch zum Beispiel, kannst du damit jetzt Kinderbücher erstellen, in denen du Charakterkonsistenz hast bei deinen Figuren und auch die Schriften immer die gleichen. Art und Weise dargestellt werden. Und das ist natürlich eine coole Sache, aber auch in der Industrie. Das heißt, für die Unternehmen, für die Menschen da draußen bedeutet das, dass in sehr vielen Bereichen kann man auch wirklich mittlerweile auch professionelle Bilder erstellen.
Joel Kaczmarek: Wenn man jetzt, sag ich mal, wie ich zwei Wochen unterm vietnamesischen Stein geschlummert hat, kannst du mal den Menschen so beschreiben, wenn ich jetzt genau sowas machen möchte, was du gerade beschrieben hast? Ja, sagen wir mal Kinderbuch, weil das ist so einfach und das kann man von da aus ja ganz schnell übertragen auf, ich mach eine Broschüre für die Firma oder oder. Was müsste ich tun, damit ich diese Charakterkonsistenz gerade hab auch? Weil das ist ja super spannend, wenn ich jetzt sagen kann, alles klar, ich will jetzt irgendwie drei, vier, fünf Storys erzählen, vielleicht auch für Slides. Wie gehe ich vor? Also was ist so der typische Ablauf, wenn ich jetzt mit diesem neuen Bildmodell arbeiten will?
Hamid Hosseini: Also normaler Ablauf ist wirklich, so wie du es schon gesagt hast, mit Journey war das ja, erforderte das sehr viel Kreativwissen und Detailwissen an Fotografie und Aufnahmen, Objektiv, Brennpunkt, was auch immer. Und wenn jemand sich damit auskannte, konnte man nicht diese Bilder erstellen. Und der Ablauf ist relativ simpel. Das heißt, idealerweise würde ich fast schon sogar Chat-GBD fragen, was muss ich imprompten? Das heißt also wirklich die Narrative, die Geschichte erzählen. Nehmen wir mal an, wir wollen jetzt ein Kinderbuch erstellen und dann die Figuren beschreiben. Das heißt so, um wem handelt es sich? Wie stellt man sich diese Figur vor? Dann idealerweise, in welcher Handlung passiert das Ganze? In welcher Szene? In welchem Stil will ich das darstellen? Soll das zum Beispiel fröhlich sein? Soll das vielleicht auch einfach sehr bunt sein oder einfach in einem Wald oder was auch immer? Das heißt, ich kann über die Farbenstimmung eine Menge schreiben, über Licht und Kamera, auch wenn ich jetzt nicht weiß, wie ich jetzt gewisse Kamerawinkel und Licht und Objektive bedienen kann. kann ich auch einfach mal meine Vorstellungskraft als Laie sogar zum Ausdruck bringen. Und dann kann ich Szene für Szene diese Prompts erstellen und diese Prompts dann auch einzeln die Bilder generieren und sagen, okay, lass uns mit dem Handlungsstrang beginnen und behalte diese Charakterkonsistenz. Die Figuren, die da vorkommen, müssen immer gleich aussehen. Und dann muss man so ein bisschen Geduld mitbringen, weil das Modell ist im Moment nicht so schnell. Deshalb kann ich dann wirklich Szene für Szene das darstellen und abbilden. Und Joel, wir können ja dann im Anschluss, ich würde sagen so Anfang nächster Woche spätestens, bringe ich dann auch gerne mal so eine Empfehlung als Promptstruktur, was man da alles beachten kann im Vergleich zu den anderen Modellen.
Joel Kaczmarek: Kann man denn in der Richtung auch was mit GPTs machen? Also es ist ja teilweise so, ich gebe so GPT-Daten mit und sage, pass mal auf, deine Rolle ist gerade dies, du sollst das und das machen. Ich kann auch teilweise Dateien hinterlegen, wenn ich zum Beispiel eine bestimmte Sprache bei meinen Inhalten möchte. Und sagen wir mal, ich bin jetzt jemand, der zum Beispiel ein Foliendecke bauen möchte für die eigene Company und ich brauche immer wieder so PowerPoint-Folien und da soll jetzt meinetwegen ein kleiner Avatar von mir drauf sein. So, und dann hattest du diese Charakterkonsistenz ja gerade genannt. Wie ist es denn möglich, weil normalerweise laufen die Chats ja irgendwann voll. Also irgendwann, wenn du sehr viele Inhalte erzeugt hast, dann ist ja irgendwann Schicht. Und ich möchte vielleicht aber jetzt so ein Charaktermodell von mir erzeugen oder von einer Figur aus meiner Firma, was ich immer wieder ansteuern kann, dass ich quasi so einen Anlaufpunkt habe. Geht das über GPTs oder wie würdest du sowas zum Beispiel umsetzen?
Hamid Hosseini: Ja, das geht. Also zu vereinfachten Modellen geht es über GPTs. Es gibt jetzt schon, seitdem das Bildmodell rauskam, einige, die schon coole GPTs sogar gepostet haben im LinkedIn. Da hat zum Beispiel jemand einfach so ein GPT gebaut, was fotorealistische Bilder aufstellt und übernimmt dann diese Instruktion. Ich kann auch dem Bilder zur Verfügung stellen als Referenz, da empfehle ich, aber ich habe es gestern Abend auch nochmal getestet. Im Prompt dann nochmal dem Modell ein paar Beispiele zu geben, aber das geht schon, klar, auf jeden Fall. Das heißt, dass ich sage, ich brauche jetzt ein GPT, was nur Bilder für LinkedIn erstellt, ein GPT, was nur für Events Bilder erstellt oder für quasi Charakterkonsistenz auch als fotorealistische Avatare für eine Präsentation.
Joel Kaczmarek: Kann ich denn eigentlich auch künstliche Bilder von mir erzeugen? Also kann ich irgendwie fünf oder zehn Fotos von mir hochladen und sagen, hier, so sehe ich aus, mach mal bitte mehr von mir?
Hamid Hosseini: Das geht wirklich mittlerweile ziemlich einfach sogar. Das heißt, du kannst Bilder hochladen und sagen, ich hätte das, was weiß ich, in Form von japanischen Comics oder was auch immer. Das ist schon ziemlich abgefahren. Knaller.
Joel Kaczmarek: Gut. Nächstes Thema. Autonome Agenten. Also vielleicht machen wir nochmal einen kleinen Rückschritt und erzählen erstmal den Menschen, was es damit auf sich hat, bevor wir dann über die unterschiedlichen Anwendungsfälle reden, die sich da gerade neu auftun.
Hamid Hosseini: Also im Grunde genommen ist ja ein Agent nichts anderes als ein bisschen Instruktion. Man sagt ihm einfach, was er zu tun hat. Das kennen wir auch von GPTs. Dann können die halt ein bisschen mehr, wenn die zum Beispiel diese Agenten in der Lage sind, um Informationen zu bekommen oder halt Feinabstimmung durch Verhalten zu bekommen. Das kennen wir auch von GPTs. Dabei erhalten sie zusätzliches Wissen. Dann haben manche dieser Agenten ja schon vorher durch API-Zugriffe Zugriff auf Applikationen gehabt. Und jetzt ist ja in den letzten Monaten oder seit einem halben Jahr hat sich da enorm was entwickelt. Das heißt, diese Autonomie in Verbindung mit den Reasoning-Modellen, die ja quasi diese Denkschritte ein Stück weit emulieren, führt dazu, dass man halt diesen Modellen zum einen ein längeres Kontextfenster geben kann für die Erledigung der Aufgaben. Das heißt, man kann ihnen einen Research-Auftrag geben oder baue mir eine Applikation oder erstelle mir irgendwie ein Modell, was weiß ich, eine Studie oder so, dann sind diese Modelle in der Lage, quasi mehrere Dinge miteinander zu kombinieren. Das heißt, den Browser zu bedienen, auf Tools zuzugreifen, Datenbanken öffnen, weil im Grunde genommen machen die ja auch ein Virtual Machine auf, ein Browserfenster und versuchen erstmal zu erkennen, was auf der Seite los ist. Dann bedienen sie diese Elemente, das haben wir auch bei dem Operator gemacht, von OpenAI als Demo gesehen. Das heißt, das ist eine Zusammensetzung aus verschiedenen Tools, aus verschiedenen Möglichkeiten mit einem relativ großen Kontextfenster. Kontextfenster ist nichts anderes als, also was du gemeint hast, dass der Speicher überläuft. Das heißt, die können meistens längere Aufgaben erledigen. Und das Autonome ist halt, dass sie wirklich nicht permanent gepromptet werden müssen. Die geben sich Aufgaben, die brainstormen, Überlegen, was wirklich gefordert ist. Man kann jederzeit eingreifen, geben sich vielleicht 10, 20, 30 Aufgaben. Teilweise dauert auch die Erledigung manchmal mehrere Minuten, manchmal sogar ein paar Stunden. Und das ist die Besonderheit, die relativ einfach erklärt das Ganze ausmacht.
Joel Kaczmarek: Okay, also um mal in so Anwendungsfällen zu reden. Ich nehme jetzt einen Agenten, der ist autonom und gebe dem zum Beispiel als Aufgabe, recherchiere doch mal für mich Targets im Sales-Bereich. Also ich will irgendwie Firmen haben, mit denen ich ansprechen kann und dann kann ich von da aus das ja weiter treiben, schreibe mir irgendwie eine Kalt-E-Mail oder kontaktiere die Person schon mal auf LinkedIn oder, oder, oder. Das heißt, die haben so dieses Reasoning, die können den Browser bedienen und die können Tools bedienen.
Hamid Hosseini: So.
Joel Kaczmarek: Jetzt fragen sich sicherlich der eine oder die andere auch, die sich damit noch gar nicht beschäftigt haben, wo ist denn die Umgebung dafür? Also wo kann ich mir so einen autonomen Agenten bauen? Wie mache ich das? Und dann können wir uns von da aus ja mal weiterhangeln, unbedingt auch zu Manus, was ja so ein spannendes Tool da gerade in dem Bereich ist.
Hamid Hosseini: Ja klar, ich meine, das hat man ja schon vor ein paar Monaten gesehen durch Deep Research von Perplexity oder auch Deep Research von Google oder auch von OpenAI, dass ja die Modelle in der Lage sind, nicht nur einen Suchauftrag zu erledigen, sondern die gucken sich mehrere Websites an, vergleichen dann die Inhalte mit dem Suchauftrag und da konnte man ja schon etwas ausführlichere Suche oder Suchaufträge ausführen. Allerdings auch da trotzdem bitte immer Vorsicht, ab und zu mal Stichproben machen, Und die sind auch nicht immer noch nicht 100% perfekt, weil die können teilweise jetzt nicht zig, unendlich viele Quellen untersuchen, aber man muss schon sagen, das hat sich in den letzten Monaten oder Wochen enorm verbessert, also dass man schon bis zum gewissen mittleren, bis hohe Qualität schon Research-Aufträge ausführen kann. Und wo kann ich das aufsetzen? Also zum einen, die gängigen sind ja einmal der Operator von OpenAI. Das ist ja quasi nichts anderes als ein Agent, der in der Lage ist, in einem Virtual Machine einen Browser zu bedienen. Also das fängt bei einfachen Sachen an, wenn ich zum Beispiel fürs Wochenende beim Thailänder einen Tisch reservieren will und zwei Lieblingsrestaurants habe zu einem bestimmten Zeitfenster und sogar die Reservierung noch nicht mal maschinell läuft, sondern über ein Formular, das kann ich zum Beispiel damit machen. Aber nicht nur jetzt für einfache alltägliche Sachen, sondern für berufliche Zwecke kann ich als Beispiel sogar den LinkedIn Sales Navigator damit bedienen. Ich kann, wie du so gerade auch gefragt hast in deinem Auftrag, was ja echt cool ist, Da kann ich zum Beispiel sagen, okay, such mir die Top-Kunden, die für mich in Frage kommen. Das segmentiert die Leads und schreibt sogar die Mails, wenn ich will. Und kann sogar mein Mail-Postfach beantworten. Was anderes als Alternative neben dem OpenAI ist natürlich Perplexity. Die haben auch solche Such-Agents und Research-Agents. Ist auch eine ziemlich gute Qualität dahinter. Da schreiten sich manchmal die Leute im LinkedIn und sagen mal, dies ist besser und das andere besser. Ich habe jetzt, sagen wir mal, nicht nur aufgrund meiner Kontakte zu OpenAI, sondern generell bin ich halt von OpenAI derzeit da ein bisschen mehr überzeugt. Google macht da einen guten Job. Die haben auch einen autonomen Research Agent. Aber wenn es dann darum geht, mehrere Tools und so Dinge wie Programmcode oder Tools zu bedienen, noch komplexere Aufgaben auszuführen, da muss man sagen, zum Beispiel für Programmierung ist lovable. Hört man ja auch immer wieder in den Netz. Excellent, das kann so einfache bis mittelkomplexe Applikationen erstellen, kann jetzt nicht so SAP-Kram machen oder so, aber schon da aktiv werden. und natürlich Manus, über den wir ja schon seit Wochen irgendwie was gehört haben, das kann man da auch testen. und sollte das einem nicht reichen, kann man natürlich selbst mit No-Code oder Low-Code was bauen.
Joel Kaczmarek: Und vielleicht nochmal abschließende Frage dazu. Vielleicht hat der eine oder auch die andere ein bisschen Sorge. Kann ich so ein Ding wirklich auf mein Mailfach zugreifen lassen oder in meinem Namen Sachen rausschicken? Wie zuverlässig findest du insgesamt so die Qualität?
Hamid Hosseini: Also solange, ich kann es ja beobachten, weil ich sehe ja immer, was in dem Browser los ist. Wenn ich zum Beispiel Manus oder auch Operator auf mein LinkedIn-Postfach oder auch Web-Postfach zulasse, dann kann ich ja genauso, was wir beim Prompting gelernt haben, achte bei dem Ton auf das. Oder bevor du die Mail sendest, warte auf mein Go. Und das Ding wartet dann nicht nur wie beim Prompting und Promptausgabe, sondern wartet wirklich, bevor es dann auf Absenden klickt, bis ich dann sage, es ist in Ordnung.
Joel Kaczmarek: Gut, jetzt hast du eben Manus schon mal erwähnt. Also da sind ja viele Leute heiß drauf. Da werden ja teilweise auch signifikante Beträge gezahlt dafür, dass man da Zugänge bekommt. Erzähl mal ein bisschen was von dem Tool.
Hamid Hosseini: Ja, das war ziemlich überraschend. Ähnlich wie bei DeepSeek, was auf einmal so ein Sprachmodell ist, was so um die Ecke kam, was aber schon vorher auch über einige Zeit und Jahre in der Entwicklung gebraucht hat, war Manus auch nichts anderes als wirklich, da muss man sagen, zwei oder einige kluge Köpfe aus China, haben sich zusammengetan und haben gesagt, Moment mal, es gibt ja eigentlich viele Tools. Also es gibt Tools, wie man quasi durch den Agent einen Browser bedient. Es gibt ein Tool, wo ich auf Datenbanken zugreifen kann. Es gibt ein Tool, wo ich coden kann. Es gibt ein Tool, wo ich komplexe Suchabfragen durchführen kann. Also sind die auf die Idee gekommen, haben gesagt, so, ja, wir nehmen so die 20, 30 Tools und packen die in einem Gesamttool zusammen und einem Sprachmodell und bauen daraus Manus. Und daraus ist Manus entstanden. Das heißt, es ist Benutzt verschiedene Sprachmodelle, verschiedene Tools, verschiedene Komponenten, über die ich sprach. Und Manus, tatsächlich gab es da einen Hype drum. Also die fingen an wirklich da irgendwie 500 bis 5.000, 10.000 Euro wurden die Accounts gehandelt. Ich habe heute gesehen, dass man die mittlerweile abonnieren kann. Ich vermute, das müsste wahrscheinlich schon frei sein. Und da ist es wirklich schon ziemlich gut, weil ich habe einige Research-Aufträge damit erstellt, ein paar Mini-Applikationen erstellt. Und das war, da muss ich sagen, also trotz der Fehler manchmal, die da passieren oder auch Halluzinationen, ist das Modell im Moment wirklich fast schon ein Killer, kann man sagen. Also zum Beispiel Kundenrecherchen, Ansprechpartnerrecherchen, zwar sehr gründlich, ist alles sehr gut gelungen. Kleine Applikationen zu erstellen, sehr gut gelungen. Also schon erstaunlich, muss ich sagen.
Joel Kaczmarek: Und sag mal, du hast ja eben schon erzählt, wieder ein chinesisches Unternehmen. Wir in Deutschland achten ja immer auf den Datenschutz. Würdest du mit so einem Tool arbeiten jetzt als deutsches Unternehmen, sofern du denn zu den Glücklichen mit einem Zugang zählst?
Hamid Hosseini: Wenn man das googelt, findet man das. Sonst können wir auch den Link dann später in der Beschreibung mitliefern. Das heißt, man kann es auch on-premise laufen lassen. Aber für alles, was extern ist oder auch Applikationen, wo ich dann auch beobachte und den Code sehe oder auch die Tools, die da bedient werden, da mache ich mir erst mal keinen Kopf, innerhalb einer kritischen Anwendung und Infrastruktur sowas einzusetzen. Ich würde sagen, das bedarf noch ein Security Audit und Review, ähnlich wie bei DeepSeq. Viele sagen, das ist egal, das kann man lokal betreiben. Ich weiß es nicht. Also ich sage mal, da sollte man noch ein bisschen vielleicht zumindest mal gucken, wie sicher sind diese Modelle wirklich. Mhm.
Joel Kaczmarek: So, und speaking about Deep Seek, also China, unser Thema ja heute auch zum großen Teil, weil, also A, finde ich mal interessant, was hast du noch so für einen Blick auf Deep Seek? Wie haben die sich jetzt so entwickelt, nachdem so wie Phoenix aus der Asche kam? Und dann hat sich ja einiges getan, weil Alibaba hat ein eigenes Modell mit rausgebracht, Tencent, also da kommt ja ganz schön was hin. Fangen wir mal mit Deep Seek an. Was ist so dein Blick da drauf gerade? Wo stehen die?
Hamid Hosseini: Ja, also ich meine, das ist schon mittlerweile, ich habe den Eindruck, dass sie schon so nach und nach ankommen. Das heißt also, man sieht die immer mehr in dem Umfeld, wo auch Anbieter wie Azure oder Microsoft auch die mittlerweile auf ihrer Plattform anbieten. Es gibt Applikationsanbieter, die auch das alternative Modell zur OpenAI anbieten. Ich gehe immer davon aus, mit einem gewissen Restrisiko bezüglich Sicherheit wird das langsam schon irgendwo ernstzunehmendes Modell, was man auch immer im Rahmen der Auswahl von diesen Modellen berücksichtigen muss. Spannend ist halt, wie du so schon gesagt hast, von Alibaba kam ja Gwen raus, aber auch, ich glaube, was noch viel lustiger ist, ist Tencent. Also es war fast schon Affront aus meiner Sicht. Die haben zwei Sprachmodelle rausgebracht. Das Ernie 4.5, was ausgerechnet auch die Versionsnummer, wie bei OpenAI ein GPT-4-5 hat. Und naja, die haben halt behauptet, dass sie in den Evaluationen und Bewertungen die gleichen Werte wie 4-5 erreicht haben. Ich habe noch kein Paper dazu gesehen. Kann sein, dass es mittlerweile veröffentlicht ist. Und zusätzlich noch haben die ein Hunian, ich muss es immer aufpassen, wenn man es ausspricht, ich glaube Hunian, TR-1 ist halt auch ein Modell, was es derzeit mit dem O-1-Modell und Deep-Seek-R-1-Modell aufnimmt. Das ist von Tencent. Also ich sage mal, von Tencent und Alibaba wird da auch richtig laut gemacht und ich würde es fast schon als Krampfansage sowohl innerhalb China als auch international sehen.
Joel Kaczmarek: Jetzt mal ehrlich, also es war ja schon bei DeepSeek eigentlich, darf man als sehr wahrscheinlich nehmen, dass da Wissensdiebstahl auch stattgefunden hat. Wie ist es bei den beiden? Also lässt ja einen irgendwie auch aufhorchen. Gibt es irgendwelche Konsequenzen mal? Was vermutet man da? Weil es ist ja nicht so, dass man solche Modelle aus dem Nichts herstellt so schnell.
Hamid Hosseini: Natürlich nicht. Also Ernie hat eine lange Historie. Also Version 4.0 oder 4.5 ist ja jetzt nicht so, dass es wirklich so um die Ecke kam. Ich fand es halt nur lustig, dass sie ja noch als Affront eine ähnliche Versionsnummer nehmen oder halt die Modelle auch so bezeichnen. Also Tenzin und Alibaba forschen ja schon länger an solchen Modellen. Wir hatten ja eine Folge zum Thema die Psyche. und bei den Modellen kann man das nicht so richtig sehen oder behaupten, weil man merkt schon, dass sie teilweise sehr stark sind, zum Beispiel in Mathematik und sonstige Aufgaben, aber zum Beispiel in Sprachqualitäten, wenn man die mal testet, dann merkt man schon, dass es ein bisschen holprig ist. Ich könnte mir vorstellen, dass entweder man aus den anderen Kollegen gelernt hat und versucht nicht die Fehler zu machen, dass das Modell sagt, ich bin eigentlich ein GPT-4-Modell, sondern ich könnte mir vorstellen, dass es schon was gelernt hat. Und man muss auch wirklich verstehen, dass sowohl Tencent als auch Alibaba, das sind Unternehmen, die ja weltweite Ökosysteme betreiben. Das heißt also, es liegt auch nahe, dass sie auch ohne möglicherweise einen IP-Verstoß haben. sehr gut ihren Job gemacht haben.
Joel Kaczmarek: Gab es denn eigentlich, Stichwort IP-Verstoß, mal irgendwelche Konsequenzen in der ganzen Diebsig-Angelegenheit? Weil wir hatten es ja in der letzten Folge auch, was wir dazu hatten, die du gerade, können wir nochmal in die Shownotes packen, da haben wir ja drüber gesprochen, dass es teilweise halt auch relativ einfach möglich war, kannst dich gar nicht viel großartig gegen wehren, du fragst so ein Modell ab, was weißt du zu dem Thema, was weißt du dazu, was weißt du dazu, das machst du halt sehr lange, sehr intensiv und dann hast du quasi einen großen Datenschatz schon mal abgegriffen. Gab es da eigentlich mal irgendwelche Konsequenzen?
Hamid Hosseini: Also ich habe das ehrlicherweise nicht so richtig verfolgt. Ich glaube, bis auf einige Dinge, die ich jetzt wahrgenommen habe, waren jetzt Parolen und auch ernsthafte Aussagen. Aber was natürlich als Konsequenz galt, war natürlich, dass Open Air quasi den Saft abgedreht hat und einfach in bestimmten Ländern da die Ports zugemacht hat. Und hier, ob das jetzt weitere Klagen oder so gab, das muss man nochmal googeln und schauen.
Joel Kaczmarek: Na gut, to be continued. Abschließend möchte ich mit dir gerne noch ein Stück weit über N8N reden. Also dieses No-Code-Tool fällt ja so in die gleiche Ecke, sag ich mal, was wir mit den autonomen Agenten auch schon mal hatten. Also du bist da sehr begeistert von und machst natürlich ein ganz spannendes Szenario auf in Richtung Automatisierung auch. Weil viele Menschen machen das ja bis dato mit sowas wie Make.com oder vielleicht auch Zapier. Und das Ding macht aber auch nochmal ganz neue Ecken auf, die da möglich werden. Erzähl doch mal ein bisschen was davon.
Hamid Hosseini: Ja, das ist echt ein guter Punkt, Joel, weil viele Firmen, die übrigens Zapier einsetzen, sind sich gar nicht bewusst, dass falls sie das im Rahmen von schutzbedürftigen Daten einsetzen, dass es fast schon ein Verstoß gegen DSGVO ist. Das vielleicht mal als kleiner Hinweis am Rande. Make ist ein europäisches Unternehmen, sind sogar DSGVO-konform. Kann man sich gar nicht vorstellen, ist aber so. Und ähnlich wie bei Power Automate von Microsoft sind das ja alles Unternehmen, quasi Automatisierungstools, die auch halbwegs Agent-Funktionalitäten jetzt eingebunden haben, Chatbot-Funktionalitäten und so. N8n ist aus meiner Sicht echt der Knaller, weil die verfolgen einen ganz anderen Ansatz. Es ist jetzt nicht so ganz leicht zu bedienen. Man muss so ein bisschen auch von den Variablen verstehen, aber da gibt es wirklich sehr viele YouTube-Videos im Netz. Aber was ich daran sehr cool finde, ist halt, dass da vor allem diese Instruktionen und Agent-Funktionalitäten im Vordergrund stehen. Das heißt, also jetzt nicht nur Workflows und Automatisierung abbilden, sondern die legen extrem viel Wert darauf, dass die Instruktionen und Funktionsweisen von Agents dort abgebildet werden. Das hat halt zur Folge, dass ich zum Beispiel Automatisierung nicht nur über Workflows abbilden kann, sondern zum Beispiel, wenn ich sage, ich habe hier Mails, da habe ich jetzt irgendwelche Sachen, die ich aus dem Transkript, aus dem Podcast nehme oder Bilder, dann kann ich verschiedene Agents für diese Automationen erstellen. Und diese Agents haben ihre eigenen Speicher. Dann habe ich auch nicht diese Rack-Probleme und so. Die kann ich orchestrieren und ich kann wirklich Content-Fabriken bauen und das wirklich par excellence und sehr einfach und wirklich verbindlich. Und das Coole ist, das ist Open Source. Also ich kann es auch bei mir im Rechenzentrum betreiben und das ist wirklich echt cool. Ich empfehle da wirklich mal einen Blick reinzuwerfen.
Joel Kaczmarek: Okay, also dürfen wir uns mal ganz kurz nochmal vergegenwärtigen. Wir können also mehrere Agenten miteinander kombinieren. Es ist open source, frei verfügbar. Ich kann es also on-premise bei mir privat sozusagen, in Anführungsstrichen privat betreiben, vor Ort. Und dann quasi diesen ganzen Aspekt mit dem Speicher, was du gerade gesagt hast. Also sie haben sozusagen sehr hohe Kapazität auch, die ich mir dann da anlegen kann. Das klingt ja manchmal fast ein bisschen zu gut, um wahr zu sein. Weil das andere Thema, was wir vielleicht da nochmal anschließen könnten, ist ja, was ist denn, wenn ich jetzt, genau wie du beschrieben hast, sag ich mal, in hoher Masse mit Daten arbeite? Weil das ist was, was ich von dir auch so gelernt hab, dass Massendaten bei sowas immer so ein bisschen tricky sind. Und jetzt hier ganz viele sagen, ah, der Hamid hat gesagt, ich geh mal zu N8N und schalt mir das mal alles auf. Funktioniert das denn schon zuverlässig? Ist es gut? Hast du da noch Tipps zu?
Hamid Hosseini: Also vielleicht schon mal zu N8N. Tatsächlich ist es zu schön, um wahr zu sein, weil die haben auch ein Preismodell dahinter. Das heißt also je nachdem, was man da auch benutzt, auch die On-Premise-Lösung unterliegt auch einem Lizenzmodell und so. Wenn ich auch das Modell online nutze, muss ich natürlich Lizenzgebühren abführen und, und, und. Ein paar kleinere Geschichten kann ich auch umsonst testen. Jetzt zu deiner Frage in Bezug auf Datenvolumen. Tatsächlich ist es so, dass aufgrund der Erfahrungen, die wir jetzt vor allem in den letzten anderthalb oder einem Jahr gemacht haben, nämlich Umgang mit großvolumigen Daten. Ich bin so ein bisschen von diesen Rack-Ansätzen, ich würde es fast sagen, enttäuscht, wenn es in Richtung Gigabyte oder Terabyte von Daten geht. Warum ist das so? Weil Man muss da wirklich mit diesen sogenannten Chunks, das sind Abschnitte von Daten oder Zusammenfassungen, sehr viele Dinge versuchen drumherum als, ich sage mal, Bypass zu bauen. Und da hat man immer noch keine hundertprozentige Sicherheit wegen Datenverlust, Halluzinationsverlust und Akkuratheit oder sehr, sehr viele Applikationen drumherum erstellen. Und wir stellen halt fest, immer wenn es in diesem größeren Datenvolumen geht, dann gibt es immer Probleme mit dem Context-Window. Da ist im Moment so, auch diese ganze Geschichte mit Vektoren und Graphen. Ja, was sind Vektoren? Vektoren sind halt die elementaren Denkmodelle bei den LLMs. Und Graphen beschreiben die Beziehungen. Da kommen auch welche, die neue Theorien entwickeln. Das ist immer so schön, wenn man so diese Posts liest und die Studien liest, aber die brettharte Realität zeigt. Das ist nicht so. Und da ist meine Empfehlung tatsächlich, solche Orchestrationsmodelle anzuwenden, zu überlegen, wie viele Anwendungsfälle habe ich, kleinere Datenmengen mit einzelnen Agents zu bedienen, bis halt das Thema der Speicherverarbeitung und Akkuratheit und Halluzinationsverlust und Context-Window, also Speicherüberlauf bei den Modellen gelöst ist. Und das heißt, ich baue mir halt eine Army of Agents ein, Und die übernehmen unterschiedliche Aufgaben und dann gibt es halt, ähnlich wie so eine Führungsstruktur, Teamleiter, Teamleiterin, Oberagent oder Agentin, die dann halt da irgendwie untereinander kommunizieren. Das bedeutet, dass ich im Grunde genommen fast eine Abteilung oder eine ganze Company sogar damit automatisieren kann.
Joel Kaczmarek: Ich wollte gerade fragen, das ist so. meine letzte Frage, bei dem, was wir jetzt alles über autonome Agenten von dir gehört haben, klingt das für mich so, als wenn ich ganze Vollzeitkräfte mittlerweile dann durch KI abbilden kann.
Hamid Hosseini: Naja, solange die jetzt nicht Menschenkontakt haben und nur Content produzieren, ja, bis zu einem gewissen Grad. Und übrigens für die Enterprise-Zuhörer, Zuhörerinnen empfehle ich sogar Crew AI. Das ist dann sogar noch professioneller als N8N. Und tatsächlich, wenn ich gewisse Jobs, wo ich jetzt nicht unbedingt Kundenkontakt brauche, es kommt aber auch mit den Voice-Ansätzen und so, da gibt es ja schon bereits einige Agents, dann kann ich schon einen signifikanten Anteil einer Abteilung oder einem Unternehmen durch diese Agenten komplett laufen lassen.
Joel Kaczmarek: Krass. Also, hat sich ja wirklich einiges getan, seitdem ich weg war. Lieber Hamid, vielen Dank fürs Update und bis zum nächsten Mal.
Hamid Hosseini: Gern geschehen, hat Spaß gemacht.