News AI 41/25 –

Sora // OpenAI AgentBuilder // Apps in ChatGPT

09.10.2025

// Podcast
// News AI 41/25

Shownotes

Die „programmier.con 2025 - Web & AI Edition“ findet am 29. und 30. Oktober 2025 statt. Sichert euch jetzt Tickets für die Konferenz auf unserer Webseite!

Apps
OpenAI hat auf dem DevDay eine neue Möglichkeit vorgestellt, Apps direkt in ChatGPT zu integrieren.
Über eine Abstraktionsschicht auf Basis von MCP können externe Tools als Apps eingebunden werden – inklusive eigener Design Guidelines, die definieren, wie sich diese Apps im ChatGPT-Interface verhalten und präsentieren sollen.

AgentKit
Mit AgentKit bringt OpenAI ein Framework für die Erstellung eigener AI Agents. Dazu gehören mehrere neue Werkzeuge:

AgentBuilder: Node-basierte Oberfläche zum visuellen Erstellen von Agent-Workflows
WidgetBuilder: Tool, um HTML-Widgets als Output der Agents zu erzeugen
ChatKit: Framework für ein eigenes Chat-Interface auf Basis dieser Agents

Sora 2
Das neue Video-Generierungsmodell Sora 2 kann deutlich realistischere Videos erzeugen – mit physikalisch korrekten Bewegungen, passender Tonspur und konsistenter Charakterdarstellung.
Über die neue Sora Social App lassen sich außerdem eigene „Cameos“ erstellen, um sich selbst als Figur in generierten Videos einzufügen.

Fabi und Dennis fassen die wichtigsten Ankündigungen vom DevDay zusammen und sprechen darüber, welche Rolle diese Neuerungen künftig für die AI-Entwicklung spielen könnten.

Download

/transkript/programmierbar/news-ai-41-25-sora-openai-agentbuilder-apps-in-chatgpt

Dennis: Hallo und herzlich willkommen zu 1 neuen AI News in der programmier.bar. Wir haben die Kalenderwoche 41 im Jahr 2025, wie schnell es doch alles geht. Wir sprechen heute über den Open AI Dev Day und Sora, noch mal 'n bisschen tiefer, war zwar auch Teil des Dev Days, aber wohl auch vorher schon vorgestellt. Ich bin Dennis Becker und bei mir sitzt Herr Fabi Fink. Hello. Und was, glaub ich, leider leider eine Premiere ist,
Fabi: Wirklich eine Premiere, ne?
Dennis: Ja, dass wir heute Philipp Schmid nicht am Start haben, haben wir, glaub ich, das letzte Mal aber immerhin angekündigt, dass es so sein wird. Denn er hat wohlverdienten Urlaub und ist in Japan unterwegs. Von daher viele Grüße an dieser Stelle an Philipp und ja, jetzt sind wir beide mal hier.
Fabi: So hat er auch mal Urlaub, ne, sonst war immer 1 von uns beiden nicht da. Ja. Jetzt ist der liebe Philipp. Da war in 2 Wochen wieder.
Dennis: Genau. Und
Fabi: in 2 Wochen ist auch Spaß zu weit dann für die Programmierconne. Da sehen wir uns ja auch mal wieder in Persona. Ja. So, ich weiß, ja. Ja. Ist das dann die Woche, in der wir einiges machen? Nee. Eine Woche davor. Ja. Und 2 Wochen näher einiges und die Woche danach Programmiercon. Genau. Okay. Das heißt, noch einmal remote und dann in Persona.
Dennis: Genau. Und da hatten wir nämlich auch heute noch Diskussion, ob wir denn überhaupt in der Woche der Konferenz es schaffen, eine Folge aufzunehmen für die News. Aber wir haben uns für ja entschieden.
Fabi: Im Zweifel immer ja. Im Zweifel ja.
Dennis: Ja. Gut. Ja, wir wollen heute 'n bisschen einen Fokus setzen auf Neuigkeiten von Open AI und am Montag, dem sechsten Oktober gab es den Dev Day 2025. Und ja, da hat Open AI wieder eine Reihe von Produkten und Features vorgestellt. Gab eine Keynote von ja, Sam Altman und anderen, die dann Sachen präsentiert haben, die ungefähr eine Stunde, glaub ich, ging. Ja. Und ja, oder einfach son bisschen Neuigkeiten gezeigt haben. Und Du hast, glaub ich, noch 'n bisschen mehr Details dann auch später zu Sora two.
Fabi: Genau, das haben wir vorher vor der Dev Day released zwar. Wirst Du gleich dazu noch mal sagen, dass Sora das Modell jetzt auch in der API gibt. Das haben sie dann auf den Dev Days announced, aber Sora Two war eigentlich separat zu dem Dev Day. Und genau, begonnen mit der Keynote, dann gab's ja, glaub, State of the Union auch, also wär 'n ganzer Tag. Und später gab's ja noch mit Johnny Johnny Ives Ive ein Q und a, ja, und son bisschen Diskussion darüber, wie's da wohl weitergehen mag.
Dennis: Hast Du da reingeguckt?
Fabi: Nee, nur 'n paar Kommentare daraus gelesen. Also selbst das das Q und a selbst hab ich jetzt nicht gesehen. Ja, die Keynote schon.
Dennis: Ja. Genau und vielleicht 3 große Zahlen, die Sie am Anfang so plakativ auf Ihre Folien gepackt haben, die auf jeden Fall ganz spannend sind. Und auch dann im Vergleich waren zu den Dev Days der letzten beiden Jahres, ja auch irgendwie so krass, ne. Jetzt ist eine riesige Halle, eine riesige rigiges Venue und vor 2 Jahren glaub ich saßen die noch irgendwie da so ein bisschen hemdsärmel an ihren Laptops und haben ein paar Sachen präsentiert. Also die schnell auch so was skalieren musste in der Firma, irgendwie dann auf einmal so große Konferenzen schmeißen zu können. Aber ja, 4000000 Entwickler*innen haben jetzt schon mit Open AI etwas entwickelt. Und wir natürlich auch frei zu interpretieren, was das bedeutet, aber Auf jeder, der die
Fabi: der die API konsumiert, schon ein Entwickler ist und damit was entwickelt hat?
Dennis: Wahrscheinlich, ja, wahrscheinlich. Obwohl 4000000 trotzdem eine große Zahl ist. Bei JettcipT Usern sind wir mittlerweile bei 800000000 angekommen. Ja. Da war die Prognose die Milliarde dieses Jahr, ne.
Fabi: Das war bei den Zahlen hab ich gar nicht so genau aufgepasst, da dacht ich, na
Dennis: ja, irgendwie. Ja, okay.
Fabi: Die 8 1000000, die sind mir hängen geblieben.
Dennis: Ja, auf jeden Fall. Die war keine Frischprognose von der Devly, sondern irgendwann gab's noch mal diese, die Prognose, die Du auch, glaub ich, mitgebracht hattest oder wo sie über die Zahlen gesprochen haben, wo sie, wo sie sich da sehen. Aber egal, aktuell 800000000 Weekly Chat GPT User und 6000000000 Token pro Minute über die API. Irgendwie, Also auch schwer vorstellbar in diesen Zahlen immer, irgendwie in diesen Zahlenräumen, aber so pro Minute 6000000000 Token, scheint schon eine Menge zu sein.
Fabi: Haben Sie doch auch dann irgendwie diese Danksagung an die Entwickler, die sozusagen Großes damit entwickeln und sie wurden einfach nur eingeteilt in ihre Tokenusage sozusagen. Und da gab's, glaub ich, 10 Stück, die in der Kategorie waren, also eine Billionen Token, die sie wohl als Entwickler mit den Produkten, die sie entwickelt haben, an Music hatten.
Dennis: Ah, ja,
Fabi: ich hab
Dennis: die ich hab das überhaupt nicht verstanden in die Folie, okay. Sehr Das wär ja, das wär ja, alles klar.
Fabi: So, Sie haben sie eingeteilt irgendwie. Es waren einfach eine Liste von Namen, die dann farbig markiert waren. Und die ersten 12 waren's, glaub ich, waren in dem, also 1 Billionen in unseren Zahlenordnung Tokenusage so. Aber irgendwie auch, ja, also klar, im Endeffekt kannst Du natürlich Token in Erfolg irgendwie messen, weil nur wenn sie das sinnvoll skalieren irgendwie mit 'nem Produkt verbinden, mit dem sie auch Kohle machen, kommt man überhaupt in die Region mal eine Trillion oder eine Billionen Token zu konsumieren. Aber irgendwie fand ich's auch eine witzige Art, das in Kategorien einzuteilen nach Erfolg.
Dennis: Genau. Vielleicht für unsere Agenda einfach mal die ganz großen Themen, die heute vorgestellt vorgestellt wurden, nicht heute irgendwo da vorgestellt wurden. Einmal alles, das läuft unter Apps in Chat GPT, wo's ja mit SDKs und so was neue Möglichkeiten gibt. Dann gibt es etwas, das nennt sich Agent Kit. Auch darunter verbergen verbergen sich unterschiedliche Tools, die grundsätzlich aber dafür da sind, einfache bauen zu können. Zora, two in der API hatten wir grade schon. Es gibt Updates zu Kodex, Das GP-fünf-Pro Modell, das ja auch vor 'n paar Wochen schon releast wurde, ist jetzt eben auch über die API verfügbar. Und dann vielleicht die 2, ich glaub, da brauchen wir mehr, als diese Überschrift dann gar nicht sagen am Ende. Es gibt einmal ein neues Voicemodel, das nennt sich GPT realtime mini, das 70 Prozent günstiger geworden ist. Und dann gibt es noch ein GPT image mini, also das neueste bildgenerierungsmodell von open a I in 1 Miniversion, die 80 Prozent günstiger ist als das das große Modell. Ja, also ähnlicher Trend, wie wir's schon irgendwie in den letzten Zeiten gesehen haben. In der Regel mit der Zeit wird's dann ja, also zum einen günstiger oder es gibt kleinere Derivate davon.
Fabi: Für heute schon die interessant, Agent Kit, die Apps und dann SORA2 später, ne? Das sind dann die 3 Themen, die wir uns son bisschen
Dennis: näher unterhalten. Genau. Und ich glaube, das hattest Du auch mit oder war ich, war auch dabei. Ihr hattet ja schon so gemunkelt, ne, glaube ich, was irgendwie die Zukunft von ChatGPT und Merchandise und Nicht Merchandise und Merchandise
Fabi: und Ja, man lässt sich in Folge die Diskussion, ja? War das Ja.
Dennis: Ist sehr spannend, weil sich jetzt schon sehr konkretisiert hat, wie das Ganze auch aussehen kann für diese Ja. Für diese Art. Aber vielleicht erst mal ganz grundsätzlich, worum es geht bei Apps in ChatGPT. Und zwar ist es eine Integration oder eine Integrationsmöglichkeit für externe Unternehmen in ChatGPT aufzutreten und letztendlich Teile ihrer Funktionalität einfach innerhalb des Chatinterfaces anzubieten. Sie sagen in diesem in diesem oder weiß nicht, wie Sie's nennen, aber also in dieser Fläche, die man praktisch dort hat, das ist alles kann dargestellt werden, was im Web auch dargestellt werden kann. Das heißt, es ist eine HTML Seite, die dort praktisch inline angezeigt wird. Und ja, als Beispiele, Sie haben, glaube ich, so was wie 10 ungefähr oder vielleicht 'n paar weniger 6. Sind so wenige, die können wir vielleicht kurz nennen. Also Booking dot com, Canva, Crosera, Figma, Xpedia, Spotify und Zillow. Das sind die Launch Partner Sternchen EU, ist mal wieder außen vor. Das heißt, es dauert ein bisschen, bis Sie wollen es bald in nach Europa bringen, aber aktuell ist es noch nicht dort hier verfügbar. Und wie man sich das vorstellen kann, also man kann, ne, man plant irgendwie eine Reise mit ChatGPT beispielsweise und sagt, man möchte das machen, keine Ahnung was und kann dann eigentlich fragen und das erweitern und sagen, nutze mal Booking und such mir ein Hotelzimmer in Paris für an dem Datum und dann genau, ist das bereitgestellt, was was Booking dort vorhat. Hast Du, dann bin ich nicht son Monolog, hast Du 'n bisschen gelesen, wie das technisch, was es dazu braucht oder wie grundsätzlich so die Anbindung sein soll?
Fabi: Also ich mein grundsätzlich nutzen sie, wenn ich's richtig verstanden hab, also eigentlich das MCP Protokoll, Model Kontext Protokoll und in der einfachsten Form, wie Sie's gesagt haben, kann man eigentlich jeglichen MCP, glaub ich, einfach nur erweitern mit 1 Komponente, die dann die HTML zurückliefert sozusagen. Eigentlich das ist schon, glaub ich, die einfachste Form, wie überhaupt so eine App bereitgestellt werden kann. Also ich hab eine Model Context Protokoll Server und einen weiteren Endpunkt. Die Spezifikation hab ich mir von daher jetzt nicht genauer angeschaut so, aber im Endeffekt, wenn man's, glaub ich, ganz runterbricht, brauch ich einen MCP, der HTML zurückgeben kann und dann ist es grundsätzlich erst mal möglich. Aber dann wiederum ist dann natürlich die Frage, wie kommt man überhaupt auf diesen Service, sone? Und dazu haben Sie ja Design Guidelines rausgebracht, die son bisschen definieren, wie soll denn so ein wie soll so ein Service, so eine App denn überhaupt Content ausliefern? In welchen Formen so, man kennt's 'n bisschen auch so von den, bewirkte vom Aufbau her relativ stark orientiert auch an den Apple Design Guidelines so und welche Form von HTML Interaktionselementen hat man denn? Worauf sollte man achten? Und so, ja, ich glaub, das ist noch mal ganz, also irgendwie noch mal 'n ganz interessanter Teil. Ich biete jetzt vielleicht 'n bisschen zu früh ab, aber wenn man's runterbricht, technisch, eigentlich MCP mit einem Endpunkt der HTML zurückliefert, mehr ist es erst mal nicht. Mhm.
Dennis: Und Sie haben das aber, glaub ich, auch gemacht, ne, also das Protokoll, Ja. Das dafür ist und Apps SDK ist, glaub ich, der Name dann davon, ne. Ja. Sodass sich daran andere auch anknüpfen können. Also ähnlich wie das Protokoll Open Source ist.
Fabi: Genau, ist eine Erweiterung, ne. So, aber ich glaub, wenn man wenn man's runterbrechen würde, dann ist es eigentlich nur technisch nicht das, was was hin was hinzukommt so. Ja. Im Detail vielleicht noch ein bisschen mehr. Genau. Ja, aber auch ganz interessanter darüber haben Sie zwar bei der bei der Keynote jetzt nicht wirklich was gesagt, aber wo Du auch meintest, so hin zu Einkaufsplatten und so was, ne. Sie haben ja dann ein, dazu auch noch irgendwie released, wo's dann sozusagen geht, also genau diesem Flow so. Wir haben eine App, in der kann ich sozusagen Produkte suchen. Ich krieg irgendwie sone kleine, also so alle alle Designelemente, von denen sie eigentlich meistens sprechen. Klar, Du kannst da auch irgendwie fullscreen gehen und so und hast nur 'n kleinen Chat Overlay, aber so der Erstkontakt ist meistens irgendwie ein kleines Fenster, was dann entweder 'n Karussell ist, aus dem ich aussuchen kann, was auch schon sehr, also viele der Elemente sehen sehr nach Shopping aus sozusagen. Du hast irgendwie eine Informationskarte mit irgendwie Bildern, 'n kleinen kleinen Informationstext oder irgendwie eine Auswahl an Buttons und irgendwie Dropdowns. Und da bei diesem geht's sozusagen diesen ganzen Payment Prozess sozusagen. Und so, wie Sie sich den vorstellen, wenn man mal irgendwie hier das Flowdiagramm sich anschaut, dann wird dieser ganze Prozess des Kaufens passiert innerhalb, gut, das hätte man auch sich vorher antizipieren können, das Ganze so funktionieren wird, aber schon soll innerhalb von ChatGPT funktionieren. Und sozusagen der Mergent stellt am Ende eine App bereit mit verschiedenen Designkomponenten und sie haben sozusagen, binden sowohl den den Mergent an als auch den Payment Prozessor.
Dennis: Ja. Und auch das ist aber trotzdem, was heißt auch das? Trotzdem, also es ist auch Open Source und sie haben's zusammen mit StripE entwickelt. Das heißt, StripE ist 1 der großen Partner, die da mit dabei waren. Und gut, Stripe kennt sich hoffentlich auch einigermaßen aus, wie man Zahlungen abwickelt. Was auch dazu führt, ich glaube, das stand irgendwo, das heißt, wenn Du jetzt Stripe als Zahlungsanbieter hast in deinem Onlineshop, ist es wohl supereasy, dieses diesen praktisch zu aktivieren, weil das einfach in deinen Settings ist und Du sagen kannst, okay, soll auch so sein, dass dass das dann eben nutzen kann. Sie haben auch gesagt, also dass Produkte nach ihrer Relevanz angezeigt werden. Also es gibt keinen, es gibt aktuell dann keinen, das haben Sie sehr explizit gemacht, keine Möglichkeit irgendwie Suchergebnisse zu kaufen oder irgendwie, also was, natürlich haben sie trotzdem irgendwie natürlich 'n Ranking, was sie im Hintergrund brauchen, von daher keine Ahnung, wie neutral man das gestalten kann und wirklich nur das Beste für den für den Nutzer am Ende da rauskommt. Aber zumindest ist das ihre ihre Idee, dass es möglichst neutral die besten Produkte anzeigt und Kaufoption zeigt.
Fabi: Ja, das also das kommt wieder son bisschen diesen Punkt, den ich vorhin aufgemacht hab mit diesen Design Guidelines. Als ich die Keynote gehört hab und's dann darum ging, okay, am Ende die 2 letzten Sätze von Sam Altman war ja, was diese Apps anging, okay, so und so funktioniert das Ganze irgendwie technisch erklärt. So Apps können dann entweder über eine Art, ich find's genau, sone Art Explore Funktion, kann man schauen, okay, was gibt es denn für Apps? Und ansonsten werden sie auch im Chat, falls es nach der Suchanfrage irgendeine sinnvolle App gibt, die da vielleicht dabei helfen kann. Genau, das heißt 2 Wege. Einerseits überhaupt, dass man über diese suchen kann und dann, dass sie auch, dass sie vorgeschlagen werden. Und sowohl die Aussage von Simorten, sowohl das Vorhandensein in dieser als auch, dass man's, dass Apps aktiv vorgeschlagen werden, hängen auch daran, dass man die Design Guidelines von ihnen befolgt sozusagen. Also sie sagen einerseits, wenn ich's richtig verstanden, überhaupt nur die, die es in 1 gewissen Form befolgen, werden diese auch in der überhaupt angezeigt. Mhm. Und die, die es sehr gut machen, sagt er, wär natürlich auch prominent gefeatured, so. Wo, ja, also wenn man, klar, wenn man sich die Design Guidelines anschaut und so, da geht's schon das Grundsätzliche, die grundsätzliche der Aufmachung und so. Aber wenn man wenn man son bisschen dadrin liest, dann geht's halt schon darum, dass sie, ich glaub, das ist son bisschen Auslegungssache, zu sagen, wie gut ist es implementiert, weil es so Grundsätze gibt, wie Du sollst eigentlich dem dem Direkt des User scater und wirklich eigentlich nur so das das minimale liefern, was den des Users erfüllt. So, wo man 1 jetzt sagen kann, klar, wenn Du's aus der Brille des Users verargumentierst, diese Argumentationskette ziehen sie halt wahrscheinlich immer, zu sagen, mach einfach nur genau das, was der User will und dafür in minimalster UI am Ende nur irgendwie mit einen paar Buttons einfach nur genau das liefern, was wir natürlich auch bedeuten. Und sie sagen, aber natürlich kannst Du das alles mit deiner Brand Awareness und soll, es kann schon in dem in dem in deinem Brand Style sein und so, aber ansonsten so in der Richtung und probier nicht eine draus zu machen. Aber das heißt, es wird natürlich auch für einen immer, immer schwieriger, am Ende einen Nutzer in vielleicht die eigene Plattform zu bewegen irgendwie. Und wird's natürlich auch für OpenAI sehr viel einfacher, zu dich in diesem Ökosystem zu halten. Ist eigentlich einmal eine Frage der Intention hinten dran, ne. Ja. Also wenn Du, man kann natürlich sagen, okay, wenn Du nur das das Beste des Users im Sinne hast, Du kannst diese ganzen Punkte immer aus der Brille verargumentieren, dass es ja nur immer ihr Ziel ist. Mhm.
Dennis: Wenn
Fabi: Du ihnen natürlich irgendwie vielleicht auch einen Eigennutz zuschreiben möchtest, der es schwierig ist, das irgendwie nicht zu tun, dann kann es natürlich auch immer irgendwie anders ausgelegt werden und wieder sehr was, einfach so Konkurrenzfähigkeiten, so was dann für Plattformen angeht, es alles irgendwie 'n bisschen schwieriger macht. Also man kann's verstehen, aber ich, als ich gehört hab, dacht ich, den den Satz hab ich mir dreimal angehört, genau wie er's formuliert hat. Und die Design Guidelines auch, ja, ich bin mal gespannt so. Wer da prominent gefeatured wird.
Dennis: Ja, ja, genau. Also das zeig ich mir auch nicht. Ich mein, Booking ist halt irgendwie sowieso der Monopolist da draußen, ne, und diktiert ganz, ganz viele Dinge. Schaffst Du's jetzt irgendwie mit 'ner anderen Plattform, die die zweitgrößte ist oder von mir aus 'n bisschen weiter unten noch und ne, das gleiche Geschäftsmodell hast, so? Kriegst Du's damit hin, irgendwo eine Sichtbarkeit dann zu haben in diesem Ökosystem von ChatGPT in der Zukunft.
Fabi: Aber irgendwie auch, keine Ahnung, wenn man sich Ich find's so witzig, dass ich, also parallel zu diesem zu den, der Keynote von Open AI hab ich irgendwie grad die aktuell zufolge gehört mit Mo Gadó. Das ist der war hat damals, Google war war der CEO hieß es, glaub ich, damals von Google X und ist auch sehr im AI Space irgendwie unterwegs. Und da geht's son bisschen darum die Utopie, wie weit sind wir entfernt von irgendwie AGI und so in seiner Projektion sind wir da in in einigen Szenarien auch nur 'n Jahr davon entfernt und so und wie sich unsere Welt verändern wird. Und wenn man einerseits das hört, sozusagen diese Utopie, dass irgendwie AGI mal die die Präsidenten und Führer unserer Welt ersetzen wird und gegebenenfalls die Utopie gibt, indem jeder noch Universal Basic Income hat, also bedingungsloses Grundeinkommen und irgendwie die AI führt sozusagen unsere Staaten, wenn's vielleicht nur noch einen Staat gibt. Und dann schaut man sich parallel die Keynote von Open AI an, die ja der Leader darin sind. Ist ja denn krass, ja? Irgendwie diese Keynote geht in erster Linie erst mal darum E-Commerce. Wie kriegen Sie möglichst viel E-Commerce in Ihrer in Ihrer Plattform und so und sich im gleichen Atemzug darüber unterhalten wird in diesem Podcast darüber, dass mal gucken, welche Staatsform es dann überhaupt wird so und irgendwie, dass es nicht Kommunismus vielleicht eher der ist, den die dann wählt und es ist irgendwie, ich hab's irgendwie gehört im Bad, als ich als ich diesen Podcast parallel gehört hab, dann sehr anderwurmen von dem, was ich beim Developer Day gesehen hab, hab ich gedacht, ja, es ist mal wieder einfach ein Unternehmen, was natürlich oft Profit aus ist.
Dennis: Ja. Doch die eine Kleinigkeit, die ich noch cool fand zu dem Ganzen, ist halt so diese Interaktion durch Chat und natürliche Sprache ist halt irgendwie schon ganz cool auch in der Interaktion mit Apps. Also ist dann so ne, wenn Du beispielsweise, also in dem Beispiel dort war, Du suchst 'n Haus zum Kaufen und dann hast Du eine Liste, die angezeigt wird. Und dass Du dann halt zum Beispiel im Chat sagen kannst, jetzt suchen wir mal die, die in der Nähe zu 'nem Schwimmbad liegen beispielsweise, die das gefiltert wird. So und diese diese Möglichkeit, das nicht nur einmal anzuzeigen, sondern dann auch mit natürlicher Sprache noch mit der ganzen Intelligenz, die dahintersteckt, weiter mit den Apps zu interagieren, das fand ich schon ganz cool von den technischen Möglichkeiten, die die dann da kommen.
Fabi: Ja, auf jeden Fall. Also und also wie gesagt, ist immer eine Frage, ist ja nur meine Interpretation dieser Design Guidelines, ne, wenn man's darauf sieht. Ich verstehe ja, wenn man wenn man nur das Beste im Sinn hat, warum sie das Ganze machen. Ich als User will natürlich auch, hey, ich möchte eigentlich nur, wenn ich nach irgendwie am Ende Schuhensuche, gib mir halt 3 Alternativen, eine Beschreibung dazu. Ich will ja gar nicht eine haben. Am Ende will ich nur Bildbeschreibung und im besten Fall 'n Kaufen Button und da nicht 3 Schritte hintendran haben. Ich versteh's ja so. Es ist halt nur, welchem Player vertrauen wir an der Stelle. Ja.
Dennis: Genau, ich wollte auch gar nicht gegen dich argumentieren. Es war einfach nur sone Ergänzung, was da spannend fand. Nee, aber hast recht. Ist auf jeden Fall, viel schon. Sollen wir zum nächsten Thema springen?
Fabi: Gerne.
Dennis: Agent Kit.
Fabi: Was kann ich mir darunter vorstellen?
Dennis: Ja, am Ende kann man irgendwie sagen, sie sind jetzt nicht die die Ersten, die in diese Richtung gehen und am Ende geht es darum, dass sie eine Reihe von Tools vorgestellt haben, bereitstellen, die es einfacher machen, autonome Agenten zu bauen, zu deployen und am Ende zu optimieren. Und also wie gesagt, es gibt, ne, von von Google hat vor einiger Zeit das Agent Development Toolkit bereitgestellt. Das war auch schon genau für diesen Workflow. Du hast irgendwie unterschiedliche Agenten, die haben unterschiedliche Tools, die ihnen zur Verfügung stehen Und so was halt nicht mehr aufwendig programmieren zu müssen und da ganz viele Schritte zu haben, sondern Tools an die an die Seite zu bekommen, die das, die einfach sehr einfach machen, solche Agenten für Workflows zu erstellen. Also ich glaub, das ist oder immer noch der klassische Teil. Wenn Du irgendwie 'n klar definierten Workflow hast und der läuft immer gleich ab, dann lässt Du ihn besser als Workflow. Und wenn Du aber einen Workflow hast oder 'n Arbeitsprozess und da ist irgendwas drin, was eine gewisse Recherche, eine gewisse Zusammenfassung, eine gewisse Interaktion irgendwie so was braucht, also davon profitieren kann, eine gewisse Intelligenz dort drin zu haben, dann lohnt es sich mal zu gucken, ob man das irgendwie als Agent abbilden kann. Und ich glaub, die 3 großen Tools.
Fabi: Ja. So, damit, ich weiß nicht, ob ob sich jeder so auch unter diesem was vorstellen kann. So, ich mein, wird ja immer son bisschen jetzt als der Killer son bisschen genannt, ne. Und grundsätzlich so, man das, was Sie jetzt hingestellt haben, ist ja auch son graphisches Interface dafür, so basiert sozusagen sich solche Flows anlegen zu können. Sondern ich weiß gar nicht, ob jedem bewusst ist so, dass das son Nee,
Dennis: genau. Ich ich war ja grad noch, also das Übergreifende nennt sich ja son bisschen, was sie haben, wo drunter eigentlich 3 große Bausteine da sind. Und davon ist 1, von dem Du jetzt grade gesprochen hast. Dann gibt's diese, also wo man zentral son bisschen managen kann, welche Tools an eine Organisation gebunden sind, also auf welche Informationen kann ich zugreifen. Und dann gibt es noch 'n Chatkit, was ermöglicht eben einen Chatinterface zu haben für diese Agenten, die ich baue. Und richtig, Agent Builder erinnert sehr an oder andere Tools, also wo man, ja, es ist, also ich hab's auch tatsächlich schon ausprobiert. Es ist supereasy in der in der grundsätzlichen Benutzung. Man hat 'n hat eine UI, wo man Notes hin- und herziehen kann. Es gibt grundsätzlich eben eine Agent Node und diese Agent Node ist dann einfach definiert durch, wo man sagen kann, hey, Du bist ein Agent, der soll das und das machen. Und diesem Agent kannst Du dann unterschiedliche Tools geben. Den kannst Du sagen, hey, Du hast diese Dateien zur Verfügung. Du hast 'n MCT Server zur Verfügung. Du kannst Websearch machen. Du kannst Code interpretieren, also verschiedenste Dinge, die Du einfach machen kannst. Und der hat dann unterschiedlichen Output, den er machen kann. Also das kann man auch definieren, ob der Text zurückgibt oder JSON oder was ich sehr spannend finde, kommen wir gleich noch 'n bisschen drauf, sogenannte Widgets, die man dann in dem in dem Chatinterface nutzen kann. Und das muss nicht nur, also das ist nicht nur dieser eine Schritt, da ist der eine, sondern man kann dann auch die Antworten evaluieren. Das heißt, Du kannst auch sagen, okay, je nachdem, was da rausgekommen ist, wenn jetzt über irgend 'n MCP, aber mir fällt natürlich jetzt grade kein guter Workflow ein, aber weiß ich nicht, Du hast 'n Namenwetter gefragt und wenn's warmes Wetter ist, dann geht das an den Agent, der dir bei warmem Wetter helfen kann und sonst geht es an den Agent, der nicht bei kaltem Wetter helfen kann. Dann könntest Du so einen, sonen, ja, ja, sone Bedingung dort reinmachen und dann den User weiterführen an unterschiedliche Agents oder die Informationen dort weitergeben. Und das das das Spannende ist letztendlich eigentlich, ähnlich wie's bei NAT AN auch ist, dass Du halt 'n Interface hast und das und die die die Nutzung davon so extrem vereinfacht wird. Na, Du hast dieses eine Ding, Du erstellst dein Agents, Du gibst 'n paar Informationen an und kannst oben auf drücken. Und durch das hast Du einfach sone Workflow ID, nennt die sich, Und die kannst Du nutzen, über die API beispielsweise einfach auf diesen Workflow zuzugreifen. Dann kannst Du mit wenigen Zeilen Code, kannst Du dann in deiner Applikation letztendlich dieses Ding ansprechen. Und Du kannst es halt, ne, es gibt Revisionen online, die Du dann dann durchführen kannst und so. Also es ist einfach letztendlich wie eine nette Entwicklungsumgebung für das Born von Agents. Ist erst mal, glaub ich, das, wie ich versuchen würde, den den Agent Builder
Fabi: Aber so die Idee, wie's wie's bisher der Agent Builder ist, die Frage, ob's dabei bleibt, ist ja immer am Ende der Trigger, der Start von sonem Agent Interaktion ist eigentlich immer Text. Also ist am Ende, ich hab 'n Workflow und dann hab ich einen Chat, wo ich mit diesem Agenten interagieren kann, weil ich bin jetzt auch nicht so ganz drin in NET N, aber NET N sehe ich auch ja noch 'n bisschen so als sone Art Automatisierungsplattform, wo die Trigger auch einfach Zeit sein könnten. Also könnte ich beispielsweise, ich glaube jetzt, mit dem Agenten könnte ich jetzt zum Beispiel nicht sagen, hey, starte einfach, also beispielsweise, ich hab den Use Case, ich will für unsere AI News einmal am Tag eine Summary bekommen von den wichtigsten AI Topics, die gestern so passiert sind. Da könnt ich ihn ja auch losschicken und sagen, hey, mach doch mal. Aber so was wie, hey, lauf einfach immer morgens 7 Uhr und schick mir dann über den Slack MCP eine Nachricht. Das ist zum Beispiel jetzt nicht so ganz der Use Case, der damit grade gedacht ist, ne.
Dennis: Ja, ist richtig. Ich weiß nicht genau, wie ob selbst praktisch auch dann mit denen so direkt interagieren kann, weil da hast Du ja mittlerweile auch so Timer Funktionen und so, ne. Also kannst Du irgendwie sagen, mach das jeden Morgen für mich. Ich weiß gar nicht, wie das in dem Produkt heißt, in oder irgendwie so.
Fabi: Das weiß ich, was von dem Future wusste ich bisher nichts. Ja,
Dennis: also gibt es auch. Vielleicht kannst Du die damit verwusten und irgendwie sagen, ne, starte jedes jedes Mal diesen, weiß ich, aber
Fabi: Aber also jetzt, aber vielleicht so dieser Startnote ist ja immer aktuell Text, ne. Es gibt jetzt nicht verschiedene Startnote, wo ich sagen kann, okay, und hier ist der der Startnote so, sondern es ist schon so, aktuell muss irgendjemand diesen ansprechen mit einem Text Input so. Und wenn er einfach nur ist hallo und dann läuft er los.
Dennis: Genau, ja. Wobei Du, genau. Und Du kannst aber auch Input Variablen definieren, also praktisch, wonach dann gefragt wird oder was Du auf jeden Fall brauchst für diesen Workflow. Aber es ist aber der Aktuell ist der Trigger Text, ja. Wobei ich mich grade frage, war das in der Demo oder das mit dem mit dem Voiceding? Also da hat er ja auf Übersprach Sprache eine Eingabe gemacht. Ich mein, Du kannst dir, gut, also das kannst Du ja wahrscheinlich irgendwie dann da
Fabi: Aber Mensch, aber dieses Voice Input war Code war Codex, ne, als Beispiel. Also das Agent das Agent Kit war, was Du machst? Das war das Kodex, als er eben die Lampen gesteuert hat und den Output dann in der Applikation variiert hat, so. Dass der der, den sie in der Keynote hatten, war ja so, wie kann ich in 7 Minuten einen bauen? Und was war der, was haben die noch mal gebaut? Weißt Du das noch? Schon wieder vergessen. Haben die irgendwas Spannendes gebaut? Ah, sie haben, glaub ich, die, jetzt genau, Du konntest einfach nach den Sessions der des sozusagen fragen so.
Dennis: Genau, das hab ich auch gedacht gebaut.
Fabi: Okay. Das siehst Du. Dazu gut, dass Du dich jetzt Gut, dass
Dennis: ich mich erinnere, nämlich für die für die Programmierkunden. Ja. Genau, für die Programmier bekommen hab ich 'n Session gebaut und letztendlich, also ist wirklich nur diese eine Note, da steht drin, hey, Du hilfst bei der Auswahl interessanter Sessions. Und dann ist wieder was, weil's schon irgendwo son Aha Moment ist vielleicht 'n bisschen groß, aber was einfach schön war von der vom Userflow, wie das funktioniert hat. Denn was ich eben gesagt hab, diese Output Format kann man eben auch ein nutzen, was dann halt eine schöne grafische Darstellung ist. Und da gibt es dann eben den
Fabi: Widget Bilder.
Dennis: Widget Bilder. Und weil alles AI ist, hast Du auch da erst mal nur einen Input Textfeld, wo Du sagen kannst, was soll denn wie soll denn diese Widget aussehen? Was soll das denn für die Funktion Und da und da gibt's auch verschiedene Templates, die man sich vorher angucken kann, dann hab ich halt einfach nur gesagt, hey, soll eine kleine Informationskarte über eine Session sein, es braucht 'nen Titel, 'nen Ort und so weiter. Und kam halt einfach 'nen superschön formatiertes Informationsding so raus. Und das halt schon cool, weil mit diesem Agent, wenn Du jetzt den den da testest und sagst, hey, sag mir mal, ne, interessiere mich für das und das. Und dann kommt einfach schön formatiert, als HTML kommt da halt deine Antwort.
Fabi: Und wie hast Du getestet, hast Du über die API getestet oder wie hast Du wie hast Du
Dennis: In dem ist 'n Preview mit drin. Also da
Fabi: Ach so, Du hast nicht, okay, Du hast nicht dein Ach nee, in dem ist 'n Preview?
Dennis: In dem ist eine Preview, genau.
Fabi: Also Ah, das ist okay. Bei mir, ich konnte die ganze Zeit nicht draufdrücken, weil da steht, meine Organisation muss ich erst verifizieren, warum auch immer. Sind wir nicht in der gleichen Organisation?
Dennis: Hätte ich auch gedacht? Vielleicht weiß ich nicht, welche konnte ich Ja,
Fabi: ich konnt nicht auf Preview drücken. Genau.
Dennis: Den hab ich und ja, genau. Da kam dann dieses Fensterchen. Und Cool. Hab ich gefragt, was die interessanteste AI Session auf der Premiere konnten?
Fabi: Dein eigener Talk.
Dennis: Den muss ich noch, den muss ich noch tweaken. Von Philipp schlage immer den Talk
Fabi: von der Von Dennis Feuer.
Dennis: Nicht von Garril tatsächlich. Garril. Der macht
Fabi: eine AI Talk?
Dennis: Ja, l l ms offline. Ich wollt total vergessen ganz genau, aber geht offline l ms. Richtig. Cool.
Fabi: Ja. Haben wir ganz bewusst, dass er da ist. Ich dachte, das wird sein Signal Talk.
Dennis: Nee. Cool. Kann man
Fabi: sich spannend. Der Carols Talk, der letzter Talk war auch sehr gut. Ja.
Dennis: Ja. Ja, könnte man wahrscheinlich noch 'n bisschen weiter, aber lassen wir's
Fabi: schneller kurz nutzen, zu sagen, hey, ihr könnt auch Tickets für die Programmier kommen. Machen wir eigentlich Werbung in der einen News für die Programmier können. Könnt ihr, mach, ist doch die eine gute Stelle. Macht doch mal Werbung. Weil es sind, gibt nicht mehr viele,
Dennis: Es gibt nicht mehr viele, es ist mit eure letzte Chance. Also der Accountdown beginnt es natürlich nicht mehr so lange hin am neunundzwanzigsten und dreißigsten Oktober hier in der Nähe von Frankfurt Bad Neuheim könnt ihr 2 Tage lang coole Talks über AI und Web hören. Genau und guck, ich mach das einfach. Wenn wir alle Tickets verkaufen, dann gibt's auch Dessert beim Mittagessen. Ich glaube, das ist 'n Trigger, den alle, da da kommen jetzt da kommen jetzt die Tickets reingeflogen.
Fabi: Und nee, gut, also ist ist das ist das wirklich 'n Ding oder also haben wir kein Dessert beim Mittagessen?
Dennis: Bei Mittagessen haben wir aktuell kein Dessert.
Fabi: Okay.
Dennis: Und wenn wir die Tickets alle verkaufen, dann gibt's das ja
Fabi: jetzt wieder weg. Ja, das ist doch gut. Dann bin
Dennis: ich dafür, dass alle Tickets kaufen sollten. Das geht
Fabi: auch gern Dessert.
Dennis: Ja. Gut. Wie viel gibt's noch?
Fabi: 15 Tickets oder so? Ja. In so was in Richtung? Ja.
Dennis: Genau.
Fabi: Die sind die nächsten, die eigentlich sind die weg.
Dennis: Ja, vielleicht nur 1, also weil sie da selbst irgendwie auch 'n Fokus auf, vielleicht nur das, also in dem gibt es auch so ein Tool für, wo man einfach sehr easy auch son paar Dinge einfach schützen kann. Also beispielsweise geht's persönliche Daten. Da kann man dann, ne, sagen, okay, wenn irgendwie war's, einen Namen oder eine Kontonummer oder wie auch immer ist, dann ey, bieg hier ab und pass auf und sag dem User, das darf nicht oder wie auch immer. Oder geht dann an den Agent, aber vergisst die Historie von dem Chat. Also genau und auch irgendwie zu versuchen, dann Halluzinationen zu verhindern. Also es gibt einfach verschiedenste ja, die man dir direkt einbauen kann, so ein Agent ein bisschen sicherer zu machen und für seinen Use Case ja abzusichern.
Fabi: Irgendwie 5 Kategorien gibt's dafür, ne. Und so und jeder haben dann son paar paar Einstellungen, also diese persönlichen Informationen. Das ist nicht nur, man schaltet nicht nur sagen, ignoriere persönliche Informationen, sondern man kann genau sagen, was man möchte. Also so was wie kein Datum, keine URL, keine keine Namen, aber auch so was so länderspezifisch dann, keinen Italien Vad Code gibt, aber nichts für Deutschland. Also deutsche Vadcodes könnten Sie nicht erkennen, wenn ich das richtig verstehe, per Ausschlussverfahren.
Dennis: Okay. Ja. Und eben haben wir noch genannt das Chat Kit. Vielleicht einfach das noch mal ganz kurz. Es gibt eine fertige UI, die man nutzen kann, letztendlich darauf zuzugreifen, das in seinen Produkten einzubauen. Also ja, hab's mir gar nicht in die angeguckt, wie's genau aussieht, ob das dann erst mal sone kleine ist, wie man's irgendwie viel von so Supportchats kennt oder wie so der Initial da drin ist. Und das andere, was man auch, also da ist halt easy, es ist alles von Open Air gehostet. Du brauchst dich praktisch nichts kümmern. Du bindest dieses Widget ein und hast dann halt deinen kompletten Chat, der mit deinen läuft, die Du dort hast. Und Du kannst es aber auch 'n bisschen komplizierter machen, wo Du dein eigenes Backend benutzen, einfach über das Chat Kit SDK dann auf deine, ja, Daten sozusagen zugreifst und eine eigene Chat brauchst, den mit dem Nutzer zu interagieren. Also auch da Ich war
Fabi: noch nicht ganz sicher, ist das von der Begrifflichkeit dann wirklich das Chat SDK, weil sonst hat man das
Dennis: Kit SDK heißt das, glaub ich.
Fabi: Chat Kit SDK, okay. Ich hab das grad gar nicht mehr Ich dacht nämlich genau, es gab SDK und Chatkit, deswegen war ich war ich unsicher, ob SDK und das SDK ist für die für die Eigenimplementierung und Chatkit dann das, was sozusagen mit irgendwie UI und so was kommt. War ich unsicher.
Dennis: Mhm.
Fabi: Ob aber Du meinst, das heißt Chatkit SDK und dieses SDK ist dann noch mal Ja. Was anderes. Ja. Alright. Da gibt's aber, also neben übrigens, wenn man wenn man den Builder öffnet, da gibt's ja noch 3 weitere Applikationen, die ich anschauen kann. 1 ist Playground, wo man son bisschen sieht, wie man dieses Chatkit stylen kann. Dann gibt's als Beispielapplikation dieses Chatkit world, wo man so eine Weltkarte steuern kann über Chat Kit und das sozusagen eine Form der der der des ist so. Also packen wir mal die Shownotes, die ganzen Links. Ja. Hast Du noch was zur Keynote oder sollen wir auf?
Dennis: Ich glaube, wir können auf Sora switchen. Müssen wir mal ganz kurz gucken, was hier noch war. Codex,
Fabi: brauchen wir jetzt gar nicht. Ich würd Codex vorher lassen. Könnt ihr euch anschauen. Gibt Updates zu Codex, ne. Brauchen wir jetzt hier Ja. Nicht so viele Dinge, die man diskutieren Yes. Diskutieren muss. Sora. Genau. Sora, einerseits seit letzter Woche Interessant, dass das mal in AI Newstopic kam. Der der der Kanal, über den ich mich darüber bescheid war, so interessant. Mein Schwiegervater hat mir eine Whatsapp geschickt. Guck mal, Sora 2. So. Und das ist ja krass. Mein Schwiegerpapa war schneller als ich, mir son Link zu schicken, so. Also schon interessant, wie schnell Dinge die Open Air denn rausbringt, in welchen Bubbles mittlerweile unterwegs sind. Und es war sogar, es war, der Philipp hatte mir bisher noch keinen Link geschickt. Ich hab in unserem a einen News Kanal noch nichts gesehen, sondern die Whatsapp meines Schwiegerpapas war mein News Kanal für Zora 2. Da merken wir auch, was das so so die der den Effekt davon ist, glaub ich, schon, den merken, glaub ich, viele Leute. Das ist direkt ersichtlich, wie gut sie darin geworden sind. Also Sora ist ja das Videogeneration Model von OpenAI. Sie haben Sora 1 rausgeholt, glaub ich, mittlerweile schon ein Jahr, über ein Jahr her, Februar 24, was ja damals schon auf jeden Fall superbeeindruckend war, aber wir kennen noch alle so den Stand von Will Smith, der irgendwie Nudeln ist, war, glaub ich, das prominenteste Beispiel für die Qualität des Videomodels. Trotzdem sehr, sehr Qualität des Videomodels trotzdem sehr, sehr beeindruckend. War ja lange Zeit auch so, dass es gar nicht öffentlich nutzbar war. Und wenn man jetzt vorspult zu letzter Woche, dann ist mit Zora 2 oder wenn man von Zora spricht, gibt's im Endeffekt 2 Dinge. Ist einerseits das neue Modell Zora 2, worauf wir gleichkommen, Und andererseits hat OpenAI auch eine App dazu rausgebracht, die sich SORA nennt. Wenn wir erst mal aufs Modell gehen, dann ist es auf jeden Fall super-, superbeeindruckend, grade auch wenn man sich das das Releasevideo nenn ich's jetzt mal anschaut, also das Marketingvideo. Das Erste, das man sozusagen gesehen hat mit dem Release von SORA2. Und die, glaub ich, Promices, die man herausstellen kann, dass es einerseits so physikalisch sehr viel akkurater, realistischer ist und besser kontrollierbar ist so. Also dieser Du Will Smith Effekt sozusagen hat man kaum noch oder wenig. In den Details erkennt man's immer noch, aber es ist schon sehr viel näher an so, was physikalische Gesetze angeht, an unserer realen Welt. Dann, dass Sound jetzt eben mit drin ist und synchronisierte Dialoge auch Soundeffects und dazu gehört auch Musik und so was, zu den Videos erstellt werden kann. Und so der Part, der dann überhaupt das Video ermöglicht hat, was man da gesehen hat Und auch der Grund für sie, glaub ich, war, die App zu bauen ist. Also dass sie sagen können sozusagen, man kann alle Videos, die mit SORA erstellt werden, kann man Charaktere definieren, die konsistent über verschiedene Videos hinweg sind und jegliche Video, was mit Zora erstellt wurde, Charaktere austauschen. So, und deswegen das Releasevideo war 'n Video, in dem man hauptsächlich Sam Altman in ja, interessanten cinematischen cineastischen Szenen irgendwie gesehen hat. Und war auf jeden Fall schon, also die Qualität davon auf jeden Fall super beeindruckend, wenn man's mit Sora 1 vergleicht. Und auch grade irgendwie Soundeffekte und so, also das sind schon, man hat sich das Video angeschaut und glaube ich direkt, und deswegen meine ich so, der Grund, glaub ich, warum's meinen Schwiegerpoppe mir auch geschickt hat so, direkt gemerkt, okay, das ist jetzt einfach eine andere Klasse von Videos, die hier einfach erzeugt werden, so. Wie gesagt, im im Detail erkennt man immer noch bestimmte Dinge, dass es dann eben doch ein AI Video ist, aber einfach eine andere Qualität. Man merkt, okay, was man da jetzt in anderthalb Jahren wieder fürn Schritt gemacht hat, so, da werden ja auch viele in den AI News so Open World Beispiele von irgendwelchen Modellen, die irgendwie Games im Open World Space gemacht haben. Und ich glaube, das ist auf jeden Fall, das sind Entwicklungen, die wahrscheinlich immer näher zusammenkommen und das schon sehr, sehr beeindruckend ist. Über die Länge ist gar nicht genau was gesagt worden, sonst waren's ja meistens immer so 10 Sekunden, was die was die Modelle erzeugen könnten. Dazu haben wir jetzt explizit gar nichts gesagt. Das sind häufiger mal Videos in in dieser Länge, aber durch diese und so fällt es am Ende gar nicht so auf und ist vielleicht auch etwas, mit dem sie gar nicht so explizit kommunizieren, weil man dadurch durchaus auch längere Filme erstellen kann. Genau, kommen wir noch kurz zu der Definition der App so. Also wie man's bis zur Keynote nutzen konnte, war über die SORA App. Und die SORA App ist eine App, die sie aktuell mal wieder nur in US und kann dann so was zuerst ausrollen. Das heißt jetzt auch, wenn man nach der App im deutschen App Store schauen würde, kannst Du sie gar nicht runterladen. Es gibt 2 Dinge. Also einerseits musst Du die App runterladen, dann einen Account erstellen, das ist aktuell. Also nur weil man irgendwie Chat GPT Pro User oder so was ist, hat man keinen Zugriff dazu, sondern ich weiß gar nicht, wie sie die initialen Einladungen irgendwie verteilt haben, aber es geht mit. So, wenn man mal die einschlägigen Youtube Videos dazu anschaut, so, dann ist ich, der aktuell beste Weg entweder auf eBay oder so was, sich son Code zu kaufen oder man geht in den Discord Channel von, wo ich vorhin mal kurz drin war, wo alle Sekunden Leute nach irgendwelchen Codes batteln. Genau, aber wenn man einmal per VPN und so sich Zugang dazu verschafft hat und einen Code hat, dann ist es im Endeffekt eine, wie Open Air Eis, glaub ich, selbst gerne sieht, eine Social Media Plattform. Also man hat wie bei TikTok, also ich würd sagen, es ist am TikTok ähnlichsten, weil Du hast einen Endlosfeed an Videos und in dieser Social Media werden eben nur AI generierte Videos von Zora 2 gepostet, aber man hat auch 'n eigenen Feed, wo man diese Videos posten kann. Und das Besondere daran ist, sein Account ist verknüpft mit einem sogenannten Cameo. Cameo ist sozusagen das eigene Alter Ego, was man dann mit in Videos remixen kann. Dass Du einfach sagen kannst, jegliches Video, was Du entweder erstellst oder ein bestehendes Video remixt, kannst Du einfach so insofern insofern prompt, dass Du dein Cameo dort reinsetzen kannst und sagen kannst, okay, zeig halt mich. Oder auch irgendwie mit anderen, darauf kommen wir gleich in diesen Videos. Und so was Sie schreiben in Ihrem Blogbeitrag relativ einfach erstellbar, durch 'n kurzes Video von sich selbst kann wohl dieser Cameo erstellt werden. Und man hat dann 'n paar Einstellungsmöglichkeiten, was diesen Cameo angeht. Man kann einerseits entscheiden, hey, darf nur ich diesen Cameo nutzen? Dürfen aber auch, weil sie sagen, es ist eine neue Experience, dass man so mit seinen Freunden sich zusammen in Videos, nenn ich's jetzt reinfotoshoppen kann oder rein kann. Und dass das sozusagen ihr Grund auch dafür ist, weshalb sie über diese Social Media Plattform, glaub ich, überhaupt nachgedacht haben, dass sie sagen, es ist irgendwie eine neue Experience, sich zusammen in solchen Videos zu haben. Das ist irgendwie eine neue Art des Contents, neue Art zu teilen. Und deswegen kann man dann entscheiden, dieser Cameo kann nur ich ihn selbst nutzen. Können alle, die mir folgen, den nutzen oder können nur Freunde das nutzen, also Leuten, die sich gegenseitig followen oder kann das jeder benutzen? So. Ein Cameo, den jeder benutzen kann, ist Sam Altman. Also es gibt sehr viele witzige Videos auf dieser Plattform mit Sam Altman. Aber es ist schon grundsätzlich interessant, sodass auch im im parallel zu dieser AI Video Content Social Media Plattform von OpenAI vorher auch Meta das ähnlich gemacht hat mit Vibes, was sie rausgebracht haben, was auch in ihrer MetaAI App sozusagen ein AI Video only Feed ist. Mhm. Aber
Dennis: ja, so
Fabi: ich Also zusammenfassend, wenn man über Sora redet, kann man jetzt über 2 Dinge reden. Das ist das Modell, was dann seit der Kino jetzt auch über die API verfügbar ist. Also per API kann das jetzt im Endeffekt jeder ausprobieren und das andere ist die Social Media App, die bis vor Kurzem noch der einzige Weg war, Sorra Videos zu erzeugen und dann kann man also aber auch cross posten auf andere Social Media Plattformen. Sind, glaub ich, 2 unterschiedliche Topics, über die man sich unterhalten kann so. Aber erst mal so viel dazu, was was Sorra ist und was da jetzt was da jetzt passiert ist.
Dennis: Spannend. Vielleicht so zu, hast Du irgendwelche Kommentare schon gelesen, wie der Vergleich ist zu den zu wie u 3 zum Beispiel, was die Qualität angeht oder 'n eigenen Eindruck?
Fabi: Also ich ich war verwundert, dass man noch gar nicht so viele Vergleiche am Ende irgendwie dazu gelesen hat. Ich glaube schon, so der Tenor von dem, was ich gesehen hab, ist, dass dass schon noch mal einen Schritt nach vorne ist. Ich glaub, das, was ihr aber aus meiner Sicht wirklich am meisten herausstellt, ist eben noch mal diese, dass man wirklich merkt, das ist ein Layer, den sie da in das Modell integriert haben. Die Frage ist, wie sie's überhaupt machen. Ist das wirklich, was das Modell an sich anders ist oder haben sie irgendwie ein Layering, wie auch bei ihren Imagemodellen, so wo das teilweise gar nicht alles das bessere Imagemodell ist, sondern so was wie der Text, der der der der gute Text teilweise ein separater Layer ist, sodass es 'n mehrschrittiger Imageprozess ist? Also ist das wirklich 'n besseres Modell oder haben Sie im Endeffekt eine bessere Infrastruktur da dafür hingestellt? So, das glaub ich schon, das ist der Part, weshalb sie's dann auch ja jetzt entschieden haben, sone eigene Social Media App und so was daraus zu machen, der das, glaub ich, schon noch mal herausstellt und irgendwie was, zumindest die beiden Ich konnte leider noch nicht selbst ausprobieren, ne. Ich hab in b-o-drei dann teilweise schon probiert, irgendwie erst mal mit Nano Banana irgendwie zum Beispiel mich als Input zu nehmen, dann einen Nano Banana Frame zu nutzen, mich zum Beispiel eine Superhelden Pose zu machen, dann b-o-drei zu nutzen, daraus ein Video zu erzeugen. Also der Flow ist natürlich erst mal einerseits komplizierter, wenn ich auf Sora schau und einfach denk, okay, ich hab da die Social Media aber einmal kurz mein Cameo erstellt und kann dann einfach Video nach Video irgendwie generieren. Kann ich mir schon vorstellen, dass das Ganze besser funktioniert, weil die Ergebnisse von b-o-drei jetzt bei meinem eigenen Alter Ego, ja, war nicht schlecht, aber so die Sorra Beispielvideos waren sehr, sehr viel besser, aber ich hab noch keine keine eigenen Tests irgendwie dazu gemacht. Das heißt, ich denke schon, dass wir da ein paar Schritte ein paar Schritte weiter sind. Aber ich denke, wär für mich der Hauptgrund, so was, was Realitätstreue angeht. Und da ist, glaub ich, b o 3 auch schon auf 'nem sehr Niveau. Und ich hab jetzt noch wenig Vergleiche dazu gelesen und konnt's durch den fehlenden Waldkorb bisher selbst auch noch nicht ausprobieren.
Dennis: Ja, ich find's auf jeden Fall spannend, dass sie Und ich weiß gar nicht, ob's irgendwie, ist ja nicht besonders herausgestellt, so in diesem Intro Video, ne. Ich mein, das, also ja, am Anfang ist 'n sehr großer Disclaimer, dass alles, was jetzt folgt, von Surrad Two generiert ist. Aber ne, ist ja irgendwie schon ein Use Case, der halt so bisschen kritisch ist. Ich meine, wenn Du halt Sam Altman hasst und ne Statements von ihm, die da sind, so, das irgendwie als als als Case zu nehmen, den zu zeigen. Vielleicht direkt darauf hinzuweisen, so, ne, hey Vorsicht oder guck mal, was jetzt alles möglich ist. Weil das ja irgendwie auch im Bereich ist, wo viele Leute irgendwo Angst haben, ne. Und dass man ja dem nicht mehr glauben kann oder aus der eigenen, aus dem eigenen Charakter halt irgendwie einfach Dinge erstellt werden, die man gar nicht gar nicht möchte oder so.
Fabi: Das ist übrigens interessant als Feature, also wenn man man kann, wenn man nach seinem eigenen Kamel erst mal hat man grundsätzlich jede Rechte dann an den Videos auch sie dann löschen zu lassen. Man kann dafür entscheiden, ob dann Videos überhaupt gepostet werden oder nicht. Aber man hat auch immer die Möglichkeit zu sehen, welche, wo denn mit dem eigenen Kamel erstellt? Also das ist nicht so, dass Du nur filtern kannst darauf, hey, mit meinem Kamel, was wird denn da gepostet? Also gemäß dem Fall, ich hab's überhaupt geöffnet für andere Person, sondern ich sehe sehe jedes Video, was damit erstellt wurde, selbst wenn es andere nicht gepostet haben. Das heißt, wenn Du ein Sam Altman Video generierst, das aber nicht postest, kann Sam Altman trotzdem sehen, in welchen ist er denn aufgetaucht?
Dennis: Will zu einem Fall haben.
Fabi: Da wird's einige Da fand ich auch ein Beispiel, das hat irgendwie auch 1 der Leute, die an der mitentwickelt haben, irgendwie gepostet, ein ein Video, was worüber man, glaub ich, auch son bisschen diskutieren kann. Es dann, gibt son, was ist der deutsche Begriff für CCTV, also so Überwachungskamera Footage von Sam Ortman, wie er in sonem Elektronik Store in Amerika Grafikkarten probiert zu klauen, sozusagen dann vom Security aufgehalten wird so. Und man wirklich schon sagen muss, ja, das ist schon krass, wie gut und realistisch dieser dieser die dieser Aufnahme sozusagen ist. Sich dann schon die Frage schätzt, okay, was hat das dann mal für Implikationen auch irgendwie regelmäßig so, wenn Du erst mal bei solchen überhaupt erst mal beweisen musst, dass das reeller Footage ist. Also wenn dieser von, ja, beweist mir erst mal, dass das 'n Original ist, so, Realität wird so. Und bin nicht gespannt, was das was das für Implikationen hat.
Dennis: Hast Du irgendwas gelesen? Weil bei ist ja überall son Watermarking mit drin, dass man's auch nach editieren und so was noch erkennt.
Fabi: Zu dem Watermarking selbst nicht. Also man sieht das Sora Watermarking, aber in wie Also nee, hab ich da nicht weiter drüber
Dennis: noch gelesen. Ja.
Fabi: Ja, und ich will, wie gesagt, wahrscheinlich konnten wir die Folge auch komplett füllen, jetzt einfach noch damit mal über diese dieses diese Social Media Plattform von Open AI zu diskutieren. Aber vielleicht reicht die Hypothese mit, ich glaub, von der werden wir langfristig nichts hören. Es ist eine nette Art, diese Videos zu erstellen, aber Mhm.
Dennis: Ich
Fabi: seh da keinen langfristigen Erfolg drin, eine Plattform nur mit AI generierten Videos, in denen ich mich selbst rein shoppen kann, zu haben. Aber interessant, dass sie das Es
Dennis: ist vielleicht 'n ganz guter Hypfaktor so, ne? Also dass sie mal kurzfristig sehr populär sein kann und das auch durch eine breite Zielgruppe hinweg, das wahrscheinlich schon. Aber Aber wenn wenn sie nicht
Fabi: das Ziel, also wenn OpenAI nicht das Ziel hat, dass diese Social Media Plattform wirklich Standalone groß wird, so macht es dann, also glaubst Du, es hat ein, es erhöht den kurzfristigen Hype auf SORA und damit auf OpenAI, dass sie das über sone selbst geschriebene Social Media Plattform irgendwie machen?
Dennis: Wenn es noch mal eine ganz andere, ja, also weil vielleicht, weil der Zugang noch mal 'n anderer ist, weil die anderen Leute halt nicht, also weil Du halt einfach über dich, was da irgendwie abgefahren ist, wer von a a überhaupt noch nichts gehört hast und keine Ahnung was. Jetzt kommt aber halt dein Freund an und sagst, hier, Latte mir das Sorre runter, ist voll cool. Du kannst einfach dich in ein Video einbauen, ist voll abgefahren. Und scrollst Du da durch und hast dich in ganz, also, Und vielleicht auch, ja, son bisschen mie mäßig, dass vielleicht, ne, sich auch Videos etablieren, die dann halt lustig sind, wo dann immer jeder seine Version davon hat oder so. Kann ich mir schon vorstellen, dass son bisschen, also 'n Hype auslösen kann, aber ich bin bei dir, dass es langfristig jetzt nicht so motivierend ist, diese Art der Videos dann nur zu konsumieren.
Fabi: Ja, genau, wenn, glaub ich halt, man braucht irgendeinen Kanal, wie man diese Videos auf andere Plattformen dann besser erstellen kann, so, weil ich glaube nicht, dass diese Plattform es am Ende sein wird. Und irgendwie OpenAI sehe ich auch nicht als die Company, die diese Expertise hat, da irgendwie wirklich dafür ist, die eine eine erfolgreiche Social Media Plattform aufzubauen. So, das kann ich mir nicht vorstellen, dass Daniel als E-Commerce-Händler. Ja, das schon eher, ja, als, ja, die E-Commerce Mafia. Die, da seh ich's ja.
Dennis: Weißt Du, ob die, ist die API in Europa verfügbar? Weißt Du das?
Fabi: Ja, glaub ich schon. So weit ich weiß ich nichts Gegenteiliges. Okay. Okay.
Dennis: Und aber dieses Cameo Ding, das ist 'n reines App Feature.
Fabi: Genau, ist 'n reines Also ich hab noch nicht geschaut in der API, ob ich Cameos oder ich glaub, man kann auf jeden Fall Images mit reingeben, aber ich hab jetzt noch nicht gesehen in der SORA API, ob da Cameo IDs oder so was mitgegeben werden können. Weil das die Problematik ist ja trotzdem aktuell, die App ist der einzige Weg, diese Cameos zu erzeugen, sondern ich kenn keinen anderen App als das zu, kenn keinen anderen Weg als das zu erzeugen. Das heißt, selbst wenn das verfügbar wäre, müssten sie halt erst mal einen Weg bereitstellen, diese Cameos zu erzeugen und da weiß ich aktuell, genau, gibt es aktuell keinen Weg.
Dennis: Okay. Okay. Gut. Sorry. Ich verstehe hier auch diese doxon API Referenz nicht von Open AI, wo man da hin müsste. Models, Image, Audios. Nein, nein, nein, nein, nein, nein.
Fabi: Also ich hatte sie nur kurz gescreent so, die API und zumindest von den Endpunkten her war's wirklich nur so Creative Video, Video Status, Downloadlist und Delete. Und ich hab mir jetzt nicht den Creative im Detail angeschaut, aber so in dem in dem Beispiel, zumindest das das Beispiel, was Sie in dem Blogbeitrag hatten, hat nicht hat zumindest kein Beispiel mit irgendwie 'nem Cameo gezeigt, sondern einfach nur Text als Input.
Dennis: Mhm. Okay. Ja, ich würd sagen,
Fabi: haben wir's für heute, oder?
Dennis: Lassen wir's dabei. Werbung für die Konferenz haben wir schon gemacht.
Fabi: Haben wir schon gemacht, Haken dran. Philipp sehen wir 2 Wochen wieder.
Dennis: Philipp sehen wir 2 Wochen wieder. Schreibt uns gerne an Podcast at Programmier Punkt bar, wenn ihr andere Meinung habt oder Feedback zu dem, was wir hier erzählen. Und sonst wünschen wir euch eine schöne Woche und bis bald. Macht's gut. Ciao.