News AI 21/25 –

Google I/O 2025 und Microsoft Build - alle AI-News der beiden Tech-Konferenzen

22.05.2025

Shownotes

Heute dominieren die News der beiden großen Tech-Konferenzen der Woche: Google I/O 2025 und Microsoft Build!

Microsoft

Google

Abseits davon: AlphaEvolve von Google DeepMind hat mit einer besonderen Architektur Probleme gelöst, die die Menschheit schon seit hunderten Jahren beschäftigen.

/transkript/programmierbar/news-ai-21-25-google-i-o-2025-und-microsoft-build-alle-ai-news-der-beiden-tech-konferenzen
Dennis
Hallo und herzlich willkommen zu 1 neuen programmier.bar AI News. 21 25 und ja, sie könnte voller nicht sein vielleicht. Wir werden uns heute ein bisschen fokussieren auf 2 große Konferenzen, Dev Konferenzen, die es gerade gibt und zwar die Microsoft Bild und die Google IO, die mehr oder weniger gleichzeitig stattfinden und auch beide noch im vollen Gange sind. Aber zumindest die Keynotes waren schon und das heißt so, die die größten News sind schon draußen und wir werden uns natürlich besonderen Fokus auf die AI News setzen, die da rauskam. Mein generelle Eindruck, deiner ist ja leider nicht mehr neutral, Philipp, seit dem Du,
Philipp
würde ich nicht
Dennis
sagen, gewechselt bist. Aber so, mein genereller Eindruck ist schon irgendwie 'n bisschen spannender, was Google so vorgestellt hat und man kann wirklich Also so unterm Strich muss man einfach sagen, es ist sehr beeindruckend zu sehen, mit welcher Pace Google irgendwie in dem ganzen Space aufgeholt hat und da jetzt bei ganz vielen Themen irgendwie ganz weit vorne mitspielt. In Summe irgendwo die für mich auch so aus meiner Sicht spannenderen Ankündigungen, die dort kamen. Microsoft natürlich auch einiges, grade so alles im Anhang an GitHub letztendlich. Einiges, was dort auch spannend ist, aber die größeren Updates zu Modellen und und auch letztendlich Product Updates kam meiner aus meiner Sicht son bisschen von Google. Hast Du 'n anderer Eindruck?
Philipp
Hast Du die Keynote gestern gesehen von der IO?
Dennis
Ich hab die Keynote nicht ganz gesehen, nee, ich hab diese und Blog gelesen, aber nicht die Kommentare. Ja, das, weil ich sag mal,
Philipp
was das Interessante für mich war, ich hab sowohl Microsoft Bild als auch gestern natürlich gesehen und man merkt schon 'n bisschen in anderen Fokuspunkten. Also klar, beides AI, beides, alles wird sich verändern, weil man merkt richtig, Microsoft wie E und E fokussiert auf große Konzerne, Big Enterprises und auch, sag ich mal, die Use Cases, die da vorgestellt wurden, waren eventuell nicht so innovativ. Und dann gestern, ich weiß nicht, komplett Google hat irgendwie gefühlt 'n Feuerwerk abgefeuert von natürlich ganz viele Jaminar Updates, die wir gleich gehen werden, aber auch das erste Mal, wo ich mir dachte, cool, vielleicht möcht ich doch 'n Android Phone in der Zukunft haben. Also iPhone Nutzer seid und je und irgendwie gefühlt Apple Intelligence bewegt sich ja gar nicht, vor allem nicht in Deutschland.
Dennis
Ja, WWDC kommt auf Wald.
Philipp
Ja, dann sehen wir wieder Videos von Dingen, die gar nicht real sind und die niemals rauskommen werden. Aber also grade auch Android, was vorgestellt würde, was kommen wird und die neue AR Brille, die 'n Display in der Brille hatte, den man so halb sieht. Und also ich kann's nur euch empfehlen, wenn ihr die die Keynote nicht gesehen habt schon mal vorweg, gerne mal reinschauen. Wir haben viele, viele coole Livedemos gemacht, viel, viel Cooles von was kommen wird. Und natürlich auch, also es gab 2 Stück mit 'ner Main Keynote, alle, sag ich mal, High Level neuen Services und Features. Und dann gab's auch noch Developer Keynote, wo man mehr auf die ganzen Punkte von AI Studio und Geminaris sowie Android, Firebase und andere Dinge eingegangen ist.
Dennis
Ja, aber komplett richtig. Ja, das ist immer auch mein Eindruck, also bei Microsoft halt sehr dieses Businessding. Und mit Sicherheit, da gibt es, ich meine, es sind halt einfach viele in dieser Infrastruktur und auch grade, glaub ich, für Deutschland ist 'n wichtiges Thema. Du bist Ja. Einfach, ne, in dem in und auch gerade, glaube
Philipp
ich, für
Dennis
Deutschland ist es 'n wichtiges Thema. Du bist einfach, ne, in dem hast deine Begrenzung, hast deine Richtlinien, darfst nur in deinen eigenen Datencentern, mit deinen eigenen Modellen arbeiten und so was. Von daher macht das schon irgendwo Sinn und ist mit Sicherheit auch nicht nur eine Nische irgendwie, die sie bedienen, sondern ein sehr sehr großes Feld. Aber das ist es eben auch, ne? Also so Themen wie dann ja, trainiere deine eigenen Daten, die Du sowieso in in in Office und sonstigen Themen liegen hast, dann Fragen zu beantworten und so. Fühlt sich alles so ein bisschen, ja, nicht nicht ganz so weit an, aber vermutlich eben wie gesagt dieser Use Case, man kann das halt dann dafür in großen Konzernen einsetzen und bringt da die Welt auch 'n bisschen von. Wollen wir vielleicht anfangen mit 'n paar Ja. Der Microsoft Themen, die wir haben? Ja, vielleicht ein kleineres NL Web, ist ein neues Open Source Projekt, was Sie rausgebracht haben, das eigentlich son bisschen vereinfachen soll, wie Ais Webseiten lesen und damit interagieren. Ich glaub, so viel mehr, also das ist noch nichts, was jetzt irgendwie groß etabliert ist, haben sie vorgestellt und soll eben die Natural Language es einfacher machen, darauf zuzugreifen. Vergleichen son bisschen, ne. Es gab mal 'n RSS Standard irgendwie für New Seiten und da konnte man dann strukturiert Daten lesen. Und ja, jetzt grade mit MCP, was dann kommt einfach, dass es möglich ist für LLMs einfacher, mit dem Web zu interagieren, als es heute möglich ist.
Philipp
Ja, also Sketub Repository gibt's schon. Es ist wie 'n Python und HTML hat nur 1.5 k Sterne. Also jetzt nicht so, dass die Welt komplett explodiert ist. Ich find's sehr interessant, dass sie halt versuchen, diesen Ansatz zu gehen, okay, alles, was wir jetzt in Zukunft bauen, soll nicht für Menschen optimiert werden, also was, sag ich mal, UI, UX angeht, sondern wirklich so gebaut werden, dass LLMs das einfacher steuern und benutzen können. Und bleibt spannend, ob's wirklich was wird oder ob das mehr sone Art Idee ist, wo, sag ich mal, Microsoft versuchen, Standard zu erzwingen, den dann alle nutzen sollen, damit sie am Ende die besten Integration haben.
Dennis
Mhm. Und was ja, glaub ich, bei Google auch so ist, das Wort Agentin ist durchaus ein ein häufig gebrauchtes. Microsoft spricht von dem Open Agentic Web so
Philipp
als Vision. Ja. Was verstehst Du darunter, was was Microsoft
Dennis
davor hat? Ich glaub, das ist was Microsoft davor hat?
Philipp
Ich glaub, das ist viel Buzzword, viel Marketing. Also Open ist immer 'n gutes Wort für, hey, kommt zu uns, wir sind die freundlichste Plattform. Wir machen hier nichts Böses. Ist ja alles und nichts aktuell. Wenn Du nicht darüber sprichst, bist Du, glaub ich, nicht relevant. Ist auf jeden Fall der Ansatz. Ich versteh den Gedanken, dass ganz viele, sag ich mal, Aufgaben, Dinge, die wir aktuell machen, passiert im Browser. Und ganz viel davon könnte mit besseren KI Modellen vereinfacht werden oder man hat wie sone Art, sag ich mal, wo man 10 solcher Agenten hat, die dann halt Aufgaben macht und ich kann halt zehnmal so viele Dinge machen, abzuwarten, ob's das passiert. Ich glaub, das ist bisher nur son Marketingtherm und definitiv werden wir mehr Modelle haben, die besser durch Webseiten navigieren können und andere Dinge.
Dennis
Mhm. Mhm. Okay. Vielleicht bevor wir auf die GitHub Dinge kommen, es gibt auch 2, also die Windows AI Foundry und die Azure AI Foundry? Beides, glaube ich. Was ist, weißt Du, aber kennst Du die Übersetzung von Foundry? Ist irgendwie so wie son, ich hab irgendwie grade Schmiede oder so Gießerei, son Hub oder irgendwie so was, ja, genau, also schmieden, also irgendwie son Ding, wo wo viel liegt und man sich daraus bedienen kann. Ich, das ist, glaube ich, son bisschen das
Philipp
Kommt aus der aus dem Fertigungsbetrieb in der Mikroelektronik.
Dennis
Okay. Genau. Also das gibt's jetzt für diese beiden Bereiche. Azure ist eben auch so, dass man da die Möglichkeit hat, mit verschiedensten Modellen zu interagieren. Also ist auch Ist das vergleichbar son bisschen wie wie heißt es bei Google? Ist das der Model Garden?
Philipp
Genau, also ich mein, Microsoft schafft das gefühlt, in jede neue Konferenz ihre Services wieder neu zu rebränden. Windows AI Foundary ist jetzt auch wieder nur 'n von irgendwie, Windows Copilot Studio oder irgendwie so was. Und Azure AI wurde, glaub, letztes Jahr vorgestellt. Es ist mehr oder weniger wie, beziehungsweise Amazon, also gerade die Plattform oder der Service, in denen alle KI Modelle zu finden sind, sozusagen. Für Azure AI ist es mehr oder weniger halt alles, was gemanagt ist. Und auf Azure, da hast Du die Open AI Modelle, Du hast die jetzt auch von x-AI-crok 3, Du hast Modelle von Higingface, aber dann hast Du auch noch ganz viele zusätzliche Services, die Du eigentlich heutzutage halt brauchst, eher Anwendungen zu bauen von Vektordatenbanken, Integration zu Agent Plattformen, wo ich so mit Drag and drop mäßig Dinge zusammenbauen kann, zu Feintuning, zu Evaluierung und andere Dinge. Genau, und da hat Azure eher mehr oder weniger jetzt XER Modelle, Croc und Croc 3 mini, was das Cool ist. Da gab's auch 'n bisschen eine, sag ich mal Interview während der Kino zwischen Elon Musk und Satalya Nadala. Das war son bisschen interessant, sag ich einfach mal. Aber Microsoft, das sind die ersten, die Croc Modelle jetzt hosten außerhalb von XAI und Twitter, sag ich mal. Zusätzlich haben sie noch 'n neuen vorgestellt, der es einfacher machen soll, das beste Modell auszuwählen. Also man kann sich das so vorstellen, dass ich einfach 'n hinschick. Und dahinter basiert eine Art Klassifizierung und dann basierend auf meinem Input oder prompt, den ich hab, routet Microsoft den automatisch zu Chat GPT oder halt Open AI Modellen zu, keine Ahnung, Hunking Face Modellen, Mysteral Lama oder auch XEA jetzt. Und sie haben angekündigt, dass es mehr Modelle von Hunking Face geben wird, was an sich ja eigentlich immer cool ist, wenn mehr Open Source Modelle auch zur Verfügung stehen. Und dann Windows AI ist die Plattform für Windows. Allerdings hab ich's nicht selber ganz verstanden, weil sie reden darüber, dass man Modelle lokal ausführen kann, aber auch in der Cloud. Und das soll mehr oder weniger wie sone Art ja, eine alles in einem Anwendung sein, wo ich dann Modelle testen kann, irgendwie optimieren, schreiben sie wahrscheinlich für die Hardware mit irgendwie, für dann die CPU, die ich in meinem Windows PC hab. Ich soll's fine tunen können, direkt auf meinem Windows PC ausführen, hab wie eine Art Chatinterface oder 'n Playground, aber auch Sie reden davon, dass man's mit der Cloud verbinden kann. Ich stell's mir son bisschen vor wie LM Studio, vielleicht für Easy Scan, wo man halt, sag ich mal, Lokalmodelle einfach ausführen kann, aber bleibt abzuwarten.
Dennis
Okay, cool. Grade schon, also im im Intro son bisschen für sehr die die Businesswelt, das Microsoft 365 Co Pilot Tuning. Also ist eben eine Umgebung, wo man low Code, Sie sagen, ohne eine Bastalion an Data Scientists, es schaffen kann, eben eigene AI Modelle zu trainieren mit eben eigenen Datensets. Genau. Bietet, denke ich, vor allen Dingen in Enterprises, wo man seine Daten in der Microsoft Umgebung hat, die die abgesichert sind, eben die Möglichkeit, ja, fine tune Modelle zu nutzen. Nach unserer Folge zu MCP, die ja jetzt am Dienstag rausgekommen ist, zumindest auch Microsoft unterwegs, auch das zu adaptieren und das scheint sich son bisschen als Standard tatsächlich zu etablieren, zumindest für den Moment. Das heißt, Sie haben für alle möglichen, ne, für GitHub, für Studio, für Windows Eleven, also es ist einfach den Support für viele, ihre eigenen Tools angekündigt, dort MCP zu unterstützen. Wie ich gar nicht zu gelesen hab, aber da haben wir ja noch hier als Punkt. Edge Browser, a I, APIs, hast Du da noch irgendwas
Philipp
Ja, wurde halt auch mit angekündigt. Ja, ist ähnlich wie, also Edge ist ja passiert auf Chromium und Google Chrome hat ja schon, sag ich mal, German 1 nano integriert mit dem mit der API, wie glaub ich immer noch in oder Experimental, welches Germani Nano nutzt. Microsoft hat jetzt in in ihrem Edge Browser eine ähnliche oder ähnliche APIs vorgestellt. Die sollen dann auch sozusagen ausführen mit ihrem PI Modell und dass man halt übersetzen kann, Summary Sations machen kann oder andere Dinge direkt sozusagen mit der nativen Browser APIs. Mal schauen, was daraus wird.
Dennis
Gut, dann können wir jetzt zu
Philipp
den Ja. Das Wichtigste fast vergessen, glaub ich, für alle, GitHub Copilot.
Dennis
Ich wollte nicht zu Google gehen.
Philipp
Ach so,
Dennis
reicht das schon. Nein, nein, nee, aber das wär jetzt gekommen, richtig. GitHub. Ja. Kommen, weil ich's eben schon kurz angeteasert hatte. GitHub Copilot entfernt sich ein bisschen rein aus der IDI und zwar, wenn man so will, auch in die Cloud mit einem Agent, den Sie haben. Ähnlich zu Juice, was wir gleich noch mal ansprechen würden. Ganz kurze Frage geh jetzt zu Juules, ist das ist es gar nicht ganz neu? Juules?
Philipp
Ja? Nee, es wurde schon mal vorgestellt, aber ist jetzt sozusagen einen 'n richtiges Toolprojekt. Okay.
Dennis
Weil ich hab irgendwie, also ich weiß nicht, ich glaub, hier haben wir's irgendwie, hatte ich's nicht aufm Schirm, dass es so was schon gibt. Aber sprechen wir erst mal über die Version von GitHub Co Pilot Agent. So ist, glaub ich, dann der komplette Name. Ist ein ein Tool, wo man sein repository praktisch mit verknüpft und dann kleine Arbeiten asynchron in der Cloud erledigt werden. Hast Du weitere Details?
Philipp
Ja, ich ich grad so, zum einen ist es ja schon eine starke Veränderung zu, man kennt ja GitHub Copilot immer 'n bisschen unter dem Gesichtspunkt, so ähnlich wie Cancer und Windsurf. Es ist sozusagen mehr oder weniger in oder auch in anderen IDEs und hilft mehr als Entwickler einfacher, schneller Dinge umzusetzen. Man hat verschiedene Indikationen gehabt von einfach nur Code zu Chatinterface, wo ich damit reden kann. Und davon wollen sie jetzt weg, also sie sozusagen die wie es Code Integration zu oder integrieren sie direkt in wie es Code, was Open Source ist mehr oder weniger. Das heißt, man kann sich die anpassen, verändern, Serverintegration bauen, wie auch immer. Und sie wollen hin zu diesem, ja, Ansatz. Also ich mein, GitHub an sich hatte ja schon verschiedene oder über die letzten Monate oder auch Jahre von und anderen Dingen. Und jetzt pushen sie's stark zu diesem der Vin Ansatz, sag ich einfach mal, dass man wirklich sagt, hey, hier ist das, ich drück irgend 'n Knopf, setz das mal senden wir eine Benachrichtigung im Hintergrund, starten sie VMs, führen, machen irgendwelche Dinge und weg halt von diesem, hey, wir sind halt nur irgendwie in der IDI.
Dennis
Ja, genau. Vielleicht zur Verfügbarkeit, aktuell nur für Copilot Enterprise und Copilot pro Plus Nutzer, also nicht die oder andersrum eher die die größeren Tears, die es bei GitHub gibt. Das heißt, wir können's im Moment noch nicht testen. Genau. Spannend zu sehen. Hast Du irgendwas vom Scope gelesen? Also was dir so sagen, was Art der Tasks so sind, die dort übernommen werden können?
Philipp
Ich mein, da es den Anschein hat, dass GitHub keine eigenen Modelle trainiert, soweit ich weiß und sie halt auch, sag ich mal, Open AI Modelle mit o-drei und 'n und nutzen, kann ich mir halt vorstellen, alles, was diese Modelle aktuell können auf natürlich mit 4 Programmieren und Software ausm rum, kannst Du da mehr machen. Das heißt, ich werd einfach davon ausgehen, die Dinge, die, Curser, wie auch immer, aktuell jetzt schon kann, ich weiß nicht, Versionen updaten, Farben ändern, vielleicht 'n neues Feature machen oder ganz viel, vielleicht auch eventuell nur Dokumentation schreiben. Weil ich glaub, das bleibt abzuwarten. Ich mein, das ist ja generell 'n riesen Hype aktuell diese Coding Agents und jeder hat ja mehr oder weniger jetzt einen.
Dennis
Genau. Vielleicht, weil das wollt ich zumindest nicht unerwähnt lassen, passt nicht 100 Prozent in die beiden großen Konferenzen, aber OpenAI hat ja mit Codex jetzt eben auch genau das rausgebracht. Ist interessanterweise integriert in die Chat GPT Oberfläche, Aber ähnliches Konzept, man connected 'n GitHub Repository und kann eben Tasks abgeben oder Fragen stellen zum zum Code, die dann im Hintergrund in eigenen Umgebungen ausgeführt werden. Und da fand ich aber zumindest von der von der Beschreibung so und den Beispielen, war das noch relativ, ja, es ist jetzt nicht so, dass es, also nicht so, weil ne, Devin war ja eher so, also hat auch nicht 100 Prozent funktioniert, aber kam zumindest vom Marketing daher und sagte, hey, das ist jetzt der neue, der der nächste Softwareengineer, den Du mit in deinem Team hast. Hier ist es jetzt noch 'n bisschen vorsichtiger formuliert und ist eher so okay, ne? Wenn Du Kleinigkeiten hast, dann kannst Du dafür das jetzt schon nutzen. Aber vermutlich ist es ja auch, dass der Weg oder die Integration, wie Array noch stärker in unseren Entwicklungsprozess eingreifen wird, ist eben über die Agents. Und das ist jetzt die erste Schnittstelle, in der man das auch schon testen kann, wie die Lösung von OpenAI aussieht.
Philipp
Ja, auch im Verhältnis von, sag ich mal, Marketing, was sie betrieben haben, war's eher zurückhaltend. Aber ich glaub, sie wollten's wahrscheinlich releasen. Jeder wusste, dass diese Woche Google Io und Microsoft ist und man hat auch gehört, dass eventuell morgen 'n Livestream hat oder 'n Liveevent. Und so konnten sie vielleicht, sag ich mal, 'n bisschen das abfangen, erstes Feedback bekommen. Und ich mein, ist wie wir alle, testen, nutzen, verbessern.
Dennis
Ja. Genau und eine letzte Kleinigkeit noch zu GitHub, Co Pilot der Asient Mode ist jetzt auch in Jet Brains und x Code in der Public Preview angekommen. Genau. So kurz drüber. Das, das, das. Haben wir, glaube ich, alles. So. Jetzt den Wechsel, den Du eben schon antizipiert hast. Google Io. Ja. Wir müssen uns ranhalten und können alles nur son bisschen anreißen, weil das sind durchaus einige Themen, die da gekommen sind. Wollen wir vielleicht erst mal mit den Modellen anfangen, was es alles so modellseitig Neues gibt.
Philipp
Ja, ich glaub, wir können's also modelltechnisch aus jedenfalls sehen. Ich würd's aufteilen in Chen Media, wie es bei uns genannt wird.
Dennis
Also es
Philipp
betrifft alle Modelle, die, sage ich mal, jetzt nicht typisch Chatbotmäßig sind.
Dennis
Mhm. Und es
Philipp
war auch für mich gestern und vor allem heute Morgen generell überall auf Twitter und Social Media das mit am beeindruckendsten, was ich gesehen hab. Es gibt jetzt w o 3, Mhm. Welches neues Text to Video plus Soundmodell ist, sag ich jetzt einfach mal. Also w o 2 gab's schon, es war 'n Modell, ich konnte, hat 'n Video generiert, 8 Sekunden hochkant, vertikal, wie auch immer. V o 3 ist aber jetzt, sag ich mal, das erste Videomodell, welches auch Sound mitproduziert. Also bisher hatte man das ja so, ich hab 'n Video generiert, kam 'n schönes Video mittlerweile raus, aber ich hab keinen Sound. Das hat sich dann immer noch nicht so ganz real angefühlt. Und mit V-o-drei kann ich jetzt wirklich beim Prompton definieren, was für Sounds im Video passieren sollen. Und es sind nicht nur irgendwie Sounds wie Verkehrsgeräusche oder irgendwie das Braten von Öl in der Pfanne, sondern man kann Dialoge hinzufügen. Und die Bilder und, ah, sag ich, die Videos, die ich gesehen hab, die's geben mir Ich hab das erste Mal das Gefühl, okay, bis Ende des Jahres wird jeder Content oder den meisten Content, den wir auch Social Media sehen, nicht mehr real sein.
Dennis
Und
Philipp
weil es einfach so gut geworden ist Mhm. Und so gut im Sinne von, es ist halt, es sind zu kurze Videos. Das heißt, alles so 8, also jetzt aktuell geht's so bis 8 Sekunden, aber das ist so kurz, dass ich es nicht verarbeiten kann, ob das jetzt KI generiert ist oder nicht. Und das Besondere find ich dabei ist, wenn man 'n Video generiert von jemandem, der spricht, der die Sprache, also die Lippenbewegungen passen genau zu dem Sound. Und es gibt wirklich son merkwürdiges Gefühl, würd ich sagen. Und ich hab Videos auf Social Media gesehen von Leuten, die, sag ich mal, Minecraft Streamer nachgemacht haben, wo Du dann rechts den Minecraft Streamer hattest, der dann erklärt hat, voll euphorisch und voller Elan, wie man jetzt 'n Minecraft im Baum abbauen kann. Ich hab Gameplay Videos von GTA gesehen. Man hat so Sitcoms nachgestellt wie. Ich hab Stand-up Comedians gesehen, die wirklich Witze gemacht haben und danach die Lacher dazu gepasst haben. Also es ist wirklich beängstigend, kann man schon sagen, weil ich weiß nicht, eventuell zerstört es son bisschen Social Media oder kann Social Media zerstören, weil wenn aller Content nicht mehr real ist, schaue ich mir den auch an? Ist es dann nur noch so oder irgendwie so was, nennt man's glaubt, durch durch durch TikTok? Und ja. Auf jeden Fall, verfügbar in der neuen Germani Ultra Subscription. Ich denk, auf die können wir auch gleich eingehen. Mhm. Es gibt Private Review in Vertex AI und es soll bald in die Geminar API kommen. Also Zugang wird für jeden mehr oder weniger verfügbar sein. Klar, würd das 'n bisschen was kosten, aber ja, ich, also marketingtechnisch wie TV Werbung und so was, ich glaub, Ja. Das wird alles darüber gehen und es wird so schnell und so günstig sein.
Dennis
Ja. Und dafür eher, in dem Kontext ist halt dann auch immer, ne, ist dann eine Subscription halt auch nichts mehr so. Nee. Wenn Du andere Produktionskosten das die normalerweise hast. Okay, aber das auf jeden Fall aktuell noch hinter 1 in deinem Bezahl 1 Bezahlschranke sozusagen.
Philipp
Ja, genau.
Dennis
Imagine auch ein neues Modell
Philipp
Genau.
Dennis
Bildgenerierung. Ja. Ist es ähnlich, auch in nur in dem bezahlten Modell?
Philipp
Oh, das weiß ich gar nicht genau.
Dennis
Also zumindest hab ich's in AI Studio, kann ich's im Moment nicht auswählen. Da hab ich nur View 2 und 3 als Option.
Philipp
Vielleicht wurd's noch ausgerollt. Ich weiß, das ist auch zu Also es ist alles generell aktuell im Releaseprozess. Das heißt, wenn ihr irgendwie was nicht direkt seht, müssten wir noch mal nachschauen. Wir haben auch die, werden nur die ganzen Blogposten dazu passen. Es soll auf jeden Fall in der Gemini App kommen, Word's geben und in der Gemini API, so ähnlich wie Imatch 3, viel besseres Bildmodell. Vor allem jetzt auch, was es Textgenerieren angeht. Also wenn ich 'n Bild generieren und irgendwie 'n Text dazuschreiben möchte oder irgendwie so was. Sehr gut. Ja. Dann das Letzte davon, Lyria ist ein Text to Music Modell. Jetzt verfügt beiden auch, Wordics AI kommt zu Geminar API. Und mit Lyria, weil ich mein, wir hatten ja schon 'n bisschen Sunus öfters Öfteren ist so ähnlich. Ich kann mehr oder weniger Musik generieren lassen von Podcastintros zu irgendwelchen anderen Songs, Hintergrundmusik und alles, was man mehr oder weniger braucht. Und das, sag ich mal, wirklich Interessante von all diesen 3 Modell Releases ist, dass es 'n neues Tool gibt. Und zwar, das nennt sich Flow, das dediziert dafür erstellt wird, einfacher zu zu machen für gerade von Hollywood bis zu, sag ich mal, Marketingagenturen, wo ich alle Modelle miteinander verknüpfen kann und auch nicht, sag ich mal, die Limitierung von einem Video hab, sondern ich kann wirklich sone Art Geschichte erzählen. Ich kann supereasy die Videos editieren, schneiden, Musik hinzufügen, verändern und sonst was. Und das Schöne daran ist, das bleibt kommt auch mit in diese, sag ich mal, Ultrasubskription rein, aber vorerst nur in der USA.
Dennis
Mhm. Okay. Ja, man kann's aber in in in Wordics AI kann man das zumindest auch schon testen. Ja. Und es gibt ja noch diese diesen Demo Playground, der son bisschen da dranhängt, ne. Wie ist der Name noch grade? Lyria. Auf jeden Fall, wo man sonen kontinuierlichen Stream an Musik hat. Also das ist praktisch ein Musik Streaming Tool. Man hat so, ich glaub, 16 verschiedenen Musikstile und kann so in so kleinen Knöpfen jeweils hochdrehen, wie viel Influencer diese Musikrichtung gerade auf den den Output haben soll, der da rauskommt. Ist auf jeden Fall ganz cool, mal 'n bisschen mit rumzuspielen und hat sonen, ja, kontinuierlichen Musicstream. Kann man an seinem Mut anpassen.
Philipp
Genau. Nächstes Geminar App.
Dennis
Mhm.
Philipp
Genau. Geminar App ist von Google, sag ich mal, das ChatGPT Pendant, viele, viele Updates bekommen. Auch die ganzen, sag ich mal, Modelle werden da nach und nach hinzukommen. Ich glaub, das größte Update, was sehr, sehr interessant ist, ist, dass es jetzt eine neue gibt. Also es gibt jetzt 3 Versionen oder Tiers mehr oder weniger. Es gibt Free, Mhm. Pro und Ultra. Und Ultra kostet 250 Dollar im Monat. Also ist eine ganze, sag ich mal, Hausnummer. Es sind 3000 Euro im Jahr,
Dennis
Ja.
Philipp
Was sehr, sehr viel ist. Ich sag mal, die die Hauptmerkmale von Ultra ist, man hat 30 Terabyte Google OneDrive, Google Drive Store. Weiß nicht, wer es braucht, aber eventuell mit den ganzen Videos, die man das generieren kann.
Dennis
Man stellst dann, ja.
Philipp
Man hat Zugang, Unlimited Zugang zu in der Gemini App. Man hat bekommt Youtube Premium dazu. In den USA bekommt man schon Zugang zu dazu. Man hat Zugang zu w o 3 nur in dieser. Lyria Imagine. Also es ist mehr oder weniger All in one Paket von von allen Google Modellen, von allen Google Services.
Dennis
Wobei die, also dieses Youtube Premium Abo, aber das ist irgendwie so für mich völlig random, dass sie das
Philipp
noch so dazu gepackt haben. Hat das, also ist das einfach,
Dennis
weil das so so auf Media Leute irgendwie speziell jetzt mit den Modellen ist oder was ist die die Kombi, das damit zu zu Ich glaube,
Philipp
Youtube Premium ist vielleicht in Deutschland nicht son Ding, aber in den USA gibt's viele Youtube Premium Subscriber, glaub ich. Und Du möchtest vielleicht einfach Youtube Premium Subscriber dann eventuell auch absell im Sinne von, hey, Du hast ja schon Youtube Premium, hey, ich kann das irgendwie so zusammen verbinden. Und ich weiß nicht genau, was die hinter den Kulissen geplant haben. Wenn ich zum Beispiel von Flow direkt nach Youtube Videos hochladen kann und irgendwas, wofür Youtube Premium braucht, dann
Dennis
Also 'n bisschen das Amazon Prime, oder? Vielleicht irgendwann. Also wenn Du da 'n bisschen Speicherplatz hast und sieht das noch 'n bisschen und so, hört sich das ja so an. Okay.
Philipp
Ja, ist halt sozusagen, wenn ich irgendwelche Google Tools nutze und wirklich das alles Zugang haben möchte, dann brauch ich halt diesen Ultra Pass.
Dennis
Ich
Philipp
glaub, es lohnt sich für 99 Prozent der Menschen noch nicht. Aber wenn ich halt irgendwie, keine Ahnung, selbstständig bin, 'n klein mittelständisches Unternehmen bin, Content selber generier, ich mein dann am Ende sind's 250 Dollar, dann ist es auch wieder nichts, wenn ich's wirklich für alles nutze und mehr oder weniger darüber mir vielleicht irgend einen Praktikant oder so sparen kann oder Ja. Noch mehr. Ja.
Dennis
Ist das Abo auch US oder nur die Features?
Philipp
US, aber es kommt in mehreren Ländern bald.
Dennis
Okay, alles klar. Ja, gut. Und den das Proteier, da hast Du den Preis noch nicht gesagt grade, ne?
Philipp
20 im Monat. Also so ähnlich wie bei, man kennt's vielleicht von ChatGPT, die haben auch 20 und dann 200. Google hat jetzt 20 und 250.
Dennis
Mhm.
Philipp
Ich weiß jetzt nicht genau, wie's bei ChatGPT ist, ob man da auch Unlimited Deep Research, Sora und alles andere hat, aber ja, ist halt dieses
Dennis
Paket. Okay, cool.
Philipp
Jepp und dann noch ganz viele andere Updates. Aber einfach mal, sag ich mal, Kinozusammenfassung oder halt Blogpost anschauen.
Dennis
Ja. Was macht jetzt Sinn? Also wir hatten grade jetzt die Jammaly App, die eigenständig ist. Vielleicht ein kurz noch, wo sich Germany noch reinhackt, Germany in Chrome. Yes. Vielleicht als Nächstes.
Philipp
Genau. Also Google Io, nicht nur Germany oder Android und alles. Was find ich ganz cool ist, ist, man, also Germany nano bekommt neue APIs. Wir hatten's ja ganz kurz vorher schon mit dem Edge Browser und den APIs. Chrome bekommt jetzt neue APIs für Translation Translation. Das heißt, ich kann direkt mehr oder weniger meine Webseite in Browser übersetzen, was find ich supercool ist oder auch andere Dinge machen. Es gibt eine, ich mein, das passt jetzt nicht direkt zu Chrome, aber es gibt eine, den AI Mode in Google Search, der weiterhin ausgerollt wird zu allen US Leuten. Ich mein, wir haben jetzt mittlerweile die AI Summaries hier oder ich weiß nicht genau, wie sie heißen in Deutschland. Deswegen 'n bisschen warten noch, dann sollte das auch eventuell kommen. Und Da kommt aber
Dennis
auch diese, das fand ich ganz interessant, dass sie da das auch noch erweitern wollen in dem Tab, dass praktisch auch noch die, oh, wie hieß da wieder der Begriff vor, aber auch Agents letztendlich, die für dich dann Dinge im Web erledigen. Also das heißt, ne, komplexere Suchen über viele, viele Webseiten. Ja, hinweg. Genau und aber auch so Buchungssachen, glaub ich, ja auch dann geplant, ne.
Philipp
Ja. Ja, es ist alles son bisschen vermischen, weil also man hat auch Project Astra gezeigt, eine neue Demo, was sozusagen der auf dem Pixel Phone ist beziehungsweise auf Android, wo sie auch gezeigt haben, wie denn der dann Android Phone kontrollieren kann und Tickets kaufen und E-Mails versenden. Das heißt, ich mein, überall son bisschen, mal abzuwarten, wie sinnvoll die wirklich nachher werden und wie viel davon Marketing ist. Das Interessante vielleicht noch in Chrome oder zu German 1 Nano ist Jamma 3 I n. Wir hatten ja Jamma schon in den vorherigen Folgen. Das ist sozusagen das Open Modell von von uns, von Google Deep Mind. Und es gibt eine neue Version, die Jamma 3 n Version, welche Jamma ni nano bekommt. Und es ist eine neue Architektur, die jetzt Text-, Video-, Audio- und Bilder verstehen kann als Input und Text generieren kann. Und jetzt der Gedanke hinter dem Modell war wirklich, man soll es überall ausführen können. Also sie hat eine eine neue Architektur, bei dem man sozusagen dynamisch Parameter zwischen CPU und GPU hin- und herschiebt, dass ich weniger Arbeitsspeicher brauche. Die Versionen sind 2 beziehungsweise 4000000000 Parameter, gibt seit gestern 'n Preview in AI Studio und für Google AI Edge. Es ist 'n internes Framework, auch Open Source kann man nutzen. Und wir arbeiten aktuell daran, dass es halt auch in, sag ich mal, Olama, Lama CPP Transformers und überall verfügbar ist. Das dauert aber noch 'n bisschen. Und das soll sozusagen das neue, mehr oder weniger German ein Nano werden, was dann auch in integriert wird und in anderen Dingen und bessere APIs und bessere Unterstützung, dass man wirklich coole local a I Anwendungen bauen kann von meinem Android Phone zu meinem PC zum im Browser mehr oder weniger. Genau. Mhm.
Dennis
Cool. Dann lass uns doch vielleicht gerade an der Stelle noch mal mit Modellen weitermachen, wenn wir da 1 haben. Und zwar einmal haben wir Gemini 2 Punkt 5 Pro Deep Think.
Philipp
Kein Also, ja. Ja, es
Dennis
es wird nicht einfacher mit den Namen, aber was ist das Besondere an Deep Think?
Philipp
Ja, nicht direkt 'n neues Modell, sondern eher eine Art neue Methode,
Dennis
Mhm.
Philipp
Die Qualität zu verbessern. Also wir haben ja, sag ich mal, von Germanite 2 Punkt 0 zu 2 Punkt 5 haben ja dieses Thinking und dazubekommen, dass es auch zwischen bei von vor o zu o vor mittlerweile ja jetzt gab. Und ist einfach eine erweiterte, sag ich mal, Methode, die mehr nutzt, bessere Ergebnisse zu erzielen, vor allem für alles, was mit Logik zu tun hat und auch Programmieren. Das heißt, irgendwelche Coding Anwendungen, Matheaufgaben oder andere Dinge. Soll wieder verfügbar für Gemini Ultra Kunden sein, aber auch soll zur Gemini API kommen. Ist aktuell noch 'n, sag ich mal, eine Testphase, aber soll kommen und man kann dann auch dabei kontrollieren, wie sozusagen das Modell nutzen soll, die Antwort zu generieren.
Dennis
Mhm. Ist
Philipp
es auch das oder krieg
Dennis
ich das durcheinander gerade im Kopf, was selbstständig praktisch sich verifiziert, wie viel Deep Research oder Deep Thinking notwendig ist? Nee. Da ist das nicht. Haben wir das hier eine gute Liste von Google?
Philipp
Das weiß ich nicht.
Dennis
Wo hab ich denn das heute gelesen? Okay, ich ich recherchier gleich noch mal in meinem Kopf, was das ist. Weil irgendwann, irgend 1 der Tools war jetzt eben so, dass das 'n automatisches Entscheiden auch ist, ob das Thinking, ja, das praktisch genutzt wird. Oder nicht?
Philipp
Wahrscheinlich dieses, was wir ganz kurz hatten mit der Deep search in AI Mode, dass sozusagen Mail, also dass im Hintergrund die Suche basiert und nicht dann direkt die Antwort angezeigt wird, sondern sone Art Mix zwischen, man hat Deep Research, aber nicht ganz so deep, aber man hat 'n bisschen schnellere Antworten, wo dann darüber wird und reflektiert und verifiziert, ob, was ich hier schreib, überhaupt Sinn mach. Und nicht, dass man wieder diese Beispiele hat so, hey, mir geht's nicht gut. Ja, dann springt von der Golden Gate Bridge oder so was. Ich glaub, das das ist, dass man halt dieses einfach auch verhindert.
Dennis
Mhm, okay. German Knight 2 Punkt 5 Flash.
Philipp
Genau, gibt's eine neue Version. Abkürzung ist 0 5 des 20 Preview, ist die letzte Version vor g a. Sowohl Gemini 2 Punkt 5 pro und Flash werden im Juni g a gehen, wenn alles klappt. Flash Version besser als bisher in verschiedenen Bereichen, Service Pricing. Das Einzige, was man vielleicht noch kurz dazu sagen kann, was interessant ist, dass gestern angekündigt und hoffentlich bald verfügbar in AI Studio und in Geminar API, Geminar 2 Punkt 5 Flash verfügbar sein wird in der Live API. Das heißt, ich kann oder werde Realtime Anwendungen bauen können mit Audio Input und Audio Output, Also wirklich, damit ich mit denen reden kann. Und 2 Punkt 5 Flash wird auch zur Verfügung stehen für Text to Speech. Also ich kann sozusagen Text generieren und ich kann das, wie der Text wird, also was wir schon 'n bisschen kennen, ja, von oder anderen KI Modellen, dass ich halt einfach 'n Text nehm, Stimme dazu erstelle und man halt sagen kann, flüstere, Sprechload, sprech euphorisch, wie auch immer. Aktuell noch in Arbeit kommt hoffentlich bald. Und generell wird 2 Punkt 5 Flash mehr oder weniger 2 Punkt 0 Flash in allen Anwendungen ersetzen von das kleinste Modell in der Gemini App zu AI Mode, zu alles andere, was irgendwie grad von Gemini Flash gepowert wird?
Dennis
Ich gucke gerade so verwirrt, aber das sieht man natürlich nicht, deswegen sag ich es. Ich habe doch eben mit 'nem Google Tool schon das gemacht, dass man so dieses Multi Audio, Multi Speaker Ja. Text to Audio. Ja. Wo ist 'n das schon wieder drin? Warte mal, ich bin grad im in Google AI Studio oder war's nicht? General Media, nee, da hab ich schon Imagion and View, das ist der Bereich. In Vertix AI hab ich zumindest Weißt Du, wo ich das gesehen hab?
Philipp
Nee, eventuell eine Demo oder Also es ist, es soll kommen, das soll da auch kommen. Man, es ist auch das mehr oder weniger, was in Notebook l m genutzt wird mit 'n paar Anpassungen, dieses, sag ich mal, Podcasts zu generieren. Ja. Aber ist alles noch in Arbeit.
Dennis
Aber das wunder mich. Also ich wunder mich insofern. Ich hab ja eben das als Beispiel gemacht und konnte 2 unterschiedliche Voices aussuchen für den den Text Output und okay, wenn Du über das nächste Thema redest, recherchier ich das noch mal parallel ganz kurz, wo wir da waren.
Philipp
Genau. Und nächstes Thema vielleicht noch ganz kurz zu Gemini API und AR Studio. Gibt auch noch 'n paar, sag ich mal, Entwickler, coole Entwickler Updates. Es gibt 'n neues natives Tool, das nennt sich URL Kontext, was, ich glaub, viele Vorteile bietet. Bisher war's ja so, wenn ich irgendwie mit in der Studio oder generell in der API irgendwie was jatte und irgendwie frag, keine Ahnung, wie kann ich installieren? Dann hat man ja mehr oder weniger nur die Möglichkeit gehabt, auf das interne Wissen von 'nem Modell zuzugreifen. Ich konnte irgendwie eine Google Suche machen, aber es gibt 500000000 verschiedene Beispiele, wie ich installieren kann und vielleicht nicht das mit der letzten Version, wo ich möchte. Und URL Kontext ist jetzt so, dass ich einfach eine URL in meinen Prompt mit hinzufügen kann, das Tool aktivieren kann und dann die API beziehungsweise Jammon im Hintergrund den Webseitenkontext liest und sozusagen hinzugefügt, als ob mir es sone Art automatisierte automatisiertes macht auf eine URL. Das heißt, wenn ich irgendwie sage, okay, hier ist die, ich weiß nicht, programmier.bar Webseite und ich frag dann, hey, wer ist 'n die aktuellen Host? Dann kann ich mehr oder weniger, wer ist 'n die aktuellen Host? Mach den Link zu der programmier.bar Webseite rein. Und dann wird das als Kontext genutzt. Das find ich supercool. Man kann bis zu 20 Links hinzufügen und man kann das auch kombinieren mit der Google Suche. Das heißt, wenn ich irgendwie sag, hey, hier ist die programmier.bare Webseite, bitte such nach allen Hosts, was die keine Ahnung für Hobbys haben. Und dann würde im Hintergrund eine Suche passieren, was zum Beispiel der Dennis gern macht. Und der Dennis irgendwo 'n Block hat oder irgendwie so was, wo das steht, dann würde das mit zur Verfügung stehen. Außerdem gibt's noch eine Preview für Computer Use, also dass Gemini mehr oder weniger einen Browser kontrollieren kann. Gab's schon davor in Marinär, soll jetzt zur Gemini API kommen in Kombination mit Cloud Run, dass ich auf Cloud Run supereasy in Chrome Browser deploynen kann und Gemini dann sozusagen über Cloud Run den Browser steuern kann. Und ich glaub das Interessanteste, weil wir's ja letzte Woche hatten, wir haben jetzt MCP Support in der Germani SDK. Das heißt, ich kann jetzt supereinfach MCP Servers mit Geni nutzen und wir haben die ganzen Abstragierungen von, ich muss die Tools irgendwie laden und ich muss dann wieder die Tools ausführen. Alles mit in die SDK gepackt und supereinfach, einfach mal in die Dokumentation schauen. Wenn ihr jetzt grad mit MCPs beschäftigt, gibt's 'n cooles, einfaches Beispiel. Ja, das hat gereicht die Zeit.
Dennis
Und zwar ist es tatsächlich in in Google AI Studio, aber ich ich fürchte aufgrund des aktuellen Ausrollens ist es so, wenn ich die Seite noch mal neu lade, hatte ich tatsächlich, also in Google AI Studio gibt's jetzt einen Generator Media Tab und dort unter Explore Models hab ich jetzt auch Gemini Speech Generation. Ja. Und da hab ich die Option mit verschiedenen Speakern und Instructions, wie sie reden sollen, genau, das zu tun. Also auch das kann man dort Playgroundmäßig testen.
Philipp
Können wir mal testen, Transkript von unserem unser Podcast nehmen und dann mal die generieren lassen?
Dennis
Genau, Transkript oder Übersetzung vielleicht, passt nur so halb, aber was ich auch spannend fand, war die Realtime Translation Google Meet, die Sie gezeigt haben. Genau. Da ist die Demo auf jeden Fall ganz cool gewesen, weil das wirklich wie son Synchronsprecher. Deine Stimme wird praktisch im Hintergrund leise weitergespielt und oben drüber kommt einfach eine Live Übersetzung. Und ich weiß nicht, gab's ja auch schon irgendwie länger in Vergangenheit immer mal wieder, dass es so vorgestellt wurde. Microsoft, glaub ich, auch schon in in Teams irgendwie lange. Die Implementierung, die ich jetzt da in dem Demo Video gesehen hab, die sah schon auf jeden Fall sehr überzeugend aus. Aktuell leider nur Englisch, Spanisch als Language Paar, was was funktioniert. Soll aber zeitnah auch in anderen Sprachen, unter anderem auch in Deutsch kommen. Hab ich halt auch nicht so den Alltags Use Case irgendwie für, aber ich find diese Vorstellung, dass man einfach über die Sprachbarriere hinweg mit Leuten kommunizieren kann und das so live in deiner eigenen Stimme Stimme, also das sind halt auch ne, dein dein Ton, deine Stimme. All das wird irgendwie son bisschen adaptiert und und praktisch dann mit in die Übersetzung genommen. Ja, mega cool, wie weit wir da gekommen sind.
Philipp
Ja, ich glaub, vielleicht hast Du jetzt da keinen Anwendungsfall, weil ich ich sag mal, Du bist in 'nem relativ gebildeten Bereich unterwegs und kannst wahrscheinlich Englisch sprechen. Aber ich kann mir durchaus vorstellen, dass wenn man über Ländergrenzen hinweggeht und dass nicht jeder Englisch spricht, dass es schon große Vorteile bietet. Vor allem, wenn ich irgendwie jetzt mal in die USA schaue, wo ja 'n großer spanisch sprechender Anteil zur Verfügung stehe oder einfach lebt und die eventuell auch gar keinen Grund haben, Englisch zu lernen in der Community, wo sie sind, kann das schon viel viel eröffnen, vor allem, was halt irgendwie Arbeit oder so was angeht. Wenn ich halt jemanden Instruktionen auf Englisch geben kann, der nur Spanisch spricht und ihn dann versteht und dann umsetzt und wenn er Fragen hat, dann natürlich auch wieder stellen.
Dennis
Absolut. Juules, wir haben's eben schon ganz kurz angesprochen. Ja. Ist jetzt
Philipp
Free Beta.
Dennis
Okay, Free Beta. Auch da ist gerade das Interesse sehr groß. Ich hätte es gerne schon für euch mal getestet, aber aktuell ist noch die Nachricht, dass Joule experienceing high Heavy Traffic. Ja. Dass die Taske cute werden, aber auch dort ist letztendlich die Verbindung zu GitHub und man kann eben Task einfach übergeben, die dann im Hintergrund ausgeführt werden für einen.
Philipp
Genau, eigentlich exakt gleich wie Codex von, wie ich sag mal, Devin, wie Code, wie andere Dinge. Man hat 'n cooles Interface, sag ich jetzt mal. Man kann dann sein verbinden, kann ihm dann eine Aufgabe geben und sie dann auch sozusagen, wie so verschiedene Schritte durchgeführt werden, geöffnet werden können. Ist cool. Feedback, was ich gesehen hab online, echt positiv. Nutzt Gemini Modelle, aktuell Free Beta, aber durch gestern und durch vorgestern, Dennis hat's ja gesagt, Riesendachfrage, aber es soll auch später eventuell eine oder wenige kostenlose Aufgaben geben, also dass ich's trotzdem testen kann. Vielleicht einfach mal 'n bisschen warten. Gibt keine US Registrierung,
Dennis
sag ich mal.
Philipp
Ja. Sei's, vielleicht hat man irgendwie Glück, Sonntagmorgen oder so was, wenn man's testen möchte. Ja, ist auf jeden Fall cool. Also ich bin echt gespannt.
Dennis
Cool. Was haben wir noch vergessen? Was ist noch wichtig?
Philipp
Project Beam wurde noch vorgestellt. Das ist jetzt vielleicht nicht direkt AI, aber ist eine Art Verbesserung, wie man Videokonferenzen machen kann. Da gibt's sone Art neuen Display, der hat, ich glaub, 6 Kameras außen rum, der dann von dir wie sone Art Hologramm erstellt und dann mehr oder weniger das mehrdimensional deinem Gegenüber zur Verfügung stellt. Soll einfach 'n bisschen besseres, näheres Gefühl geben, wenn ich Videocalls hab. Ich hab die Demo damals auf der gesehen. Es war schon echt cool.
Dennis
Mhm.
Philipp
Einzige Limitierung, ich brauch halt diese Google Geräte. Das heißt, das ist nicht etwas, was ich irgendwie kurz daheim bei mir mit reinstell. Definitiv cool, vielleicht für Unternehmens Use Cases. Ich bin mal gespannt. Ich denk, es wird irgendwo in den Google Offices mit ausgerollt. Wenn ich's dann irgendwo mal teste, geborene ich Bescheid.
Dennis
Sehr gut.
Philipp
Ich glaub, dann haben wir das meiste. Mhm.
Dennis
Wir haben ja sonst relativ viel gestrichen, was wir sonst noch aufgelistet hatten, weil jetzt grade diese 2 großen Themen draufkamen. Kannst Du noch ein, 2 Sätze zu Alpha Ewolf sagen?
Philipp
Weil das war ja jetzt
Dennis
eine News, die, glaub ich, nicht zu Google Io direkt kam, aber zumindest sich das für mich sehr, sehr spannend anhörte.
Philipp
Genau, kam letzte Woche, ist 'n Researchprojekt von Beep Mind und ist auch 'n, aber ist 'n bisschen 'n anderer. Und das Beeintdruckende davon ist mehr oder weniger, dass es das erste Mal mathematische Probleme gelöst hat, die davor nicht lösbar waren beziehungsweise mit wenigen Sphären gelöst. Ich weiß nicht, selber nicht genau. Also man sagt, 'n 300 Jahre altes mit 593 Sphären in 11 Dimensionen gelöst. Ja, auf jeden Fall beeindruckend Und das hat auch ganz viele andere Dinge noch gemacht, wie, also ist 'n Algorithmus, der genutzt wird, Machine Learning Modelle schneller zu machen bei der Inference. Und da hat es mehr oder weniger komplett selbstständig und alleine Optimierungen umgesetzt, welche 32 Prozent besser machen. Und diese wurden auch in schon integriert in das Gemini Training, was dazu geführt hat, dass man ein Prozent in der Trainingzeit hatte. Mhm. Und ein Prozent vielleicht nicht viel klingen, aber ich sag mal so, die Trainings kosten eventuell mehrere 100000000, wenn man das einfach mal betrachtet. Und das sind halt ein Prozent schon extrem viel. Nicht nur Zeit, sondern auch Kosten, die da gespeichert werden. Und das Coole daran ist, dass es noch die 2 Punkt 0 Modelle genutzt hat, das heißt noch gar nicht die neuen. Und es unterschiedlich zu den anderen Code Agents wirklich so komplette, also komplett Hunderte Zeilen an Code versucht neu zu schreiben, zu generieren, zu bearbeiten und alles komplett eigenständig von alleine mehr oder weniger durchführt.
Dennis
Ja. Und immer noch sagen Leute, dass AI das alles nicht machen und schaffen wird. Gut.
Philipp
Ich würd mir keine Gedanken machen, wenn ich Entwickler bin. Ich würd mich eher freuen und versuchen, wie ich das alles nutzen kann und verstehen kann.
Dennis
Ja. Ja. Ja, ja. Das ist, glaub ich, auch das das richtige Mindset dafür. Fantastisch. Spannende Zeiten. Philipp, vielen, vielen Dank, dass Du die Zeit gefunden hast. Ja. Das hier alles für uns zusammenzufassen. Und Feedback gerne an Podcast at Programmier Punkt bar. Sonst hören wir uns in 2 Wochen wieder regulär zu den nächsten AI News, nächste Woche zu den News und schreibt uns gerne, wenn ihr Fragen habt. Bis bald. Ja. Macht's gut. Tschau. Tschüs.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Senior AI Developer Relations Engineer bei Google DeepMind und arbeitet an Gemini und Gemma. Er hat es sich zur Mission gemacht, Entwickler:innen dabei zu unterstützen künstliche Intelligenz verantwortungsvoll einzusetzen. Zuvor war er Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback