News AI 17/25 –

Gemini 2.5 Pro & Flash // Veo 2 // OpenAI GPT-4.1 // GPT-o3 & o4-mini

23.04.2025

Shownotes

Im Zuge der Google Cloud Next haben wir einige AI-Updates von Google für euch:

/transkript/programmierbar/news-ai-17-25-gemini-2-5-pro-flash-veo-2-openai-gpt-4-1-gpt-o3-o4-mini
Dennis
Hallo und herzlich willkommen zu 1 neuen programmier.bar AI News Ausgabe. Wir sind in Kalenderwoche 17 2025 und ja, wie auch die letzten Wochen. Ich hab irgendwie das Gefühl, ich könnte diese Intro auf auf Repeat machen und die die Wochennummern wegmachen, weil erstens wieder einiges passiert. Zweitens hauptsächlich von den großen Playern da draußen, dass was relevant ist, also Google und Open my Eye, die große Sachen rausgebracht haben und 'n paar andere Kleinigkeiten, die wir euch noch mitgebracht haben. Mein Name ist Dennis, Philipp ist wie 14 Tage hier am Start. Hallo Philipp.
Philipp
Hallo.
Dennis
Und vielleicht können wir direkt schon mal teasern im Anschluss an diese Folge. Nehmen wir nämlich noch rein Deep Dive mit hier auf zu dem model Context Protocol, da mal 'n bisschen einzusteigen und bisschen mehr zu verstehen, was das eigentlich ist, weil im Moment taucht es auch praktisch in jedem zweiten AR Artikel irgendwie mit auf, da son bisschen Basiswissen mal zu haben. Das kommt dann auch die nächsten Tage raus.
Philipp
Was kann ich meinen, genau, aber
Dennis
die nächsten Tage. Gut, Philipp, in deiner Rolle jetzt bei Google ist son bisschen zugeschneidert, dass dass Du die ganzen Google Themen übernehmen musst. Wir hatten ja auch schon die Special Folge in der programmier.bar von der Google Cloud Next aus Las Vegas. Da war son bisschen Überblick, was es alles gab und war, glaub ich, auch die Zusammenfassung. Es gab viel AI, wer hätte es anders erwartet. Hier aber vielleicht noch mal 'n bisschen zusammengefasst, was wirklich rein aus dem AI Space und für unsere Hörer*innen des AI Podcasts relevant ist, was Google auf der Cloud Next alles vorgestellt hat.
Philipp
Fangen wir damit an?
Dennis
Kannst Du gerne mit starten.
Philipp
Okay, ja. Also die Cloud Next war ja vor 2 Wochen, zehnter bis zwölfter April in Las Vegas in dem Mandaly Bay Convention Center. Ich war auch dort, war echt cool, war echt groß. Und ich bin trotz alledem immer wieder überrascht, wie wenig dann Entwickler oder Unternehmen doch jetzt schon irgendwie mit KI machen. Also ich war bei so einem Boof und hab halt son paar Demos gezeigt und ganz viel mit den Leuten geredet von überall. Und ganz viele sind wirklich immer noch aktuell son bisschen am Anfühlen. Was aber ganz cool war und was Du ja schon gesagt hast, viele AI Updates von Google Cloud bis zu AI Studio bis hin zur Gemini App. Und gerade in der Gemini App, ich glaub, das Interessanteste, sag ich einfach jetzt mal, ist das Gemini 2 Point Five Pro, also das größte beste Gemini Modell, das aktuell existiert, jetzt verfügbar ist in Deep Research. Noch mal ganz vielleicht kurz zum Abholen. Deep Research ist der Agent, der für ein, sag ich mal, Team detaillierter nachsuchen kann, also ganz viele Webseiten aufschaut aufruft und dann versucht, so eine Art Report zu generieren. Das ist jetzt verfügbar für alle Genmini Advanced Users, dass sie mit Gemini toupan 5 d pro search use können. Und es gibt auch eine ganz coole Evaluierung, die gemacht wurde im Verhältnis zu Open Air ID Research. Und vor allem und in der oder performt mehr als doppelt so gut wie wie Open AI. Das heißt, wenn ihr irgendwie Deep Research von Open AI nutzt, gerne mal da ausprobieren. Ich glaub, man kann auch kostenlos testen für 'n paar Tage. Ansonsten ist 'n 20 Euro im Monat, wenn man wirklich viel, sag ich mal, das nützt, vielleicht ganz interessant, das zu testen. Zusätzlich
Dennis
Hast Du da?
Philipp
Mal so, weil ich glaub, es
Dennis
wird ja immer, weiß ich weiß nicht, ob's komplizierter wird, aber zumindest mit den ganzen Modellen, die wir mittlerweile da haben, Vielleicht noch so ein Standard Use Case, wo Du sagen würdest, okay, dafür lohnt es sich son Deep Research Model zu nutzen?
Philipp
Also ich muss sagen, ich mach es für alles mittlerweile. Also ich ich ich teste halt, also ich nutz alle. Also ich vergleiche es immer 'n bisschen mit Perplexity oder auch von Open AI. Und gerade halt, wenn ich irgendwie 'n Art Thema anfange, sei es von irgendwelchen vibraries vergleichen, hin zu irgendwelche Themen besser verstehen. Also es fällt alles, glaube ich, unter das Thema so Knowledge Work 'n bisschen. Und da nutze ich's halt alles, alle 3 und halt erst mal 'n Thema zu suchen. Ich meine, ich glaub, das Beste, wie man's immer vergleichen kann, ist, wenn ich 'n Thema selber suchen müsste und dafür mehr als 5 verschiedene Webseiten aufrufen müsste, son bisschen bisschen Wissen zu verstehen, dann würde ich sozusagen Deep Research nutzen. Und was ganz interessant halt auch wirklich ist, mit 2 Punkt 5 pro kann man's jetzt auch 'n bisschen prompton. Also das heißt im Sinne von, ich kann zum Beispiel sagen, hey, such auf 'ner bestimmten Seite und paste dann die Seite rein und dann mehr oder weniger von alleine nutzt Du's nur irgendwie die Seiten auf der ganzen Dokumentation. So habe ich zum Beispiel mir das Agent Development Toolkit 'n bisschen genauer angeschaut, was auch in der Cloud Google Cloud Next vorgestellt wurde. Und ja, das Einzige, was man halt bedenken muss, ist halt so, man startet die Query und dann dauert's so 15 bis 20 Minuten, bis halt alles durchsucht wurde. Aber es werden halt über hunderte Seiten durchsucht, wenn man, sag ich mal, 'n komplexen Research Plan erstellt. Und man bekommt dann alles als Google Dock exportieren.
Dennis
Okay, cool.
Philipp
Genau. Und vielleicht son bisschen im Schnelldurchlauf, was alles an der Cloud Next vorgestellt wurde. Ich glaub, Themen überschneiden sich. In der Cloud Next wurde Germany 2 Punkt 5 Flash vorgestellt, was jetzt auch letzte Woche released wurde. Da gehen wir gleich 'n bisschen genauer darauf ein. Mhm. AI Studio hat 'n neuen Look und eine neue Domain. Das heißt, ihr könnt auf einfach gehen. Die Live API, also mit der man Voice to Voice Anwendungen bauen und konnte, supportet jetzt 30 neue Sprachen, hat 2 neue Sprachen, also als Ausgabe sozusagen und eine bessere Voice activity Detection. Das heißt, wenn man Hintergrundgeräusche hat oder so Ähnliches, dass halt das nicht zum Modell geschickt wird. Es wird eine neue, wurde eine neue TPU Architektur vorgestellt. Ironwood ist die siebte Generation von Google TPUs. Und wirklich das Besondere hier ist, dass sie speziell für KI Inference gebaut wurde. Und vielleicht, wenn ihr euch nicht ganz so gut mit TPUs auskennt, aber das der große Unterschied zu GPS war hauptsächlich, dass man mehrere kleinere Chips hatte, ich sag mal im Verhältnis für für Memory. Und jetzt der neue hat 192 Gigabyte per Chip. Und irgendwie die größte Ausführung davon ist so gut wie der aktuelle Supercomputer, soll bis zum Ende vom Jahr auf Google Cloud verfügbar sein, wird auch dann in Zukunft genutzt, das Hosten von Gemini Modellen zu machen. Und was vor allem hier interessant ist, ist, dass man, also den Fortschritt, den man gemacht hat, der erste oder die TpuV 2, was in der Google Cloud verfügbar war 2018. Und jetzt im Verhältnis zu Ironwood hat man dreitausendsechshundertmal bessere Performance. Ja, also vielleicht nur 'n ganz als Vergleich, selbst der TPUV 5 p, der 2023 vorgestellt wurde, hatte eine Performance von 459 Teraflops und Ironwood hat jetzt 4614. Also Okay. Es geht alles weiter nach oben. Alles wird dazu führen, dass AI Inference effizienter wird, schneller und hoffentlich kostengünstiger. Und vor allem im Verhältnis zu soll besser, also sein, was definitiv gut ist. Weil ich weiß nicht, ob ihr's verfolgt hat, aber Eric Schmidt, der ehemalige CEO von Google, hat auch in 'nem, ich weiß nicht, Kongressanhörung oder so ähnlich erzählt, dass er glaubt, dass bis 2000, ich weiß nicht, 27 oder 30 AI Servercenter irgendwie 2 Gigawatt pro brauchen und das irgendwie mehr ist als alles andere und eventuell 99 Prozent von unserem Strombedarf bald über an Server gehen könnte. Deswegen ist definitiv oder halt bessere Optionen sehr, sehr cool. Dann noch vielleicht ganz kurz für so, sag ich mal, Open Source Development. Man hat Google Google Cloud Team hinter VOTEX. Er hat das Agent to Agent Protokoll vorgestellt, was son bisschen so ähnlich ist wie MCT, worüber wir reden werden. Aber der, ich sag mal, das das TELDIA von Agent to Agent ist, Sie haben halt eine Art Standardschnittstelle beziehungsweise definiert, wie man Webservices deployen kann mit Beispielen, sie möglichst einfach zu integrieren. Das heißt, man kann sich das so vorstellen, ich hab irgendwie 'n und den deploy ich mit dem Agent to Agent Protocol und Framework. Und dann hab ich 'n anderen Agent mit Lama Index oder mit Crew AI. Und dann kann ich die alle relativ easy miteinander verbinden, weil die alle dieselbe Sprache sprechen. Und dann kann zum Beispiel der ganz einfach den Crew AI Agent aufrufen oder halt eine Nachricht weiterleiten. Und dann noch wurde das Toolkit vorgestellt, welches auch so ähnlich wie das oder die oder oder oder ein neues eine neue ist, zu bauen, gerade für, das heißt Modelle, die auf Verfügung stehen wie Gemini, antropic oder auch Hoging Race Modelle und natürlich auch AI Studio mit, relativ ähnlich zu, Agent SDK, wenn ihr die kennt oder und bei der DGA. Vielleicht das einzig Coole bei der bei dem Agent Development Toolkit, was es son bisschen unterscheidet, ist, dass man direkt eine Integration zu Google Cloud hat. Das heißt, wenn ich meinen Agent definiere in 'nem Fall, kann ich das sehr, sehr einfach zu Google Cloud deplauen und auch das ganze Management über Serviceaccounts wurde auch mit eingebaut.
Dennis
Okay. Spannend. Ja. Eine Kurzrückfrage zu dem live, zu der live API, also wo man Voice Invoice out macht, hast Du gesagt, Hintergrundgeräusche werden besser unterdrückt und es wird nicht alles an das Modell geschickt. Ist das dann irgendwas Lokales? Das heißt, es gibt SDKs, die man nutzen kann oder wie ist die?
Philipp
Nee, es passiert immer noch, also es ist 'n Websocket. Mhm. Und man schickt dann immer noch den Audiostream, aber im Hintergrund kann man sich das 'n bisschen so vorstellen, dass halt eine Art passiert, wo dann halt das zum Modell weitergeleitet wird als Input dann direkt.
Dennis
Okay, hast ja. Und eine Zahl, die ich gelesen hab, die ich auch interessant fand und zu dem Kommentar am Anfang passte, wie erstaunt Du bist, dass es immer noch sehr viele gibt, die es nicht so stark einsetzen in 1 ja im April veröffentlichten Studie von von Gardner. Sie erwarten, dass 2028 75 Prozent der Softwareentwickler AI nutzen wollen. Da dacht ich so, okay, krass, ich hätt immer gedacht, dass wir da jetzt schon sind. Aber nein, Okay. 2028 75 Prozent.
Philipp
Also ich glaub, Coding, man sieht's ja auch bei allem, was veröffentlicht wird von Antropic oder von anderen ist. Coding ist mit 1 der größten Use Cases, wo Leute einen nutzen, weil man ist viel näher an der Materie dran. Aber ich weiß nicht, so Mittelstandsunternehmen, kleine Unternehmen, da ist es wahrscheinlich noch viel, viel, viel weiter weg. Oder auch bei größeren Unternehmen, man kennt's wahrscheinlich, Prozesse dauern ein bisschen länger und ja. Das meiste ist halt immer noch diese typischen mit Research oder mit Rak und so was, was halt jetzt sehr interessant ist, was ich auch sehr empfehlen kann. Es gibt 'n Talk von der Google Cloud Next von Patrick Marlow, der ist jetzt auch online verfügbar. Der hat ja sozusagen die Zukunft von 'n bisschen vorgestellt und geht demoed. Da hat er mithilfe der live API ein Support Agent präsentiert, der auf 1 Webseite direkt integriert war. Also man kennt vielleicht diese Chat Bubble, die man unten hat. Und man klickt da drauf und dann konnte man mit 'nem Agent reden. Und dieser Agent hat dann im Hintergrund genutzt, dann auf Daten zuzugreifen. Und er konnte dann darüber, also es war sone Art Blumenshop, wo er Blumen bestellt hat und hat mit dem Support Agent dann geredet, wie er die am besten pflegen kann und was für eine spezielle Erde er braucht. Und dann hat sich das, es war echt 'n sehr, sehr cooles Interview, weil oder sorry Demo, weil der Support Agent dann auch mit Salesforce verknüpft war und man dann sozusagen 'n Human in der Loop mit eingebaut hat, wenn der Agent nicht weiterwusste. Vielleicht können wir das auch einfach in die Shownotes packen, weil es ist eine sehr, sehr coole Demo, wo ich glaube, dass wir halt in 4 bis 5 Jahren hingehen, wo's dann immer besser wird und dass man sich einfach son kleines Bild machen kann.
Dennis
Ja, cool. Du tippst schon, hab ich erst hier 'n Slack gesagt, Du tippst. Dass wir's nicht vergessen, den Link. Cool, dann, damit Du nicht alles an einem Blog erzählen musst, also es kommt gleich noch 'n bisschen was von Google, aber vielleicht unterbrechen wir das mal ganz kurz, auf ein, 2 Neuerungen von zu gehen. Und da gibt's auch wieder neue Modelle. Und zwar einmal wurde die GP Four Point One Reihe veröffentlicht. Das heißt, es ist praktisch eine Weiterentwicklung
Philipp
der Reihe.
Dennis
Und sie wurde letztendlich vor allen Dingen, also es gibt aus Aussage von ihnen selbst, gibt die Bereiche Coding, die deutlich besser geworden sind, und langer Kontext. Und auch da haben sie das wieder in in vielen Benchmarks letztendlich getestet und ja, durch die Bank weg einfach eine deutlich höhere Performance in all denen. Die gibt es auch wieder in unterschiedlichen Ausprägungen. Oh, ich hab hier zu viele Fenster von dem Ding. Also, JPPD 4 Punkt One Mini und 4 Punkt One Nano. Und ich glaube, Nano ist damit auch das günstigste Modell, das sie jemals hatten. Genau, das heißt, da sind sie bei Output Preisen pro Millionen Token jetzt von 40 Cent und Input von 10 Cent. Das heißt Weißt Du,
Philipp
welches Modell genauso viel kostet interessanterweise? Nein, aber
Dennis
Du wirst mir aus Google sich wahrscheinlich gleich sagen können.
Philipp
Ja, ja, also das Champions 2 Punkt 0 kostet exakt gleich als.
Dennis
Okay. Ja.
Philipp
Es war bestimmt zu fahren.
Dennis
Vermutlich. Jo, genau. Also die die Reihe haben Sie geupdatet und dann das andere große Update ist zu dem o-drei und o-vier-mini. O-drei ist ja auch eigentlich was, was jetzt schon relativ lange klar war, dass das gibt und wo es nur den noch nicht gab. Und jetzt haben sie eben o-drei rausgebracht und o-vier-mini. Und letztendlich kann man sich das dann jetzt so vorstellen, dass also diese, man hat ja auch vorher die o-drei-mini-mini-und-sieben-Mini-high-gab es ja in dieser Modellauswahl bis jetzt und die sind eben dann ersetzt mit o-vier-mini und o-vier-Mini-genau, als als Model ist dann jetzt öffentlich verfügbar.
Philipp
Genau. Und was man vielleicht noch 'n bisschen dazu sagen kann, also die 4 Punkt 1 Serie ist so, Non reseling, das heißt so ähnlich wie v o und es gibt sie nur aktuell als Version. Und es ist nicht sicher, ob sie zu Chat GPT kommt.
Dennis
Mhm.
Philipp
Und o free wurde ja schon im Dezember vorgestellt in der Week, die OpenAI hatte, aber das neue Modell, was sie jetzt released haben, ist 'n anderes, als damals getestet wurde. Und die gibt es in ChatGPT und mini ist genauso teuer wie mini. Das heißt, irgendwie 4 Dollar 40 pro Million Output Token und ein Dollar 10, glaub ich, pro Million Input Token. Und was ganz interessant für mich find ich, ist, mini ist günstiger als 4 1 Base und 4 1 mini, aber besser. Deswegen ist für mich dieses, warum Also zum einen war alles wieder in 1 Woche. Warum gibt's jetzt plötzlich 4 1 und 4 Punkt 5 kamen vor 'n paar Wochen. Im gleichen Zug kamen sie 4 Punkt 5 depricated. Das heißt, wenn ihr noch nicht die Chance hatten hattet, GPT 4 Punkt 5 zu testen, weil ich es sehr teuer ist, aber falls ihr's noch testen möchtet, ihr habt irgendwie bis Juli Zeit, dann wird es wieder runtergenommen. Und ihre 3 neuen Modelle sind halt 4 Punkt 1, o 3 und o 4. Ich mein, das Naaming war davor schon 'n bisschen kompliziert, aber ich glaub, jetzt haben sie's komplett verloren. Verloren. Und was man vielleicht noch am, was mich persönlich sehr fasziniert hat, ist, Sam Altman hat ja vor 'n paar Wochen und wir hatten's auch in der News Folge son bisschen einen Ausblick gegeben, darauf gegeben, wie die Roadmap sein sollte. Und da wurde, hatte er gesagt, dass sie o 3 nicht releasen werden. Es gibt kein weiteres Non Resending Modell von OpenAI und das nächste wird GPT 5 sein. Und es gibt jetzt 'n neues Non Resending Modell, o free würde released und das nächste Modell waren nicht GPT 5, sondern 6 andere Modelle. Ja.
Dennis
Ja, da hat vielleicht noch mal irgendein Produktmanager dazwischen gefunden und gesagt, nee, das ist gut, zu gut. Das müssen wir trotzdem noch mal rausbringen und auch und die Leute vollends zuführen, was die ganzen Zahlen angeht. Ja, aber macht ja vielleicht auch Sinn, dass diese Four Point One Reihe nicht unbedingt in ChatGPT geht, also grad wenn's halt die Codingcast, ne, besser macht, das ist ja vor allen Dingen interessant, es dann über die ganzen Tools irgendwie nutzen zu können.
Philipp
Und vielleicht, was man noch wirklich hervorheben kann, was ich wirklich beeindruckend fand, also was Sie auch gedemut haben, o-drei-und-o-vier-und-o-vier-Mini haben jetzt Image Input, also man kann Bilder hochladen. Und Teil dieses ist, dass die Modelle Zugriff zu ganz viel mehr Tools haben. Und wenn Du jetzt eine Frage zu 'nem Bild stellst, kann es sein, dass das Modell als Teil ihres eventuell in dieses Bild reinzoomt und dann sozusagen 'n Ausschnitt von dem Bild extrahiert oder auch generell können die neue Modelle jetzt und miteinander verbinden. Das heißt, wenn ich irgendwie eine Frage stell, wo ich etwas nachsuchen möchte oder 'n Bild hab, dann kann es sein, dass während dieses Prozess eine Google Suche durchgeführt wird, dann die Antwort wieder zu dem Modell geht und dann das Modell weiter darüber und vielleicht eine weitere Suche macht und man als User sozusagen wartet, bis das alles passiert ist und dann eine Antwort bekommt. Und wenn man das vergleicht mit, wie's bisher war oder bei anderen Providern, hat man immer bei Toolcalling dieses Konzept gehabt, okay, ich schick eine Anfrage. Das Modell entscheidet, welches Tool ich zum Beispiel nutzen möchte wie Google. Und dann muss ich sozusagen die Google Suche auf meiner Seite ausführen oder es wird ausgeführt und dann die Antwort generiert, aber nicht diesen diesen Prozess sozusagen. Und das find ich schon sehr, sehr cool. Also da haben sie wieder extrem gute Arbeit geleistet. Und wer hat Zugang irgendwie zu hat und Bro, glaub ich, und das mal testen, also definitiv, sieht cool aus. Und dann auch die, son bisschen die die Zusammenfassung von dem anschauen, dass es definitiv, wohin's in Zukunft gehen wird.
Dennis
Ja. Und Sie sagen ja auch, dass Imagegeneration auch wieder ein ein Teil ist, der auch möglich ist. Weißt Du, welche, auf was Sie da dann zugreifen? Ist es dann das Neue?
Philipp
Ich hab gelesen, dass auch nur Tool Calling ist. Und was im Hintergrund passiert wird, weiß ich nicht. Aber es macht auf jeden Fall 'n Unterschied aus, welches Modell man nutzt. Wer ist sozusagen, bei diesem Tool Call wird auch 'n prompt mehr oder weniger mitgegeben. Mhm.
Dennis
Und
Philipp
der prompt ist natürlich anders, von welchem Modell man nutzt. Also sollte man 'n bisschen testen. Aber Okay. Mehr weiß man nicht.
Dennis
Ja, also wieder einiges, was man testen und ausprobieren kann. Vielleicht macht's Sinn, die Verwirrung komplett zu machen und weitere Nummern und Namen in den Raum zu werfen, wenn wir kurz noch mal genauer eingehen auf Gemini 2 Punkt 5 Flash an der Stelle.
Philipp
Genau. Also wurde in an der Google Cloud Next angekündigt, ist jetzt verfügbar in der API, in AI Studio und ich glaub, in Votex AI und bald in der Gemini App. Auf jeden Fall AI Studio ist der einfachste Weg zu testen. Mhm. 2 Punkt 5 Flash ist das erste Modell mit Dynamic Thinking. Das heißt, man hat son Art Budget, das man definieren kann. Ich kann das auf 0 setzen, dann wird einfach direkt die Antwort generiert. Oder ich kann es auf 1000 Token, 2000 Token bis zu 24 Token, 1000 Token setzen. Dann würden werden sozusagen wird dieses Budget genutzt, erst dieses oder durchzuführen und dann die Antwort zu generieren. Erst endlich.
Dennis
Wird aber immer genutzt dann das Budget? Oder ist das son
Philipp
Das ist son Maximalding. Also das heißt nicht, wenn Du 24000 Tokens sagst, dass es 24000 Token generiert und dann die Antwort macht, sondern das ist sozusagen das Maximalbudget. Mhm. Also ist eher 'n bisschen sag ich mal. Mhm. Und auch vielleicht dynamisch mit 'nem Art Classifier. Wenn ich eine App baue, wenn da kommt high, dann brauch ich irgendwie kein und dann kann ich einfach high antworten, sag ich mal. Wie alle anderen Modelle aktuell, 1000000 Es ist multimodal, sei es Text, Bilder, Video, Audio. PDFs können als Input gegeben werden, aktuell nur Text als Output. Es kann hat Zugang zu den nativen Tools wie Google Suche und Code Execution. Ich glaub, das Interessanteste ist natürlich der Preis, 0.15 Dollar, also 15 Cent für 1000000 Input Tokens. Und dann bei den Output Tokens wird's 'n bisschen komplizierter. Wenn man kein Thinking hat, also Thinking Budget gleich 0, hat man 0.6 Dollar pro 1000000 Output Tokens, also 20 Cent teurer als GPT 4 Punkt 1 Nano. Wenn man nutzt, hat man 3.5 Dollar pro 1000000 Output Tokens. NEA Studio hat man free, also man kann's testen for free und auch generell im hat man 10 pro Minute und 500 pro Tag. Das heißt, wenn ihr Germany Modelle aktuell nutzt, könnt ihr testen, ob's vielleicht besser ist. Es wurden auch Benchmarks released und es ist besser als 2 Punkt 0 Flash in allen Bereichen, wenn man nutzt, vor allem in Mathe und auch im Coding, auch im Visual Understanding, einfach 'n Upgrade perfekt, sag ich mal, in der Mitte zwischen 2 Punkt 5 Pro und 2 Punkt 0 Flash.
Dennis
Und Du hast jetzt grade 2 Punkt 0 Flash gesagt. Hieß das nicht?
Philipp
Ja, Flashwinking gibt's nicht mehr.
Dennis
Und das gibt's nicht mehr? Auch
Philipp
bei 2
Dennis
0 nicht mehr oder heißt es oder ist es jetzt wegen dem Hybriden, dass das Dinging weg ist?
Philipp
Also es gab 2 Punkt 0 Flash und dann gab's diese Flash Thinking Version. Mhm.
Dennis
Die
Philipp
Flash Thinking Version war immer 'n Preview oder Experimente. Mhm. Die wurde sozusagen nie verfügbar gemacht.
Dennis
Okay. Weil
Philipp
man hat dieses Thinking und Reasoning direkt in das Flash Model integriert. Und da hab ich jetzt dieses Hybrid Thinking, wo ich entweder sagen kann, hey, ich nutz es ohne, dann hab ich 'n bisschen bessere Performance als 2 Punkt 0 Flash oder ich nutz es mit Thinking für spezielle Aufgaben, dann hab ich natürlich besseres Ergebnis, aber kostet auch 'n bisschen mehr.
Dennis
Okay. Cool. Ja, ich glaub, das ist mit 'nem einem relativ kurzen Satz einmal abgehandelt, einfach weil's eine schöne Headline ist mit dem Dolphin Jammer. Google arbeitet an einem Modell, Audio zu Audiokommunikation mit Delfinen zu ermöglichen. Also
Philipp
ist
Dennis
noch nicht so, dass man jetzt sagen kann, okay man man jetzt kommuniziert man schon mit denen, aber natürlich ist es super interessant zu sehen, dass die dass diese generativen Modelle vielleicht auch da uns weiterbringen können, dass wir irgendwann, ich weiß gar nicht, ich mein Delfine sind ja schon auch fiese Tiere manchmal, ob man unbedingt mit ihnen reden will und die Gedanken 100 Prozent verstehen will. Aber wir bewegen uns in 1 Richtung, wo das passieren kann und wo man tatsächlich auch in Echtzeit dann Geräusche zurückgeben kann und vielleicht es schafft, irgendwann mit Delfinen zu sprechen.
Philipp
Ja, also ich find's halt zum einen extrem cool, dass die Forschung betrieben wird und zum anderen extrem beeindruckend. Also ist der das Konzept hinter Dolphin Jama, ist dasselbe Konzept, wie wir bei unseren normalen Modellen haben. Also dieses Next Token Prediction oder Next Sound Prediction, wie auch immer. Und man hat es auf eine auf Datensätzen von glaub, ich weiß nicht, wie viele Jahre trainiert.
Dennis
Fünffünfundachtzig oder so. Ist eine Ewigkeiten, glaub ich.
Philipp
Und hat sozusagen es geschafft, den der Sound oder was auch immer die Delfine von sich geben, weiter zu generieren. Und die Forschung geht auf jeden Fall weiter. Man vielleicht andere Tiere, ich weiß es jetzt nicht genau. Aber das, was für mich so krass beeindruckend war, was ich vorher einfach, was man vielleicht vergisst, ist, man hat herausgefunden, dass Delfine definitiv miteinander kommunizieren und eine Art Sprache haben. Und normalerweise bedeutet, wenn Lebewesen eine Sprache hat, dann existiert auch eine gewisse Kultur. Und das wär dann halt schon sehr, sehr interessant zu sehen, wie viel wir halt über die Tierwelt mehr lernen können durch KI. Und ich werd definitiv weiterhin verfolgen, was was passiert. Ja. Ich mein klar Human to Delfin Kommunikation eventuell nicht, aber wenn man schon allein rausfinden kann, was ist wie die Delfine miteinander reden oder was es da gibt oder vielleicht auf andere Tiere. Und hey, wer weiß, bei uns, sag ich mal, in der Sprache Multilingual geht ja mit allahams auch. Wer sagt nicht, dass wir irgendwie irgendwann auf allen Tiergeräuschen trinken trainieren und dann plötzlich 'n Hund mit 'ner Katze reden können? Oh
Dennis
Gott. Ja, ja. Also es gibt manche Kombinationen, die stelle ich mir nicht so gewinnbringend vor, aber ja, auf jeden Fall mega cool. Und 'n bisschen könnt ihr ja auch heute vielleicht schon mit 'ner Nachbarin. Ich hab ja 'n bisschen sich schon, vielleicht können sie ein bisschen kommunizieren und das macht es uns noch klarer. Mega mega spannend auf jeden Fall in welche Richtung das jetzt überall Eingriff Eingriffe hat. Ein Artikel, den wir euch noch verlinken, ist 'n bisschen 'n Tutorial letztendlich, aber auch ein Hinweis darauf, wie man mit Docker Modelle lokal laufen lassen kann. Unter anderem Jamma 3, das heißt, da gibt es den Docker Modelrunner und das ist 'n neues Tool oder 'n neues neuer Service, der in in dem Docker Desktop mit drin ist. Klein, den man runterladen kann. Und dort kann man dann relativ einfach Modelle runterladen und die eben verfügbar machen über eine AP. Und dadurch lässt sich halt ja lokale Gen AI Experiences letztendlich kreieren. Und da diese Modelle auch immer effizienter und besser werden, kleiner werden, ist das schon ganz cool, was man damit relativ wenig Aufwand eben auf dem aufm lokalen Rechner für Tools mitschreiben kann. Und ich glaub, Du hast dann auch noch 'n Update zu Jamma 3.
Philipp
Genau. Wir haben an Karfreitag neue Versionen von Jimmer 3 Release und zwar quandt the where Trained Version. Das bedeutet mehr oder weniger, wir haben kleinere Versionen von Jimmer, die speziell trainiert würden, dann besser ob man damit man sie besser heißen kann. Gibt's für alle Open Source Local Tools außer Docker Model Run, würd ich jetzt mal sagen. Also wir haben mit OLama, mit mlx, das ist das Mac Local Tool, LM Studio, Lama, CPP zusammengearbeitet, dass die alle verfügbar sind. Das heißt, wenn ihr irgendwie aktuell Jamma 3 lokal nutzt, dann definitiv mal die UAT Checkpoints sich anschauen. Kleiner, besser, also man braucht jetzt glaub ungefähr 15 Gigabyte, twenty 7 b auszuführen. Vielleicht 'n bisschen mehr, damit man 'n bisschen Kontext hat, aber 12 b geht auf jedem, sag ich mal, Computer mit 8 Gigabyte Arbeitsspeicher, geht dann auch auf CPU, umso kleiner man wird und sehr, sehr cool.
Dennis
Fantastisch. Ja, ich glaube, das geht auch relativ schnell. Nvidia sagt, dass sie in Zukunft alle ihre Supercomputer in den USA produzieren möchten. Und ja, kommt son bisschen, hatten wir ja auch schon in den News aus dieser 500000000000 in in, nee nicht Investigation, in dem, was die USA da sich auf die Fahne geschrieben haben im AI Space. Und ja, kann man letztendlich unter ein eine Maßnahme sehen, die sie dort ziehen und hat mit Sicherheit auch 'n bisschen was mit den schwierig vorhersehbaren Handlungen des aktuellen US Präsidenten zu tun, dass man da 'n bisschen auf Nummer sicher gehen will und versucht dann für die lokale Wirtschaft dort AI Chips produzieren. Und dann, was haben wir denn hier noch? Ah ja, die ganzen Videosachen, die die fehlen noch. Also alles, was mit Video zu tun hat.
Philipp
Genau, also Google oder DeepMind trainiert nicht nur Gemini Modelle oder Jamman Modelle, sondern es gibt auch Gen Media Modelle werden die, glaub ich, bei uns genannt. Mhm. Und 1 davon ist Vio 2, welches 'n Text to Video Modell ist. Das heißt, ich hab prompt oder 'n prompt plus 'n Bild und kann dann Videos generieren und seit der Google Cloud Next ist in der API verfügbar, dass ich heiß, ich kann API requests machen und 'n Video generieren. Videos sind 5 bis 8 Sekunden lang HD Auflösung, also 720 p, Framerate von 24 Pixel. Ich kann 16 zu 9 oder 9 zu 16 Videos generieren. Was vor allem finde ich richtig cool ist, ist ist 'n AR Studio auch frei, ein Video pro Tag, glaube ich. Das heißt, man kann 'n Bild hochladen und 'n kleinen Bomben machen und es dann testen. Es gibt's auch in der Germany App, da aber nur für Advanced User und da hat man auch höhere Rate Limits. Also vielleicht noch 'n Grund, Gender Advanced mal zu testen. Und sehr, sehr cool. Also ist mit 1 der besten Text- oder Video Modelle, die ich gesehen hab. Und auch was man, als damals angekündigt wurde Ende letzten Jahres, war das typische Beispiel, 'n Fleisch schneiden mit 'nem Messer und dass es schön abgefallen ist. Das hat View richtig gut gemacht. Sora von OpenAir jetzt nicht so gut. Deswegen, falls Sie in dem Bereich tätig sind, gerne mal reinschauen und testen. Ja.
Dennis
Jo. Sehr cool. Und hab ich das gerade irgendwie falsch oder weißt Du das falsch im Kopf, dass Google auch son bisschen son gesamtes Media Studio oder so was bauen will, wo man die ganzen Prozesse, die man braucht, letztendlich irgendwie son Werbevideo oder so was zu bauen, dann zusammenbekommt?
Philipp
Ja, also es gibt von Google Labs mehrere Projekte dafür. Es gibt VideoFX, ImageFX und MusicFX. Es ist 'n bisschen, sag ich mal, benutzerfreundlicher gerade für halt Videos, Bilder und Music. Es gibt diese Modelle auch jetzt mittlerweile in Wootex AI. Ich weiß nicht genau, muss ich sagen, ob das irgendwann zusammengeführt wird, könnt ich mir vorstellen. Aber ja, es wird auf jeden Fall viel in dem Bereich Gen Media gemacht und es gibt ganz viele Modelle von, also kann man gerne mal bisschen googeln oder nutzen, rauszufinden, was da der aktuelle Stand ist.
Dennis
Sehr gut. Sollte auch als Überleitung gelten zu noch einem Modell, das sich nennt. Genau. Und die sagen, also nicht nur Text, sondern kannst Du alles reinschmeißen. Und die Demos fand ich ganz cool. Worum geht's da?
Philipp
Genau. Anything to audio oder sorry, Audio x ist 'n Anything to audio Modell, leider Non Commercial Use, wurde veröffentlicht auf Huggingface vor ungefähr 20 Tagen und ist 'n Modell, das man prompton kann mit multimodal Inputs, welches dann ein neues, 'n neuen Sound generiert. Und was ich auch sehr cool fand, ist also das Beispiel ist zum Beispiel, ich hab irgendwie 'n Youtube Video, 'n Screencast, dass ich Hintergrundmusik generieren kann und ich hab als Input mein Video und 'n Text prompt oder ich kann, sag ich mal, verschiedene Szenario Sounds erstellen für irgendwie Regen oder irgendwelche anderen Dinge. Funktioniert mit einem Transformer, das ist dieselbe Architektur hinter wie hinter dem letzten Modell oder auch Flux. Natürlich mit 'n paar Abänderungen. Es gibt eine coole Project Page, wo man sich 'n paar mehr Demos dazu anschauen kann. Grade wie das halt Text to Audio, Text to Music oder halt die Video to Music Generierung funktioniert. Man kann es, es gibt Code, den man lokal selber ausführen kann. Es gibt eine Onlinedemo, die man testen kann. Ja, und man kann's natürlich höchstwahrscheinlich dann auch selber fine tunen. Wobei ich halt hier denke, dass die Datensets 'n bisschen schwieriger zu finden sind.
Dennis
Ja, nee, fand ich mega gespannt. Ich fand das Beispiel cool, wo son Tennisvideo ist und dann der der Sound dafür generiert wird und der hört sich schon einfach echt gut an. Und grade ist ja noch so, dass die ganzen Videomodelle einfach ein stummes Video ausspucken und wenn man da 'n bisschen einfach Ton haben will, ist natürlich cool, wenn dann ein nächstes Modell die Ecke kommt und man direkt das komplett vertonen kann damit. Yes, dann haben wir noch ein, ich weiß gar nicht, ist es mehr als ein Gerücht oder ist es ein Gerücht? Es geht darum, dass Open AI plant oder wie auch immer man das in der dann in der Welt ausformuliert, Windsurf zu kaufen, die ja eine IDI bauen und man hat auch gesehen irgendwie, zumindest mögen sie sich, weil sie hier und da jetzt in den letzten Produktvideos aufgetaucht sind und son bisschen man zusammen gemängelt hat und so. Hast Du da in den letzten noch mehr drüber gehört oder ist das so der der letzte Stand, dass sie wollen's vielleicht kaufen?
Philipp
Also das Gerücht kam ja auf, nachdem o 3 und o 4 mini vorgestellt wurden, glaub ich, am selben Tag. Und es wurde nicht nur von 1 News Seite irgendwie geschrieben, sondern gefühlt jeder darüber geredet. Und das ist schon 'n bisschen auffällig, wenn der Windsurf CEO dann plötzlich in 'nem Open AI Model Release Video kommt und die Open AI Modelle für eine Woche kostenlos zur Verfügung stehen. Ich glaube, es bleibt abzuwarten. Ich hab viele Meinungen dazu gehört, dass es 'n sehr, sehr guter wäre von Open AI. Sie wollen ja irgendwie Developer wieder zurückgewinnen. Und es gibt nichts Besseres als eine sehr erfolgreiche IDI, sag ich mal, die die Developer nutzen, mehr Daten, mehr Wissen zu bekommen, vielleicht mehr Anwendungen zu bauen. Wir haben das auch grad mal bisschen mit 'n bisschen verknüpft, sag ich mal. Bisher gibt's halt nur ganz viele dazu, bleibt abzuwarten. Aber es ist schon sehr deutlich. Also, ja.
Dennis
Und eine schlappe Summe von 3000000000 stehe noch mal.
Philipp
Ja, was halt so für mich so unglaublich beeindruckend wäre, wenn das halt wirklich geht oder wenn es durchgehen würde. Windsurf beziehungsweise Kodium hießen sie ja bis vor Kurzem noch, wurde 2018, nee, 2021 irgendwie 1 von beiden Jahren gegründet. Warte, ich hab's mir extra abgespeichert. Ja, wurde vor 4 Jahren gegründet und würde, hätte dann von 0 auf 3000000000, also Exit nur über, sag ich mal, geschafft. Wäre auf jeden Fall eine sehr, sehr gute Erfolgsstory, würd ich mal sagen.
Dennis
Jo. Na ja, gefahren. Cool. Und dann noch ein kurzer Link, den ihr lesen könnt, wenn ihr Interesse habt, der Shopify CTO hat, nee, CEO, also das glaub ich, ne, hatte eine interne Memo veröffentlicht, weil sie sowieso geleakt wurde. Und ist einfach son bisschen ein ein Take 1 sehr, sehr großen Firma doch auch und wie da der CEO vorgibt, dass halt AI zu nutzen der neue Standard ne. Und dass auch Performance Reviews, die man irgendwie im Team hat und so was, mit darauf basieren und das einfach erwartet wird, dass dass AI genutzt wird. Und auch in so Bereichen dann, bevor ein Team irgendwie mehr Ressourcen bekommt in Form von menschlichen Mitarbeiter*innen, muss man erstmals beweisen, dass man das nicht mit der AI genauso gut hinbekommt. Also es ist einfach am, ja, all in, was die Nutzung von AI angeht und ein festes Glauben daran, dass dass es noch mehr kommt.
Philipp
Vielleicht noch ganz kurz dazu hinzufügen. Tobi, also der CEO ist 'n selber 'n sehr guter Entwickler, würd ich mal behaupten und ist auch sehr tief in 'nem AI Thema drin, weil er hat schon damals bei Hackingface by Transformers oder Diffusers oder Lama CPP selberpo request geöffnet. Also das ist jetzt nicht 1, der nur den ganzen AI Hype und die Versprechungen hört, sondern auch wirklich tief in dem Thema drin ist. Deswegen ist es schon eine sehr, sehr interessante Memo.
Dennis
Ja. Ja, find ich auch immer superspannend. Manchmal denk ich auch so im im Bezug auf, wir sind jetzt deutlich kleiner und vielleicht macht das immer so ein bisschen anders, aber wann muss man sich so in der Rolle 1 Unternehmens fragen, wann man irgendwie Strukturen anpasst. Ist es okay, wenn man einfach so ein bisschen mit dem Flow geht und wartet, ne, bis irgendwie alles da ist oder hat man wirklich 'n Wettbewerbsvorteil, wenn man halt extremer darauf setzt, was am Anfang mit Sicherheit noch 'n bisschen mehr Aufwand dann irgendwie bedeutet im im ersten Schritt, aber hinten raus dann irgendwie davon profitieren kann und ja.
Philipp
Ich glaub immer, bei so 'nem Entscheid steckt 'n bisschen mehr dahinter, als irgendwie die Produktivität zu erhöhen. Also ich kenn jetzt die aktuelle Lage von Shopify nicht, aber ich mein, EA wurde ja in der Vergangenheit ganz oft dazu genutzt, Kostenreduktion zu argumentieren oder Team runterskalierung zu argumentieren oder irgendwie zu vertreten. Deswegen, ich glaub, wenn wenn das bei euch, sag ich mal, jetzt nicht son großes Thema ist, dann, warum sollte man son großes Risiko eingehen? Klar, man wär, ist wahrscheinlich schneller und ich mein, ich selber als Entwickler nutze gefühlt jedes AI Tool, das irgendwie gibt, weil's halt echt viel Spaß macht und mir wirklich hilft. Ja. Aber halt dieser Zwang ist halt, find ich, das das sehr Interessante daran,
Dennis
ja. Ja, und da vergess ich wahrscheinlich auch immer wieder, dass wir irgendwie doch in 'ner gewissen sind, dass all unsere Dev seit 2 Jahren, ja, GitHub Pro Bullet mindestens mal nutzen und, ne, viele jetzt Curse ständig einsetzen und so. Und dass das in vielen anderen Branchen auch einfach gar nicht so einfach möglich ist, ja, das alles sofort immer ab Tag 1 zunächst.
Philipp
Ja, und ich glaub halt bei, ich kenn jetzt bei GitHub die Enterprise Version nicht, aber Cure und so geht ja immer noch alles Richtung irgend 'ner gehosteten API.
Dennis
Und
Philipp
ich mein, ich weiß, wie streng Unternehmensrichtlinien sind, was Codsharing schon angeht, nur irgendwo zu hosten, sag ich mal. Ja. Ich glaub, das ist halt auch dann noch mal 'n viel, viel weiterer Weg.
Dennis
Absolut. Cool. Wenn ihr diese Folge Mittwoch den Dreiundzwanzigsten hört oder am frühen Tag am Vierundzwanzigsten, dann habt ihr noch die Chance, morgen oder heute, je nachdem, zu unserem Meet-up zu kommen. Das findet nämlich statt am vierundzwanzigsten Donnerstag, den vierundzwanzigsten April. Und wir gucken, machen zusammen Kino und gucken. Das ist eine Dokumentation über Deep Mind und ja, das heißt, passt sehr gut in diesem Podcast und zu AI insgesamt. Genau, Getränke und Essen ist wie immer da und ich bin sehr gespannt, was wir da zu sehen bekommen.
Philipp
Und wenn ihr euch fragt, was ist, es gibt auch eine eine 'n Trailer auf Youtube, den man sich anschauen kann. Jawohl.
Dennis
Genau. Jo, ich glaub, das war's. Feedback wie immer an Podcast at Programmier Punkt bah. Vielen, vielen Dank Philipp, dass Du alle 14 Tage für uns da bist. Und jetzt gleich nehmen wir hier direkt die Folge zu auf und die könnt ihr euch auch bald anhören. Macht's gut, bis bald.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Senior AI Developer Relations Engineer bei Google DeepMind und arbeitet an Gemini und Gemma. Er hat es sich zur Mission gemacht, Entwickler:innen dabei zu unterstützen künstliche Intelligenz verantwortungsvoll einzusetzen. Zuvor war er Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback