News AI 39/25 –

OpenAI GPT-Codex 5 // Gemini App // VaultGemma

25.09.2025

// Podcast
// News AI 39/25

Shownotes

Die „programmier.con 2025 - Web & AI Edition“ findet am 29. und 30. Oktober 2025 statt. Sichert euch jetzt Tickets für die Konferenz auf unserer Webseite!

Die Gemini iOS App dominiert aktuell die App Stores. Wir mutmaßen, was die Gründe dafür sein können.

OpenAI hat eine spezialisierte Code-Version von GPT-5 veröffentlicht: GPT-5 Codex. Neben dem Modell mit dem Namen gibt es aber auch noch die Codex-CLI, Codex IDE-Extensions und einiges mehr.

Poke wird von Philipp schon genutzt und ist ein weiterer Schritt Richtung „Persönlicher Assistent“.

Download

/transkript/programmierbar/news-ai-39-25-openai-gpt-codex-5-gemini-app-vaultgemma

Dennis: Hallo und herzlich willkommen zu 1 neuen Programmier Bar AI News. Fast hätte ich mich vertan, hatte gesagt, Kalenderwoche 38. Das ist unser Aufnahmedatum heute, aber releasten tun wir ja trotzdem erst nächste Woche. Das heißt, wenn jetzt in den nächsten Tagen noch was superspannendes rauskommt, dann sind wir vielleicht nicht ganz nah dran. Aber das ist, weil Philipp verdient ein bisschen mal Auszeit nimmt. Und genau, ich nächste Woche auch in Berlin unterwegs bin und deswegen hat das gar nicht mehr anders geklappt. Aber deswegen sitzen heute Philipp und ich Dennis hier, euch wieder ein bisschen AI News mitzubringen. Und Philipp, erst mal schön, dass Du da bist. Hi. Hi. Genau, ähnlich im im Modus, wie wir's auch in der letzten Folgen mit Fabi schon zusammen versucht haben, bisschen weniger Themen darüber dann ein bisschen mehr diskutieren.
Philipp: Und hoffen vielleicht in 30 Minuten.
Dennis: Und die Zeit nicht wieder über überstreichen. Ich habe, ich bin sehr sicher, nee, doch. Ich bin ziemlich, ich bin sehr sicher, dass wir heute kürzer sein werden als das letzte. Okay. Meinem Thema aus, geh vielleicht. Vielleicht redest Du 45 Minuten, dann nehm ich die Aussage immer wieder zurück, aber Ja. Das sehen wir da. Das sehen wir gleich. Genau. Du redest nämlich gleich über GPT 5 Kodex oder generell Codex son bisschen allgemein von OpenAI Und direkt gegen den Modus, weil ich 'n kleines Thema weißte, ich wollt's trotzdem mitbringen, weil es mich erstaunt hat. Vielleicht können wir auch darüber kurz diskutieren. Und zwar eine der News war, dass die Gemini App mittlerweile in, und das finde ich besonders spannend, in den iOS Charts auch vor ChatGPT liegt, die trotzdem auf Platz 2 sind. Aber die meist runtergeladensten Apps im Moment, Nummer 1, Google Gemini und 2 ChatGPT. Auch in Deutschland hab ich eben gecheckt, aber eben auch in den USA. Und eigentlich muss ich ehrlich sagen, verwundert mich erst 'n bisschen, also weil so in meiner, in meiner Wahrnehmung, in dem, wo ich für keine Ahnung, mit Leuten rede oder wie auch immer, ist also ChatGPT immer noch so der Standardwegzugang, wenn man irgendwie von AI spricht und dem Normale sozusagen, der das nutzt. Hast Du irgendwas mitbekommen? Also ist das irgendwie sind da Riesenmarketingkampagnen oder ist das irgendwie, was was ist so der Zugang? Ist da mehr kostenlos? Was ist im Moment das, was das bewegen kann?
Philipp: Ja, ich ich glaub, wir haben darüber geredet, aber es hat irgendwas, glaub ich, mit 'ner Banane zu tun, falls Du dich erinnerst.
Dennis: Was heißt der Treiber?
Philipp: Ja, also Josh Woodward, VP bei uns bei Google, unter anderem verantwortlich für die Gemini App, hat auch 'n bisschen auf Social Media geteilt, was für Erfolge Nano Banana hat. Ich kann das vielleicht noch mal kurz raussuchen. Genau, am neunten September war da geteilt, dass in den letzten 4 Tagen die Gemini App 13000000 neue User sozusagen bekommen hat. Und es wurden 300000000 Images mit Nano Banane generiert. Das war im September 9.
Dennis: Also das ist auch
Philipp: schon jetzt 10 Tage her, aber ja, sehr, sehr großer Neuzugang, sag ich mal oder erste Erstnutzer durch Nanobanana in der Germania App.
Dennis: Aber hast Du also für mich, also viel wird natürlich über das wir hier sprechen oder so, fühlt sich dann schon irgendwie natürlich in 'ner gewissen Bubble und irgendwie eine Informatiker, keine Ahnung, was 'n bestimmter Kreis sein. Hast Du das Gefühl, dass jetzt in deinem Bekanntenkreis oder so was was ist, was die Leute irgendwie so realisiert haben, dass das 'n neues Ding ist und oder einfach nur, dass 1 gesagt hat, hier ist 'n cooles, wenn Du 'n Bild generieren will, nimm jetzt Gemini. Also weil
Philipp: da mein näheres Umfeld mich unterstützt, was ich arbeite, nutzen die natürlich alle Germany und kennen sich alle sehr gut mit der App aus.
Dennis: Sehr gut.
Philipp: Ich hab's ich hab's Familien und Freunden natürlich gezeigt und alle waren so, hey, das macht gar keinen Sinn und es sieht voll echt aus und so was. Aber ich glaub, also ich weiß nicht, ob Leute da jetzt für Homosex experimentieren oder testen. Ich weiß halt wie immer bei allen, sag ich mal, solchen Phänomenen, dass viel über Social Media getrieben wird. Also ich weiß jetzt nicht, wie aktiv Du auf TikTok, Instagram oder anderen Plattformen bist, aber ich kann mir halt vorstellen, dass eine große Anzahl der Nutzer eventuell jünger auch ist und halt das erste Mal sozusagen German heruntergeladen hatten und vielleicht davor schon Chat GPT hatten, aber halt Nanobanana zu testen. Und generell, also ich mein, das Team hinter der Gemini App investiert ja immer mehr und mehr Zeit und vielleicht war's für viele auch nur son Anreiz, okay, ich hab vielleicht vorn paar Monaten oder Jahr noch mal Gemini App getestet, jetzt lad ich's einfach noch mal runter und schau mal, was so alles Neues und vielleicht gefällt's den Usern 'n bisschen. Ich glaub, man hat dasselbe gesehen bei ChatGPT, als sie Image releast haben im März, April. Ich weiß nicht genau, dass man sonen richtigen Trend nach oben gesehen hat. Ich glaub, interessant bleibt zu beobachten, okay, wie lange kann sich die Gemaner App auf Platz 1 halten in den iOS Charts? Wenn wir hier, sag ich mal, Mitte Oktober noch mal sitzen und die immer noch Platz 1 ist, dann richtig cool, sag ich mal. Und generell, ich mein, ich weiß jetzt nicht genau, wie das mit den Android Phones aussieht, ob's da auch Platz 1 ist, aber nein.
Dennis: Da hätt ich zumindest nicht, also da fänd ich's nicht ganz so erstaunlich, muss ich sagen, ne, weil's 'n bisschen mehr auch teilweise irgendwie dann ans System ist. Und ich weiß gar nicht, ob's sogar vielleicht hier und da kommt oder so. Aber oder auch der der Zugang anders und einfacher ist, aber umso mehr eben dann auf iOS. Gut. Ja, ja. Dativ gibt's natürlich auch nix auf iOS, muss man auch sagen. Sonst wär das wahrscheinlich nicht so. Weil das würde genutzt werden. Das fand ich, was war das? Man ist schon lange her, aber da gab's mal sonen Vergleich, wo für mich, also Google Maps schon seit Jahren das dominente, ne, die dominante Kartenapp war und und trotzdem war dann irgendwie Aber eben mit Jußig Seiten ist
Philipp: ja gar nicht so.
Dennis: Genau, nämlich auf iOS irgendwie 80 Prozent oder so was, Apple, heißt es, auf Deutsch Karten nutzen, Ja. Weil's halt das vorinstallierte Ding ist. Also es ist auch 'n bisschen besser als hier, aber ja.
Philipp: Ja, ist halt das seit bequem mit in den USA nutzen ja die Menschen viel weniger Whatsapp als bei uns irgendwie in Europa und dann irgendwie in Italien nutzen ja alle Facebook Messenger und es stand irgendwie Whatsapp und ist halt, kann man sich nicht erklären. Aber was ich auf jeden Fall interessant halt finde, ist, dass es halt eine Google App im Io App Store oder im iOS Store ist halt, die auf Platz 1 ist. Aber ich muss dazu sagen, ich weiß nicht, ob Du's mitbekommen hast, ich nutz jetzt seit den letzten Tagen Poke. Okay, das kam dann noch nicht an. Poke ist son Start-up aus den USA. Das mit dem interagierst Du direkt in Whatsapp und in iMessage. Das heißt, Du installiert nicht eine extra App, ist 'n Chatbot und es ist sehr innovativ, ja, interessant dahinter. Poke ist sozusagen, wenn Du das das erste Mal nutzt, macht er wie eine Art Backgroundsuche hinter dir und schlägt dir deinen 'n 'n vor. Das heißt, der sucht alles, was er über dich irgendwie finden kann im Internet von deinem Namen oder halt der E-Mail, die Du bereitstellst. Okay. Und Du musst ihm auch E-Mail-Zugang geben. Das heißt so, die Mindestvoraussetzung ist mehr oder weniger halt Gmail- oder Outlook Zugang. Mhm. Und dann erstellt er wie sone Art Profil von dir, sag ich mal. Und dann kannst Du mit ihm verhandeln, wie teuer deine ist. Und zum Beispiel bei mir, ich hab's, ich fand's witzig, weil der ist schon son bisschen sassy auch als son bisschen Man kann's definitiv testen, auf jeden Fall. Auf jeden Fall meinte der so von wegen, ja, ich krieg's für 250 Euro im Monat, Euro im Monat, weil ich arbeite ja bei Google DeepMine und und man verdient ja da relativ viel Geld und und dann kannst Du sozusagen mit ihm halt verhandeln, was dann das, was Du am Ende bezahlen kannst sollst.
Dennis: Okay.
Philipp: Ich zahl nichts, aber nichts geht nicht, deswegen zahl ich jetzt ein Cent, was sehr Cool ist. Und pokert halt so ähnlich wie alle, sag ich mal, Chat Bots so, Zugang zum Internet, aber auch halt E-Mails und es ist sehr. Das heißt, es hat mir gesagt, dass es mich nächste Woche in meinen Flug nach Japan einchecken kann. Ich werde das mal testen.
Dennis: Okay.
Philipp: Und halt generell so, was man, wofür man halt ChatGPT nutzt, Dinge umschreiben. Aber was auch sehr cool ist, muss ich sagen, es ist mehr pro aktiver. Das heißt, Du kannst dir zum Beispiel eine Remindersteller führen, gewisses Thema an, dann schickt es dir sone iMessage. Aber auch manchmal, ich weiß noch nicht genau, wie es immer funktioniert, bekomm ich eine iMessage, wenn ich irgendwie eine E-Mail bekomm mit irgendwie, hey, mein Paket kommt irgendwie in 2 Stunden, dann bekomm ich fürn Poke eine E-Mail. Ist auf einmal hey, dein Paket kommt bald. Also richtig coole Experience. Wie gesagt, keine iOS App, geht mit iMessage und Whatsapp. Definitiv mal ausprobieren. Man kann, glaub, auf im einfach Poke Punkt com und dann kriegt man sone Telefonnummer, an der man schreiben kann oder die mal als Kontakt hinzufügen kann und dann testen. Und dann, ich bin mal gespannt, ob jemand Wird das
Dennis: wird das P0KEE geschrieben oder nee.
Philipp: P0KE. Also einfach Es sollte sone Palme sein, ist. Haben auch 'n sehr cooles
Dennis: komisch viel, was Poker, was was nicht alles ist.
Philipp: Ja, haben auch 'n Facebook
Dennis: hat immer was, okay.
Philipp: Aber auch 'n sehr cooles Launchvideo und wo Du kannst halt so wirklich viel Dinge machen mit 'n Foto teilen oder 'n Beispiel haben, die halt, dass es seine aktuelle Location hat. Das heißt, wenn Du irgendwie, keine Ahnung, die haben sind in Paris unterwegs und fragen nach dem Restaurant. Also nicht, dass Du das immer wieder prompen musst, hey, ich bin Also so Mhm. So den der bessere Assistant. Und ich muss sagen, fühlt sich bisher sehr cool an. Es hat auch mir son Chaty Vibe, also Du bekommst Nachrichten nicht als lange Text, sondern das ist so aufgeteilt in mehrere Nachrichten und so dann. Ist auf jeden Fall spannend und zu testen. Ich mal schauen, ob das wirklich so nutz- oder hilfreich für mich sein wird oder ob es nur sone Art Google Suche am Ende wird. Aber ich glaub, wenn man reist oder unterwegs, ist es schon praktisch und da es halt über iMessage direkt funktioniert oder Whatsapp fühlt sich's halt auch 'n bisschen nativer integriert an. Ich bin mal gespannt, wo's hingeht. Das Einzige, was ich gemerkt hab, ist, wie alle Agents halt nicht super reliable. Also es kann manchmal sein, dass es dich nicht genau versteht oder dass irgend eine Suche fehlschlägt
Dennis: oder halt, ja.
Philipp: Aber vielleicht zum gleichen iOS App Store Thema. Ja, okay.
Dennis: Ja, cool, wenn wir noch einige Themen drauf packen, wenn ich die Agenda haben, dann schauen wir vielleicht auch die 14 Minuten an. Aber ich fand's spannend. Ich werd's ich werd's ausprobieren. Von daher hat's sich hat's sich gelohnt, dass Du's geteilt hast. Ja, ich
Philipp: bin mal gespannt, ob man über Also was ich mich halt gefragt hab, ich mein, ich bin ja durch das ganze Social Media und Zeug, was ich mach, doch irgendwie mehr öffentlich bekannter, wie das dann ist, wenn Du, sag ich mal, jetzt nicht so viel auf Social Media oder 'n eigenen Blog hast, ob dann die Informationen von deinen E-Mails oder was das halt so weiß, was es dann für dich generiert. Und ich will jetzt nicht verraten, vielleicht können wir das dann in 2 Wochen machen, wie ich auf meinen einen Cent gekommen bin, aber ich bin mal gespannt, was die Zuhörer oder was Du dann fürn Upskription Pricing Modell vorgeschlagen bekommen.
Dennis: Okay. Na, sehr gut, ey. Ich werd's ich werd's ausprobieren. Und dann können wir noch mal drüber sprechen beim nächsten Mal. Ja, cool. Dann lass uns doch Willkommen, ich glaub mal jetzt das gehört. Wir machen mit mit dem von mir weiter. Und zwar geht es da ein neues Modell, was auch aus dem Google Research Bereich kam und Google, die man glaub ich auch mitgearbeitet hat, Vault Jammer. Und zwar geht es darum, dass Sie untersucht haben oder das ein ein praktisch 'n Forschungsprojekt ist, wie man ein Modell trainieren kann mit. Und bedeutet im Grunde, dass man nicht mehr auf spezifische Fakten oder Details aus den Trainingsdaten zugreifen kann. Oder Details aus den Trainingsdaten zugreifen kann. Also das einfach so die, genau, die Hoffnung, wenn man halt eine unterschiedlichste Trainingsdaten hat und da nicht irgendwie Einzelfälle haben möchte, die dann rausgenommen werden oder die dann kopiert werden, dann dann ist eben das Ziel, dass indem man und das ist irgendwie die Technologie dahinter, man fügt praktisch Rauschen hinzu. Das heißt, man nimmt nicht mehr klar die klaren Trainingsdaten, sondern fügt noch zusätzlich was hinzu und die Frage war dann vor allen Dingen, wie kann denn das Ganze überhaupt skalieren? Und da hat sich eben das das Team hingesetzt und das 'n bisschen erst mal überlegt, wie wie denn diese ganzen Sachen zusammenhängen. Also praktisch aufgeteilt auf so, okay, wir brauchen eine gewisse Größe oder eine gewisse 'n gewisses Budget für das ganze Computer, was wir benutzen, das Ganze auszurechnen. Dann haben wir einen Teil, der genau für diese draufgeht und eben die tatsächlichen Daten, die auch noch drin sind. Und da haben sie dann eben so Modelle gehabt, sich das 'n bisschen zu berechnen und zu gucken, okay, wo ist so der der optimale Fit zwischen diesen Dingen? Und haben's dann mal versucht einfach zu tun und eben einen gemerkt, okay, das, was wir da in der Theorie uns ausgedacht haben, scheint in der Praxis ziemlich genau zu dem zu kommen, was wir da vorhatten. Und ja, daraus ist dann eben geworden. Also es ist am Ende ein Modell, was 1000000000 Parameter hat, komplett auch offen ist und wie gesagt, mit dieser Differential Privacy Methode gestartet wurde. Und in den Benchmarks, wo es zum Beispiel mit Jämmer 3 der Variante mit 1000000000 Parameter verglichen wurde, ist es überall ein bisschen schlechter, aber eben nicht gravierend schlechter. So was irgendwie zeigt, okay, das ist was, was was grundsätzlich funktionieren kann, ohne dass es jetzt megaaufwendig wird, megateeuer wird, megaschlecht wird hinten raus, kriegt man halt hin, die Trainingsdaten so zu verschleiern, trotzdem noch Ergebnisse zu haben und damit, genau, in die Richtung zu machen.
Philipp: Weißt Du, was der Gedanke dahinter ist, warum man das machen möchte? Also sagt man, okay, wenn ich das diese random Noise reinmachen kann und es sozusagen nicht sich irgendwie Telefonnummern, E-Mail-Adressen oder Namen merkt, dass ich auf mehr Daten trainieren kann, die ich aktuell, auf denen ich nicht trainieren kann? Oder was was sind da Gedanken dahinter?
Dennis: Ja, also ich denke schon, dass dass halt der Versuch ist oder dass man der insgesamt halt sicherer werden kann, ne. Also wenn es wenn es sich nicht versucht, auf einzelnen Fakten die dann draus zu ziehen aus einem Trainingset, sondern mehr noch die, weiß nicht, ob man's dann Generalisierung auch nennen kann, aber eben, ja, nicht aus Versehen praktisch Dinge komplett repliziert. Also wahrscheinlich auch ein bisschen Urheberrecht, was was damit ein bisschen einfacher wird, weil halt nicht mehr 1 zu 1 irgendwelche Dinge da rauskommen, die so im Trainingset waren.
Philipp: Ja, ich hab immer noch ganz Also ich mein, wenn ich sozusagen den Zugang für die Daten hab, also man sieht ja, es ist aktuell noch schlecht, aber er braucht wahrscheinlich mehr Forschung zum Sehen, okay, führen das dann zu Mehrwert im späteren Verlauf, dass es mehr oder weniger nur weiß, okay, das ist eine Telefonnummer oder das ist 'n Namen und nicht, dass der Dennis zum Beispiel immer mit, keine Ahnung, Husten in Verbindung gebracht wird oder so was. Ja.
Dennis: Ja. Genau. Ja, also ich glaube schon halt, ne. Ich mein, wenn wenn wir immer weiter irgendwie die Modelle trainieren und irgendwo die Daten auch herbekommen, wenn Du halt dann irgendwann sicherer sagen kannst, so, da ist jetzt, ne, das ist ja immer noch irgendwo 'n Fragezeichen, was aus dem Modell irgendwie mal rausgespuckt werden kann und was da vielleicht noch an Daten drin war, wo man sich sicher war und wenn Du da sagen kannst, okay, wir haben's von von der Architektur so gebaut, dass dass es eigentlich gar nicht passieren kann, dass das son bisschen die die Stoßrichtung ist, die man da geben möchte.
Philipp: Ja, bleibt spannend.
Dennis: Ja. Gut. So, dann switchen wir mal zu Open AI und Ihr Update im Kodexbereich.
Philipp: Genau. Sie haben ja 'n neues Kodexmodell vorgestellt, GPT-fünf-Kodex. Aber ich glaub, bevor wir darüber reden, vielleicht noch mal ganz grob 'n Abriss, was jetzt alles Kodex ist. Ich glaub, ich weiß nicht, ob Open Open Air sich das von Google jetzt abgeschaut hat, dass man alles denselben Namen gibt. Google nennt alles, nennt jetzt alles Kodex. Also wir haben jetzt 'n Codexmodell. Wir haben die Codex Cloud. Wir haben die Codex IDE Extension. Wir haben die Codex und wir haben die Codex GitHub Integration. Okay. Also alles, was irgendwie mit Codex zu tun hat, geht in Coding. Zusätzlich muss man vielleicht dazu sagen, irgendwie 2019, 20 oder so oder 21 gab's 'n Codexmodell, das GitHub Copilot am Anfang genutzt hat. Und dann gab's noch mal dazwischen auch eine Kodex als Brand. Aber jetzt neue Codex. Wir haben eine Open Source Seal Eye, so ähnlich wie Cloud Code und Gemini Seal Eye. Wir haben eine Codex IDI Extension für wie S Code, Curse und alle sozusagen, die erlaubt es, das den Codex der IDI zu nutzen. Also man hat so ähnlich wie bei Curser son Art Chat an der Seite, wo man mehrere Dinge machen kann. Wir haben die Codex Cloud, welches sind. Das heißt, ich kann mehr oder weniger mit 'nem prompt ins mit 'nem zur Linken GitHub Repository sagen, hey, okay, geh los und mach das. Ich kann auch diese Codex von der Codex starten. Das heißt, wenn ich in meiner Codex IDI bin, in 'nem GitHub Repository, hab ich sozusagen wie sone Art Chatbox. Und Chatbox kann sagen, okay, mach das 'n Background. Dann anstatt, dass es lokal ausgeführt wird, wird es in der Codex Cloud ausgeführt. Wir haben die, genau, und dann gibt's noch die GitHub Integration, welches einem erlaubt halt, dass Codecs innerhalb von GitHub CICD oder halt Dinge für einen Review, man kann das mit Ex Codecs taggen, wenn man das hat, dass es halt 'n p r reviewten kann oder halt 'n Security Review durchführen oder andere Dinge.
Dennis: Okay. Mhm.
Philipp: Jetzt zum Codex Modell. Also es gibt jetzt GPT 5 Codex, welches, wie der Name verrät, GPT 5 trainiert für Codes, also nehm ich mal stark an. Kann man natürlich nicht sagen, aber ist auf jeden Fall Ja. GPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPP mit der, über dem Hintergrund wirklich komplette Projekte zu bauen, große durchzuführen, also in großen Codebasen, Debugging und Code Reviews. Also man geht wirklich jetzt viel weiter als dieses, kann das Modell irgendwie in eine Python Funktion schreiben oder irgendwie Code vervollständigen, wirklich mehr in diese Software Engineering Tasks, die man halt irgendwie als Softwareentwickler hat. Man hat 'n Art dynamisches Thinking hinzugefügt. Das heißt, wenn das Codexmodell erkennen, dass man eine sehr simple Task hat, dann nutzt es weniger Thinking und generiert sozusagen die Code Tokens direkt. Und Sie haben auch festgestellt, dass im Verhältnis zu GPT 5 GPT 5 Kodex 93 Prozent weniger Token braucht für einfache Tasks,
Dennis: Mhm.
Philipp: Aber zweimal länger oder doppelt so lang, wie auch immer, denkt, Tokens braucht für mehr komplexe Tasks. Das heißt, für w einfache weniger Token, für komplexe Dinge mehr Token, was dazu natürlich dann führt, okay, einfache Dinge, Performance ist schon sehr hoch, aber dass halt die Performance für schwierige Dinge steigt. Sie sagen, dass Codex eigenständig bis zu 7 Stunden am Stück mehr oder weniger an 'nem Problem arbeiten kann. Klar, man weiß natürlich immer nicht, was wie lange dazwischen und Ausführen braucht, wenn ich, keine Ahnung, ich weiß nicht, irgendwie c plus plus Code Base arbeite und halt irgendwie Kompilierungsfehler beheben muss und nach jedem Step irgendwas kompilieren muss. Es ist sehr viel besser bei Code Reviews geworden und generell beim Kommentieren. Also das ist, sie haben sehr interessante Metriken in ihrem Blogpost aufgeführt. Zum einen, wie viel weniger Code oder mehr Code Tokens das neue Codex Modell generiert. Es ist besser auf s wie I, das ist son genereller Software Engineering Task, aber nur 'n bisschen, aber es ist sehr viel besser im Code, also GPT 5 high hat 33 Prozent, GPT 5 Codex High hat 51 Prozent, also fast 20 Prozent, was extrem viel ist.
Dennis: Weißt Du bei dem bei der Metrik, was die Prozente sagen sollen? Also ist das irgendwie, ist das, wie oft das erfolgreich war oder? Also hast Du da irgend eine, wo diese Skala hingeht?
Philipp: Also wahrscheinlich, also ich nehm, also sie schreiben halt, Und dann haben sie 'n Beispiel, welches 223 geändert hat mit 3500 Code. Also es geht wahrscheinlich wirklich, kann ich das eine, keine Ahnung, von Go nach Python abändern oder halt umschreiben oder vielleicht 'n neues Feature. Also das ist, sagen wir's jetzt nicht ganz genau, was Code in dem Fall alles bedeutet, aber es kann ja sein, irgendwie eine Version updaten, die Sprache ändern oder was ich mein.
Dennis: Ja. Nee, aber genau und aber was dann irgendwie fuffzig Prozent heißen, wissen wir auch nicht genau, ne. Also das heißt, in fuffzig Prozent der Fällen erfolgreich.
Philipp: Genau, fertig jetzt auch einmal gesagt.
Dennis: Okay. Mhm.
Philipp: Und wirklich hier auf, also nicht irgendwie
Dennis: Nicht zweiter Teile Liste.
Philipp: Von Python nach Typescript so.
Dennis: Ja, okay.
Philipp: Und dann noch, was ich auch interessant fand, ist so vor allem, was das Review angeht. Kommentare oder generell Kommentare. Man hat jetzt im Verhältnis zu GPT 5 die falschen Kommentare reduziert. Man hat Kommentare, schwierig auch zu verstehen, was das bedeutet. Aber man hat auch weniger Kommentare pro PR, also son bisschen mehr einfach wahrscheinlich nicht so per Bose, wenn man irgendwie, sag ich mal, als als Reviewer oder halt generell nutzt, was definitiv 'n Fortschritt ist, wenn ich drüber nachdenke, wie wie Web Bos manchmal die ganzen Coding Modelle sind, wenn man die nutzt. Und das neue Modell ist überall verfügbar. Das heißt, Codex, Codex IDI oder Codex Cloud.
Dennis: Mhm.
Philipp: Und Sie haben noch gesagt, das ist.
Dennis: Okay. Genau. Spannend. Hast Du dann irgendwas gehört? Weil das Letzte, was ich so mitbekommen hab, dass irgendwie das also mehrmals gelesen
Philipp: hab, dass Claude Code irgendwie schlechter geworden ist
Dennis: deutlich und da Ja, ich mein. Beschwerden.
Philipp: Es gab ja, also kann man vielleicht auf die Seite kurz gehen. Die haben diese Woche son Post motom veröffentlicht, dass sie 'n paar Probleme hatten, aber eher so infrastrukturtechnische Probleme, die zu Performance Problemen geführt haben. Das Einzige, also ich hab jetzt selber noch nicht getestet und auch noch nicht so ganz viel gesehen, aber was ich über die letzten Wochen so gesehen hab generell, ist das Codex, also die wurde ja vor 'n paar Wochen neu gelauncht mit dem gvd 5 Modell, hat jetzt gvd Codex Modell, dass viele es mehr mögen. Und auch viele, hey, ich hab jetzt Claude gecancelt und ich geh zu Codex. Und wir hatten's, glaub ich, auch in der letzten Newsfolge oder der davor, dass man Kodex ja mit seiner ChatGPT Pro oder Plus oder nutzen kann. Und was ich gesehen hab, dass viele sagen, dass Kodex mir dieses stuff macht. Also Mhm. Erst mal versucht, ganz viele Tool Calls zu machen und zu lesen und zu denken und dann erst son Plan zu erstellen und dann auszuführen. Und halt nicht dieses, was man vielleicht eher von Gemini gewohnt ist, so, hey, das oder schreibt das. Gemini fängt dann eigentlich direkt an, Code zu generieren. Mhm. Ja, aber am besten einfach mal selber testen. Generell Open AI auf ihrer Punkt open AI Punkt com Seite hat viele oder hat angefangen, zu veröffentlichen und generell, wie man das nutzen kann. Ich mein, es ist immer noch sehr verwirrend, was alles Kodex ist und was kein Kodex ist und ja. Also es gibt auf jeden Fall Cookbooks Guides, Videos auch, Demo Apps und generell mehr Learning, also sehr cooler Content auf jeden Fall dort.
Dennis: Okay. Bisschen, aber weißt Du grade, auf was GitHub? Copilot? Copilot läuft aktuell?
Philipp: Ich mein, wir sind zwar eigentlich durch, aber haben noch 5 Minuten. GitHub Copilot hat nämlich auch 'n Update bekommen letzte Woche. Und zwar haben sie jetzt mehr Auswahl für Inference Provider, also Ja. Phishingface, Influencer Provider ist irgendwie das Teil. Und jedes Modell, das irgendwie auf Highingface zur Verfügung ist von Qen zu Lama zu anderen Coding Modelle, kann man jetzt nutzen. Ich glaub, Copilot geht wirklich krass in Richtung Multimodel. Also ich weiß, Claw das viel, Gemini ist viel und natürlich Open AI ist viel. Aber es ist jetzt nicht so wie bei Kodex, dass es eigentlich erst okay, wenn Du Codex nutzt, nutzt Du dieses neue Kodex Modell. Mhm. Sondern es ist wirklich sehr, was
Dennis: Was aber doch relativ neu ist, oder? Weil man doch, lange Zeit war das ja auch immer komplett gebunden an
Philipp: Also am Anfang wusste man nicht, welches Modell drin ist. In nicht knapp, dann war Clayd Freee 3 Punkt 5 so erfolgreich. Und dann haben sie son bisschen mehr aufgemacht und dann war auch Germanial relativ schnell dabei und dann konnte man relativ schnell Modelle auswählen. Ich mein, ist ja die ist so ähnlich wie Cursor und Windsurf und Set. Die sind ja, also die IDEs sind ja alle sehr Model Agnostik. Dann hast Du die spezifischen Tools wie Cloud Code, Gemini und Codecs, die ja alle dann nur speziell mit den jeweiligen Modellen funktionieren.
Dennis: Ja. Okay. Ja, cool. Spannend.
Philipp: Ja, hast Du's schon genutzt?
Dennis: Nein.
Philipp: Aber ihr nutzt viel Cloud Code, oder?
Dennis: Genau, also ich, ja, wobei da jetzt auch schon das Feedback kam, also tatsächlich so in den letzten 2 Wochen, dass es teilweise unbrauchbar geworden ist. Also das ist schon irgendwie. Also das einfache Task, die vorher passiert sind, wo er einfach sich dann Sachen ausdenkt und und eine Funktion, ja, komplett komische Dinge einbaut, also wirklich auf Ideen kommt, was vorher nicht passiert wäre. Also irgendwas scheint da schon 'n bisschen, guck mal, ich guck mal in diesem Blog, ob da was, ob das wirklich oder die Performance ist.
Philipp: Und ansonsten, was mich wirklich mal interessieren würde, wenn ihr Zeit habt und ich weiß nicht, was fürn Plan ihr habt, aber ich glaub immer noch ganz oft ist es dieses, was man auch das Modell fragt. Also im Sinne von am Anfang hab ich vielleicht eher einfachere Aufgaben hin zu spät irgendwie, hey, schreib meine komplette App neu und ich geborene dir kaum Kontext. Und mich würd's voll gern mal interessieren, okay, kann man sich auf das auf 'nem Horizont von 4 bis 6 Wochen anschauen, welche Prompts ich denn sozusagen in dem Fall Cloud Code gegeben hab und ob sich irgendwie die Schwierigkeit oder der Kontext verändert hat.
Dennis: Das ist 'n
Philipp: guter Problem, ja. Man hat jetzt dieses dieses Problem, sag ich mal, gehabt. Vielleicht war der betroffen, vielleicht nicht. Aber mich würd's interessieren, ob zum einen die Leute fauler werden, dass ich am Anfang viel mehr Kontext bereitgestellt hab, wie und was genau er lösen soll und am Ende eher weniger. Und zum einen, ob ich die Aufgaben oder die Instruktionen, die ich gegeben hab, einfacher waren am Anfang und am Ende eher schwieriger. Also das, glaub ich, ist son Thema, was man nie vergessen sollte, weil ich kann mir sehr gut vorstellen, dass man zum einen wird, also was ich schreib und was er machen soll. Mhm. Und zum anderen, dass sich auch meine Erwartungen halt einfach sich verändern. Das ist stimmt, ja.
Dennis: Ja, ist gut. Werde ich noch mal diskutieren. Vielleicht kann ich zumindest hier unsere internen Ergebnisse das nächste Mal noch mal teilen, wie da der Eindruck ist und ob wir irgendwas sehen in dem prompt Engineering. Gut, guck mal, Versprechen gehalten unter 30 Minuten.
Philipp: Sehr gut.
Dennis: Sehr gut. Dann können wir noch die letzten Sekunden nutzen, noch mal Werbung zu machen für die Programmiercon, unsere Konferenz am neunundzwanzigsten und dreißigsten Oktober in der Nähe von Frankfurt zu den Themen Web und AI. Gestern schon mal die Agenda, 'n bisschen von den Zeiten festgezurrt, viele coole Talks dabei. Heute sitze ich hier in, ist lustig, wenn man eigentlich also Arbeitshose sagen will. Man ist ja, sonst sitzt man ja auch auf der Arbeitshose, aber es ist halt eine, wie nennen wir, kann man das irgendwie differenzieren? Eine Handwerkerhose, vielleicht ist das richtige Wort, eine eine Handwerkerarbeitshose. Also ich will
Philipp: jetzt nicht sagen, dass ich eine Arbeitshose anhab, wenn ich auf die Arbeit geh. Ich hab einfach eine normale Hose.
Dennis: Normale Hose. Okay, dann ist Arbeitshose vielleicht gut genug. Weil wir schon 'n bisschen rumgeräumt haben, einen Bereich vorzubereiten wurde und das Catering ist der Programmiercom. Also schon alle Vorbereitungen da. Kauft gerne noch eure Tickets. Philipp, vielen Dank. Mhm.
Philipp: So, wenn ich
Dennis: das jetzt richtig im Kopf hab, bist Du nächstes Mal nicht dabei, richtig?
Philipp: Höchstwahrscheinlich nicht dabei. Du bist
Dennis: ja dann
Philipp: nicht dabei, ja, das heißt an sie wir's aufnehmen.
Dennis: Genau, okay, gucken wir mal. Und sonst hören wir dich spätestens dann in 4 Wochen wieder. Eine gute Zeit, euch allen da draußen und bis bald, macht's gut. Tschau. Danke sehr.

OpenAI GPT-Codex 5 // Gemini App // VaultGemma

Shownotes

Speaker Info

Philipp Schmid