News AI 17/26 –

Anthropic: Opus 4.7, Claude Design, Mythos Preview // Codex Updates // Kimi 2.6 // Qwen 3.6

23.04.2026

// Podcast
// News AI 17/26

Shownotes

In dieser Folge der AI News begrüßen euch Dennis und Philipp. Philipp meldet sich direkt aus den USA und steht gerade kurz vor der Google Cloud Next in Las Vegas. Gemeinsam tauchen die beiden tief in die neuesten Veröffentlichungen von Anthropic ein.

Den Anfang macht ein Modell, das fast schon zu gut für die Öffentlichkeit ist: Claude Mythos. In einer Preview-Phase zeigt Anthropic hier Fähigkeiten im Bereich Security und Vulnerability Research, die so weit fortgeschritten sind, dass das Modell vorerst nur ausgewählten Partner:innen im Rahmen des „Project Glasswing“ zur Verfügung gestellt wird, um das Internet sicherer zu machen, bevor es in falsche Hände gerät. Erinnert ihr euch noch an die Anfänge von GPT-2? Wir diskutieren, ob dieser „Safety-First“-Ansatz Marketing oder Notwendigkeit ist.

Ganz konkret für euch nutzbar ist dagegen das Update auf Claude Opus 4.7. Die Benchmarks, besonders im Coding-Bereich, machen einen ordentlichen Satz nach vorne. Aber Vorsicht beim Budget: Durch einen neuen Tokenizer verbraucht das Modell bis zu 35 % mehr Tokens für den gleichen Text. Wir besprechen, was das für eure API-Kosten bedeutet und warum das Modell trotzdem ein No-Brainer für komplexe Aufgaben bleibt. Passend dazu hat Anthropic Claude Design gelauncht – ein Tool, mit dem ihr ganze Design-Systeme und interaktive Prototypen direkt per Prompt erstellen könnt. Ob das wirklich der viel beschworene „Figma-Killer“ ist oder eher eine mächtige Brücke zwischen Idee und Code, erfahrt ihr in der Folge.

Auch bei OpenAI gibt es Neuigkeiten, speziell für die Codex MacOS Anwendung. Mit der neuen „Computer Use“-Integration kann die KI nun direkt auf eurem System agieren, sei es in Slack, im Browser oder direkt in eurer Entwicklungsumgebung für Swift-Projekte. Wir schauen uns an, wie die neuen In-App-Browser-Editoren und die Integration von Image 1.5 euren Workflow beschleunigen können – auch wenn einige Features in der EU noch auf sich warten lassen oder nur über Feature-Flags erreichbar sind.

Zum Abschluss werfen wir einen Blick nach China, wo sich das Karussell der Open-Weights-Modelle immer schneller dreht. Kimi 2.6 beeindruckt mit extremen Fähigkeiten für „Long-Horizon Agentic Use Cases“ und tausenden parallelen Tool-Calls. Gleichzeitig schickt Alibaba Qwen 3.6 ins Rennen, das in der MoE-Variante (Mixture of Experts) sogar Googles Gemma in einigen lokalen Szenarien den Rang abläuft.

Download

/transkript/programmierbar/news-ai-17-26-anthropic-opus-4-7-claude-design-mythos-preview-codex-updates-kimi-2-6-qwen-3-6

Dennis: Hallo und herzlich willkommen zu den neuen AI News, Kalenderwoche 17 2026. Wir reden hier heute über alles Mögliche, was Anthropic rausgebracht hat. Cloud Opus 4 7 und Cloud Design unter anderem. Und dann gibt es aber auch von OpenAI News, was Kodex angeht und noch 2 Modelle, Chemie 2 6 und Gwen 3 Punkt 6, die wir uns angucken wollen heute. Ich bin Dennis Becker und mir zugeschaltet aus den fernen USA.
Philipp: Das ist Philipp, hallo.
Dennis: Moin Philipp. Ja, ohne dass Du es verraten musst, Google Cloud Next steht an. Vielleicht hören wir irgendwas AI Relatedes noch die nächsten 2 Tage.
Philipp: Ich glaub, ich weiß nicht. Ich glaub, das Thema AI ist ist tot. Nee, ich mein, die Johannes ist ja auch vor Ort. Ich bin mir sicher, dass spätestens entweder 1 Extrafolge oder nächsten Mittwoch dann mehr dazukommt. Aber ich bin gespannt. Ich weiß selber nichts, also außer wo ich halt dabei bin. Ich hab ja 'n paar coole Sachen, aber ansonsten, ja, ich mein, wie jedes Jahr Vegas schauen.
Dennis: Ja, super spannend. Genau und im allerbesten Fall findet ihr euch auch noch mal zusammen in Las Vegas, Jan und Du. Aber Du hast natürlich einen vollen Schedule und dann könnt ihr vielleicht noch direkt eine Live Folge rausbringen und gucken, was da für Updates gab. Aber ich glaube, wir haben auf jeden Fall auch ein paar Dinge, die wir besprechen können, die jetzt nicht aus Las Vegas kommen, sondern Ich hab Los Angeles, hab ich eben irgendwas mit Los Angeles gesagt?
Philipp: Ja, Los Angeles gesagt heute Morgen.
Dennis: Gesagt, okay, ja, Las Vegas, anderes LV L LV. Yut, ja, Inthropic hat wieder einiges gemacht und ein paar Updates gebracht und auch wenn es jetzt glaube ich schon 1 2 Wochen her ist, haben wir noch nicht über Cloud Methhes Preview, wie Sie es nennen, gesprochen. Was wir, glaube ich, mal kurz tun sollten und wo mich auch deine Einschätzung für dem interessieren würde, Bei Cloud Methhers ist es ein Modell, was sie rausgebracht haben, was sie neu trainiert haben und ein bisschen erinnert das an so die Geschichte, wenn man zurückblickt, dass es mal bei OpenAI und ich glaube GPT-2 so war, dass sie damals gesagt haben, das Modell ist so fähig, so viel Sachen zu machen. Wir trauen uns nicht, das zu veröffentlichen. Und die Geschichte danach kennt man ja.
Philipp: GPT-2 2020 oder sowas, glaube ich. Ja. Und
Dennis: da war schon die große Angst, wie weltveränderder sein wird und mittlerweile sind wir bei GPT 5 und es hat sich auf jeden Fall viel getan. Und die Welt hatte natürlich auch ein bisschen Zeit schon sich darauf anzupassen und zu gucken. Aber wir sind jetzt wieder in so einem Moment. Und zwar am Ende ist eigentlich ihre Aussage. Also es ist eigentlich ein Modell, es gibt auch ein so eine Modelkarte und ein Paper dazu, wo es auch auf allen Benchmarks getestet würde. Vielleicht auf ein paar Zahlen gleich noch mal eingehen, wenn wir über Opus 4 Punkt 7 sprechen. Also überall grundsätzlich besser geworden, aber die Capabilities vor allen Dingen im Bereich auch von Security sind eben so gut, dass Anthropic sagt, so hey, das wäre gefährlich, wenn wir das jetzt veröffentlichen. Und zwar, weil sie auch wörtlich sagen, das ist besser als eigentlich alle Entwickler da draußen, bis vielleicht auf eine Handvoll von Security Experten, die dieses Niveau erreichen können. Und teilweise haben sie das ja auch schon, also was heißt bewiesen, aber ich meine zumindest wurden Sicherheitslücken in praktisch allen Betriebssystemen Browsern et cetera gefunden, die irgendwie da sind. Wenn man das jetzt veröffentlichen würde das Ganze und dann kommen die bösen Finger, die es da draußen auch gibt und könnten es halt einfach nutzen, die ganzen Sachen anzugreifen und im Grunde so die Hypothese einfach das Internet nach oben zu legen, weil einfach alle Infrastruktur, alle wichtigen Player da draußen halt nicht so geschützt sind, wie sie geschützt sein müssen. Und deswegen hat jetzt Claude, nicht Claude, hat Tropic das Project Glaswing, ist glaube ich der der Begriff, gestartet und stellt jetzt dieses Modell allen großen Playern da draußen zur Verfügung. Was auch mal genau die Definition von großen Playern ist, aber sei es Google, sei es Amazon. Alle möglichen, die halt so ein bisschen auch für die Infrastruktur da draußen nötig sind, das ganze Internet am laufen zu lassen und alles, was damit zusammen gehört. Die jetzt eben das Modell nutzen können, all diese Sicherheitslücken, die Cloud Methhes findet, patchen und ja patchen zu können, einfach sicherer zu sein, wenn dieses Modell dann irgendwann in die Öffentlichkeit in die Hände der Öffentlichkeit gerät. Und ich glaube, das hat zumindest die Geschichte gezeigt. Ich meine, wir können heute eigentlich ziemlich sicher sagen, dass es kommen wird, jetzt mal unabhängig davon, ob's von Anthroopy kommt oder ob eine andere Modelle diese Capeabilities dann erreicht, aber wir sehen, dass es technisch möglich ist, diese Qualität zu erreichen mit LLMs, mit ähnlichen Architekturen, die wir gerade haben. Von daher über kurz oder lang, da werden wir diese Fähigkeiten auch in unseren Händen halten und auch nutzen können.
Philipp: Ja, ich Also was ich möchte Ich möchte noch mal drauf, das Ja. Es gibt auch von Open Air Codex Security, welches am März, am sechsten März vorgestellt wurde in Research Preview, was son bisschen so das gleiche Konzept dahinter hat. Sie haben's jetzt nicht so groß, glaube ich, marketingmäßig aufgezogen mit von wegen, oh mein Gott, wir dürfen's nicht teilen. Es ist zu gefährlich, es ist Aber trotzdem überall besser als alle Benchmarks und 'n paar Beispiele, die Sie ja beim Mythos gezeigt haben, würden ja jetzt auch wieder schon von zu ganz vielen anderen Modellen gefunden. Also das ist jetzt nicht zum Sinne von, hey, das geht nur mit Mythos, sondern es geht auch mit bisherigen Modellen, wenn man den sozusagen sagt, wo man schauen muss. Und ja, ich mein, ich glaube, es wäre sicherer, wenn man den Zugriff mehr Leuten gibt als weniger Leuten und vor allem Security Researchern und und sich Researchern und ja.
Dennis: Aber ist das nicht so, dass man irgendwie, ich glaube, man kann zumindest den Request anfordern auch, also wenn man irgendwie eine dieser Gruppen gehört. Ich glaube, dieser, also dieses Project Last Wing Zielgruppe ist nicht maximal bestimmt schon, wer da wer da drin ist und wer nicht drin ist.
Philipp: Ja, aber ich weiß nicht, wenn man die letzten paar Supply Chain Attacken anschaut, es sind ja meistens individuelle Menschen, die diese relativ schnell gefunden haben oder festgestellt haben, dass hier irgendwas nicht richtig läuft und Ja, ich mein, ich bleib spannend. Ich denke, vieles damit Hängt damit zusammen, dass das Modell vielleicht zu groß, zu teuer ist, es breiter zu verteilen, dass es eventuell Dass sie mit Opus 4 Punkt 6 schon mit das beste Coding Modell haben. Wieso sollten sie sozusagen dann anderen 'n noch besseres Modell geben, wenn's aktuell keine Konkurrenz Also ich mein, es gibt viele Gründe, warum sie das nicht released haben. Weiß jetzt nicht, ob das Safety der den den ich gewählt hätte.
Dennis: Okay, Obwohl ich meine, dann hätten sie es aber auch in der Hinterhalt halten können, ne. Also wenn sie so aus Konkurrenzgründen, von wegen sie müssen gerade keins anbieten, weil die Konkurrenz nicht da ist, dann hätten sie es auch nicht öffentlich machen können, was sie schon was sie schon als Capabilities praktisch im Hintergrund haben und hätten damit dann überraschen können, sobald der nächste kommt.
Philipp: Ja ich also aber es sind ja ganz viele Diskussionen aktuell darüber, dass Antropic ja ein IPO plant und ich glaube, für solche Themen ist es dann halt doch wieder gut und Also ich hab son paar Bilder gesehen oder 'n paar Ich weiß nicht, wie das genau funktioniert, aber es gibt ja so Secondary Markets, wo man dann auch versucht, 'n kleinen Aktien von privaten Unternehmen zu kaufen und da hat dann Dropicets Open Air überholt in der Evaluierung und also es gab nicht immer alles so ganz einfach, wie man sich das das ausmalt. Und das einzige Interessante war, glaube ich, dass BatRock laut Mythos auch anbietet als Preview und man gar nicht überall Tropic gehen muss. Also
Dennis: Okay.
Philipp: Ja. Dort Mythos.
Dennis: Und da einfach für alle, oder wie?
Philipp: Okay, ja. Alles klar.
Dennis: Ja. Genau, also das alles zu zu Mythis, was da kommt und wo man nicht mehr die Glaskugel braucht, sondern einfach nur das Fernglas, mal wissen zu gucken, was was kommt. Aber auch vor ein paar Tagen oder Ende letzter Woche wurde Cloud Opus 4 Punkt 7 vorgestellt, was einfach die nächste Iteration der Modellfamilie dort ist. Auch wieder einiges an an Sprüngen auf den auf den Benchmarks. Vielleicht hier nochmal an der Stelle, weil ich eben gesagt habe, es ist auch mit Methhers noch mal zu vergleichen. Also beispielsweise Gentic Coding durch den SWA Banch Pro, wo wir bei Opus 4 Punkt 6 bei 53 Prozent waren, ist Opus 4 Punkt 7 jetzt auf 64 Prozent und Methhes im Vergleich auf 78 Prozent. Und ja, ähnlich sieht es auf den anderen Benchmarks eigentlich auch aus. Also sei es SE Bench Varefight oder Terminal Bench, ist es überall ein gutes Stückchen besser geworden und eben nochmal nochmal den also neben bisschen mehr als würde ich sagen, als den Diff zwischen 4 6 und 4 7 ist dann das, was Methhes so erreicht hat auf auf auf vielen der Benchmarks. Ich glaube 1 der großen Sachen, die man so ein bisschen highlighten kann, ist das Visual Verständnis, das in Opos 4 Punkt 7 deutlich besser geworden ist. Also einfach, dass es ein viel höherer Auflösung Dinge lesen kann. Das heißt, wenn man Screenshot pasteet oder sowas einfach Text und Details viel viel besser erkannt werden können. Und ja, ich glaube Oh nee, bleiben wir ganz kurz da noch, weil Visual hat dann noch andere Implikationen, nämlich ein ganz anderes Tool, was Cloud noch gelauncht hat. Was vielleicht noch ganz interessant ist, dass sie den Tokenizer a geupdatet haben. Das heißt einfach, wie die Tokens generiert werden. Was dazu führt, dass es generell, also ihre Hintergrund oder die sehr simple Begründung ist einfach okay, damit funktioniert das LM besser mit den Tokens, die sie jetzt dort nutzen und bis zu 35 Prozent mehr Token sind aber notwendig oder werden jetzt in in bis zu 35 Prozent mehr Token wird das Ganze jetzt übersetzt, was einfach bedeutet, dass Opos hungriger ist, was die Tokens angeht. Und genau, da gibt's einfach noch so ein bisschen ein paar Update Hinweise, wenn man jetzt von Opos 4 6 auf 4 7 geht. Es gibt auch diese Thinking modes, also wie viel er nachdenkt, die sich ein bisschen geändert haben. Und da muss man vielleicht einfach für sich selbst so ein bisschen jetzt den den neuen Weg finden zwischen wie viele Token werden verbraucht und wie viel Tiefe unter Intelligenz brauche ich für die Aufgabe, die ich jetzt gerade habe.
Philipp: Wie stehst Du dazu, dass jetzt alles 30 Prozent teurer ist?
Dennis: Ja, also ist erstens würde ich mal sagen, es sind ja die Input Tokens, oder? Also das heißt, die sind ja schon mal ein bisschen günstiger als die Output Tokens.
Philipp: Nee, also er generiert ja auch mehr Tokens. Also was vorher 5 Tokens Also die generieren war, sind jetzt 8 Tokens zum Generieren. Also ist nicht nur Input. Ich weiß
Dennis: gar nicht, warum ich das so nach Input gelesen habe, aber ja.
Philipp: Also alles ist 30 30 bis 39 Prozent teurer und ich hab auch 'n paar Beispiele gesehen, wo's was 2 x ist. Wenn Du irgendwelche SQL Querys oder so was schreibst, Mhm. Weil scheinbar Leerzeichen sehr viel anders genutzt werden als vorher.
Dennis: Das ist ja interessant, weil jemand ausm BI Team hat mir heute geschrieben, hat gefragt, hast Du mich in dem Plan runtergestuft, weil ich jetzt so viel schneller durch die Limits bin? Ich habe ja auf Opos 4 7 verwiesen. Ich meine sogar, er hat ja geschrieben, dass er 4 6 trotzdem noch genutzt hat, aber es wäre aber ich werde es noch mal als Hinweis reingeben, weil da könnte das das Geld Dinge durch den Ding nennen. Ja, keine Ahnung, ich hab nicht so richtig eine Meinung dazu. Also ich meine, ist halt ein bisschen die Frage, wie halt diese ne die Abos irgendwie dann ausreichen oder wie wie weit man da mit seinen Session Levels kommt. Ich verstehe so oder beziehungsweise ich tu mir auch noch irgendwie im Moment ein bisschen schwer halt mit der mit der Rechnung. Es wird die API Token sind halt so viel teurer. Ich da bist Du auch schnell irgendwie am Limit, wo Du sagst, dass das oder weiß nicht ob Du im Limit bist, aber zumindest mal wirtschaftlich es durchrechnen musst. So keine Ahnung. Also ne ne ne Premium zu switchen ist so'n No Brainer, weil den Gewinn den Du hast, ist kein Problem, aber wenn Du halt über die API die Tokens so rausbläst, ist ja schon die Frage, ja, wo da so die Grenzen sind, dass es eben Sinn macht und nicht Sinn macht. Von daher ist es glaube ich für den tatsächlichen Use Case oder für das tatsächlichen Nutzen eher relevant, so laufen wir jetzt alle viel viel deutlich viel viel häufiger in die Limits und sind irgendwie am Ende unserer Subscription und müssen irgendwie andere Wege finden oder ist das noch einigermaßen innerhalb dieser Nutzungsgrenzen so nutzbar?
Philipp: Ja, ich glaube, es ist halt wieder son Change, der son bisschen untergeht bei dem normalen Nutzer. Mhm. Der wechselt jetzt einfach Opus, sieht Pricing ist irgendwie gleich auf der API, sieht seine Subscription ist irgendwie gleich, aber er hat irgendwie 30 Prozent weniger Tokens oder 35 Prozent weniger Tokens oder sogar noch mehr. Und wenn Du das irgendwie, keine Ahnung, bisher halt hat dir das für deine 8 Stunden Arbeit gereicht, dann bist Du allerdings nur noch bei 5 Stunden. Ja. Vielleicht haben wir uns haben wir uns 6 Stunden, aber
Dennis: Da musst Du das Thinking Model runterdrehen oder den Thinking Mode reduzieren. Und das vielleicht auch Oder halt
Philipp: nur noch 6 Stunden Arbeit.
Dennis: Oder 6 Stunden Arbeit.
Philipp: Das ist
Dennis: vielleicht keine schlechte Alternative. Da hab ich übrigens auch gelesen, das fand ich auch krass, weil die haben jetzt gesagt, mittlerweile gibt es 1000 Unternehmen, die 1000000 oder mehr jährlich bei Anthropic lassen. Hab ich auch gedacht, also wenn man's wenn's jetzt einfach nur die Abos wären, dann wären das irgendwie 8000 Mitarbeiter. Das heißt, wenn Du jetzt große Unternehmen hast und rollst es wirklich für alle irgendwie aus, aber so viele Unternehmen irgendwie 1000 Unternehmen, die 8000 und mehr Mitarbeiter haben, die gibt's ja irgendwie auch nicht. Das heißt, das sind ja schon alles dann anscheinend Use Cases, wo sie wo man nicht über die Subsriction gehen kann und wo irgendwie über die API abgerechnet wird oder? Kannst Du dir sicher?
Philipp: Ja. Oh ja oder manche haben vielleicht einfach mehrere Subscriptions Popo.
Dennis: Ja, das habe ich auch schon als sinnvollen Plan ausgedacht, dass wir, wenn wir da reinlaufen, dass man das mal testen müsste, wie das funktioniert oder wie nervig es ist, das zu machen, sagen wir es mal so. Zumindest verstehe ich diese Posts nicht, wenn online irgendwie auf LinkedIn oh ja, zehntausender Token 10000 Dollar ausgegeben und so dann denke ich okay, das ist irgendwie nicht nicht richtig smart genutzt, aber gut. Vielleicht Du als Anbieter würdest eher sagen, na ja, anders können wir ja nicht überleben, wenn wir nicht das Ja, ja. Ja, ich
Philipp: mein, es Man muss sich ja immer überlegen, warum 200 warum ich für 200 Euro so viele Tokens bekomme, wenn die API Kosten zu höher sind? Was machen die mit den Infos, die sie von mir bekommen durch die Subscription? Und ich kann mir durchaus vorstellen, dass für viele Enterprise Kunden Da gibt's ja nur noch dieses Tokenbuilding, dass die halt einfach sagen, hey, die Security Anforderungen von den normalen Plänen können wir nicht nutzen, wir wollen das Modell aber nutzen, dann zahlen wir halt was auch immer und dann ist es, ich weiß nicht, geht vielleicht auch Unternehmen, denen Data Breaks und Snowflake und Amazon Kosten oder so.
Dennis: Aber das ist auch noch ein guter Punkt, wenn Du sagst, bei Enterprise gibt's gar nicht mehr die gibt's gar nicht diese Ursachen. Dann ist das wahrscheinlich auch noch mal mit 'n Grund. Gut, eben gesagt, die Vision Capabilities sind deutlich besser geworden bei Oculus 4 Punkt 7 und das hat Anthropic auch dazu gebracht, Claude Design rauszubringen. Jetzt direkt auf Social Media et cetera, verschrien als der Figma Killer, aber das muss ich dann wahrscheinlich erst noch mal rausstellen, ob es so wirklich ist. Am Ende ist ein Tool, was im Hintergrund Opus 4 7 nutzt und mit dem man jetzt Designs prompen kann. Und das ist tatsächlich ganz ganz cool vom Interface, finde ich, weil es so entweder in Designsystemen denkt oder Prototypen bauen kann, die halt auch ein bisschen ja dann schon interaktiv sind und man rumklicken kann. Es gibt viel so Panels, die aufgehen, wo man dann einfach Slider hat, nochmal Details des Designs so ein bisschen zu verändern. Ich weiß nicht, ich glaube in, ich weiß nicht ob man in der Air News war oder in den regulären News Eigentlich meine Erfahrungen waren ähnlich wie das Google Stitch ist der richtige Name, ne? Wo man genau Interfaces machen kann so. Ich ich weiß nicht warum, aber ich habe irgendwie das Gefühl, dass bei Design halt so diese Genauigkeit noch mal irgendwie ein Ticken wichtiger ist. Ich habe halt so einen Style Guide gemacht für die programmier.bar Webseite und dann hat er halt einfach gesagt, ja das Logo, okay, sehe ich einen SVG, super kompliziert, irgendwie einzelne Buchstaben. Ich mach das mal gerade neu. Und es sah halt dann nicht aus wie das programmier.bar Logo, also es war sehr ähnlich und die Farben stimmten, aber es war halt nicht das Logo 1 zu 1. Und dann denke ich mir schon so, irgendwie, vielleicht weißt Du, im Code ist es dir vielleicht egal, wenn das irgendwie noch ein bisschen anders geschrieben ist. Also da gibt's noch so mehr Varianz, wie der Code aussehen kann, zum Ergebnis zu kommen. Aber im Design ist es häufig noch noch genauer, wie etwas sein muss. Und von daher, ich glaube auf jeden Fall ist es eine eine starke oder erstmal auch ein sehr cooles Tool und sollte man sich mal angucken, gucken wie weit man damit kommt. Gibt jetzt auch schon so Webseiten, die ähnlich wie die Skills für Claude so komplette Designsthemen, weiß nicht, wie man's nennt, kopiert oder abbilden, wo man dann sagen kann, okay, ich will wie Apple oder wie Vodafone oder wie wer auch immer irgendwie etwas designen, so ein bisschen vielleicht von 'nem so 'ner Art 15 Tailwind CSS Design so wegzukommen, den viele Agents direkt nutzen. Ja, also wird wird spannend sein, wie weit das geht und wie weit das wirklich irgendwann sowas wie Figma ablösen können und ob man es vielleicht Keine Ahnung, vielleicht braucht man dann nur was Nur die Tools für wirklich kreativere Sachen, also sowas wie Photoshop et cetera und Figma, was so ein bisschen diese Brücke war zwischen ich will eigentlich sehr technisch sein. Ja, das dann, dass man nicht mehr braucht. Aber ja. Wheelsea. Auf jeden Fall gerne ausprobieren. Cloud designen. So, 20 Minuten Bühne für 'n Tropic, das war viel. Was haben wir noch Spannendes?
Philipp: Ja, also ich hör's kürzer, suche ich zumindest. Codex gibt jetzt für All most Everything, also Open Air, Codex, Mac OS Anwendung. Hat 2 größere Updates bekommen und man kann das jetzt sozusagen wie Cloud Co Work für alles nutzen, was man eigentlich auf seinem PC macht. Es gibt jetzt eine Computer Use Integration, das heißt, man kann einfach im Chat Add Computer Use mehr oder weniger sagen und dann, keine Ahnung, hier ist mein Chrome Browser oder hier ist mein Flag. Bitte mach x y. Hab schon coole Beispiele gesehen, wie man zum Beispiel Swift Anwendungen dann programmieren kann, wo dann Codecs mehr oder weniger Zugriff auf die Swift Anwendungen hat und sehen kann, okay, wie's funktioniert. Also son bisschen wie Playrite halt für alles, was aufn Deck läuft und soll scheinbar echt gut integriert sein. Es gibt 'n neuen In App Browser Editor in Codex. Codex hat jetzt Zugang zu Image 1 Punkt 5, wahrscheinlich bald Image 2, so wie ich die die Roomers verstehe. Das heißt, es gibt kann Bilder jetzt generieren für irgendwelche Webseiten. Das ist so, wenn Du programmierst. Du kannst halt, wenn Du irgendwie eine Frontendanwendung hast, halt in Codex seinen Browser halt aufmachen und dann kannst Du da drin Elemente anklicken und kommentieren und sagen, hey, mach die Schrift irgendwie größer. Es gibt generell über 90 Plugins jetzt in alle gängigen, sage ich mal, Tools, also Slack, was auch immer. Man kann zusätzlich zu dem Browser Excel Sheets und andere Office Produkte, sage ich mal, aufmachen und dann direkt mit Codex irgendwie, hey, keine Ahnung, findet mein Top Kunden hier, da kannst PDFs dir anschauen und darüber bilden. Also alles, was halt Non coding, aber Productivity jetzt ist. Und es gibt 'n Update zum Memory Feature, welches nicht in der EU gibt. Generell gibt's auch Computer Use, soweit ich verstanden hab, noch nicht in der EU. Man kann es aber über Featureflex enablen, das heißt, wenn euch das interessiert und ihr das nutzt, mal 'n bisschen googeln. Irgendwo gibt's, was man einstellen muss. Ja. Und ja. Nutzt Du Connex?
Dennis: Nee, länger nicht. Länger nicht genutzt. Also ich bin bin ein bisschen hängen geblieben. Also ich hab ja Kontakt lange genutzt, aber in Kombination mit mit Cloud. Jetzt zuletzt auch die Cloud App ein bisschen häufiger. Selbst auch eben mit dann, es ist Cloud and Chrome, wobei das ja dann auch immer halt so ein Plug in in Chrome ist.
Philipp: Also es ist
Dennis: irgendwie auch ganz cool, wenn es dann einfach über den Computer eher läuft und Du nicht nur so isoliert dann eine App hast und der das geht. Aber ich weiß, dass 2 unserer Dev Kollegen wieder auf Codex sind fürs Programmieren und nicht mehr bei Cloud Center.
Philipp: Genau und was noch? Ich hab's nicht ganz verstanden, es soll da sein, aber es ist natürlich so richtig da. Man kann auch Codex auf der Dev Boxets verbinden, also ähnlich wie bei BSCode oder Cursor, wo ich dann über SSH mehr oder weniger Ich hab meinen lokalen IDI Editor, aber all aber alles, was ich halt ausführe, läuft auf meiner VM. Das soll für Codecs auch da sein. Ich hab's 'n bisschen schaumig verstanden, wie man's genau einrichtet oder wie's funktioniert, weil's nicht super intuitiv ist, aber auch mit dem Gedanken, dass ich halt meine Kodex App lokal hab und dann, keine Ahnung, ich hab 'n Server mit, keine Ahnung, zum Beispiel TPUs und möchte mein Modell trainieren, dann kann ich einfach Kodex dadrauf easy alles ausführen lassen, ohne dass der immer wieder SSH Commands ausführen muss. Cool. Genau und dann noch gab's 2 neue Open Waits Modelle aus China. Gestern hat Monshot Kimmy Kimmy K2 Pointstxt released. Mhm. Ich glaub, das ist einfach nur 'n neue Post Woring Post trainierte Variante, also selbe Modelgröße mit 1 Triillonen Parameter, wieder 'n MOI, ähnliche MIT License, also nicht ganz MITs oder MIT angepasst mit Je nachdem, wie viel Revenue man hat, muss man halt irgendwie mit denen reden oder halt sagen, dass man Kimmy nutzt. Es ist vor allem besser für Long Horizon Agenic Use Cases, also sie sagen, irgendwas von Es kann über 4000 Tool Calls machen, über 12 Stunden alleine laufen, über 300 Agents parallel nutzen. Alles 'n bisschen besser als vorher. Wenn ihr irgendwie Chemie genutzt habt, den Open Code oder sonst irgendwie, dann gerne mal reinschauen. Es sieht nach 'nem einfach 'ner Verbesserung aus, sage ich mal. Und das Gleiche gilt auch für für Quen 3 Punkt 6. Es gibt 'n Quen 3 Punkt 6 SPACE MOI mit 35000000000 Parameter 3 Active und eine Quen 3 Punkt 6 Max Preview. Die MUI Variante ist unter Apache 2 Punkt 0 released, also so ähnlich wie Jämmer jetzt und würde auch bei allen Benchmarks, sage ich mal, mit Jämmer verglichen, wo er es größtenteils auf den Benchmarks besser ist als Jämmer. Ist natürlich auch 'n bisschen größer, aber ja, müsst Ich glaub, muss man dann testen, weil ich hab jetzt zum Beispiel viel Gutes über Jämmer gehört, wo die Benchmarks nicht top sind, deswegen aber trotzdem. Wenn ihr irgendwie lokal oder lernnutzen seid, dann auch mal Grand Grand 3 Punkt 6 anschauen. Ja. Ja. Das wars eigentlich.
Dennis: Sehr gut. Mir ist grad der Use case entfallen, schade. Weil Jamma 4 weiß Nee, Jamma 4 war ja auch einmal mit irgend 'nem Thread unter groß gelobt.
Philipp: Also ich hab
Dennis: eine Wahl auf
Philipp: meinen In meinem Flug von Amsterdam nach Las Vegas über LM Studio genutzt, die 26 P MUI Variante, einfach 'n bisschen zu Chapten, 'n bisschen zu coaten, 'n bisschen zu coaten, 'n bisschen Einfach halt kleine Dinge zu machen und es ist extrem und gut. Also wenn wir das vergleichen son bisschen mit irgendwie ChatGPT 4 o, also so Daily normale Use Cases, wo ich, keine Ahnung, frag, wie das Wetter ist, wie irgendwelche anderen Dinge sind, reicht das schon. Also alles nicht Coding, finde ich schon echt beeindruckend, was wir jetzt mittlerweile damit machen können. Ja.
Dennis: Ja, ist 'n relativ langer Post, der die Liebe für Gemma 4 zeigt. Das Modell ist ja der Hammer, weil ich versuche was mit gutem Deutsch, starkem Tool Calling, gute Performance und Vision. Und der hatte davor Gwen 3 5 M0E genutzt und hat auch son irgendwie Evaluierungskatalog, wo er dir dann immer gegenlaufen lässt und vor allen Dingen, dass es halt deutlich schneller war in dem Und Native Function Calling hat er, glaube ich, eher so die Hauptgröße rausgebracht, warum es für ihn so viel besser gepasst hat in den in den Tests und Cases, die er gemacht hat.
Philipp: Ja.
Dennis: Gut. Okay, dann gucken wir mal, ob es da ein Special gibt von euch und sonst wünsch ich dir erstmal ganz ganz viel Spaß in Las Vegas, nicht in Los Angeles, in Las Vegas und dann hören wir uns spätestens in 2 Wochen wieder.
Philipp: Alles klar?
Dennis: Schreibt uns gerne Feedback an Podcast at Programmier Punkt bar und macht's gut, habt ihr eine gute Zeit. Bis denn.