News AI 15/25 –

Gemini 2.5 Pro // GPT-4o Bildgenerierung // Halfmoon von Reve Image // Figure Robotics // Lightpanda // Llama 4

09.04.2025

// Podcast
// News AI 15/25

Shownotes

OpenAI hat das nächste Ass im Ärmel und veröffentlicht die Bildgenerierung von GPT-4o – das solltet ihr auf jeden Fall ausprobieren.

Aber auch Google hat ein großes neues Modell veröffentlicht mit Gemini 2.5 Pro. Es ist im Google AI Studio kostenlos zu nutzen und spielt auf vielen Benchmarks oben mit.

Meta hat am Wochenende mit Llama 4 ein neues multimodales Modell vorgestellt – noch gibt es einige Fragezeichen zu klären.

Halfmoon ist ein neues Bildmodell, das unter dem Radar entwickelt und veröffentlicht wurde und mit den großen Playern mithalten kann. Hier testen.

Cursor wurde mit $625 Millionen und OpenAI mit $40 Milliarden ausgestattet. ChatGPT hat bereits jetzt 500 Millionen wöchentlich aktive Nutzer:innen erreicht, sodass vermutlich vor Ende des Jahres 1 Milliarde Nutzer:innen das Tool regelmäßig nutzen werden.

Im Feld der Robotik ist Figure stark und zeigt ein neues Modell für humanoide Roboter.

Amazon bietet nun eine API für die AI-Steuerung von Browsern an.

Wer viele Daten scrapen möchte, hat nun eine schnellere und weniger RAM benötigende Alternative zu Chrome Headless mit Lightpanda.

Download

/transkript/programmierbar/news-ai-15-25-gemini-2-5-pro-gpt-4o-bildgenerierung-halfmoon-von-reve-image-figure-robotics-lightpanda-llama-4

Dennis: Hallo und herzlich willkommen zu 1 neuen AI programmier.baren News Folge. Wir haben die Kalenderwoche 15 und wie immer ist mir Philipp zugeschaltet. Hallo. Noch aus Deutschland, ich dachte er hatte eben falsch im Kopf, vielleicht haben wir das schon falsch, aber wir nehmen heute am Montag auf, kommt trotzdem am Mittwoch raus die Folge. Es ist ja die Google Cloud Next und da ist auch Philipp unterwegs neben Jan, Garelt und Sibi, die dort unter unterwegs sind. Und wenn ich das richtig aufm Schirm hab, Philipp, nehmt ihr auch irgend eine Folge dort auf, ne?
Philipp: Ja, es ist der Plan, dass es eine Specialfolge gibt. Ich bin mal gespannt, wie das alles organisatorisch funktioniert, aber vielleicht hören wir uns diese Woche zweimal. Sehr cool.
Dennis: Und ja, wenn ich, hören wir hoffentlich Spannendes von der Google Cloud Next generell. Und mit Sicherheit, wie geht es heute anders bei Konferenzen? Auch irgendwas mit AI AI wird dort auf der Agenda stehen. Auch aus den letzten 2 Wochen gibt's wieder einiges, was wir mitgebracht haben, sind wieder die Großen dabei, die auch wieder viele spannende Dinge veröffentlicht haben und ja, ich würde direkt vielleicht mal starten bei deinem jetzt, wir nennen das home, bei deiner, fehlt mir eine gute Formulierung, aber deiner deiner Homebase, deinem, das, was jetzt nah an dir dran ist, Gemini 2 Punkt 5 pro.
Philipp: Ja, ich glaub, sone krasse News dürfte das wahrscheinlich jetzt nicht mehr sein für die meisten, weil es kam, ich glaub genau, vor 2 Wochen ungefähr raus. Und ja, 2 Punkt 5 pro, neues Modell, neu, ich sag mal, Subgeneration. Großer Unterschied zu allen bisherigen Pro Modellen oder normalen Gemini Modellen ist, dass man hat jetzt Thinking by Defo. Das heißt, wenn ihr irgendwie Germany Flash schon mal getestet habt oder auch irgendwie Deep Sega one oder OpenAI, ODO Serie, Germany denkt jetzt sozusagen, bevor er's antwortet. Und der Launch war supererfolgreich. Also ich war völlig begeistert, als ich's dann testen konnte. Und man kann wirklich sagen, das ist bisher das beste Modell, was Google trainiert hat. Wird auch mittlerweile bewiesen durch alle möglichen Benchmarks, Community Reactions von irgendwie, der Community Arena, sag ich mal, ist Platz 1, Coding mindestens oder besser als Cloud 3 Punkt 7, mittlerweile integriert in Cursur, in Windsurf, in anderen Coding Benchmarks ganz, ganz oben mit dabei, bestes Modell für die ganzen Benchmarks. Es gab auch 'n neuen, sagt man, eine neue echte, OSMO oder so hieß die, die im März stattgefunden hat von Menschen. Da ist auch Geminar mit Abstand das erste Modell mit irgendwie 24 Prozent. Danach kommt irgendwie Deep Siege und Open AI mit nur 4 Prozent. Und da kann man wirklich sichergehen, dass die Modelle die Daten nicht gesehen haben, weil sozusagen das Training beendet wurde und danach erst sozusagen die stattgefunden hat. Also wir sehen 'n riesen Riesensprung da an allen Möglichkeiten. Mittlerweile auch Gemelight Pro nicht mehr nur in Experimental, sondern auch im Preview. Das heißt, ihr könnt's nutzen, ihn in eure Anwendungen zu integrieren. Wir haben höhere Red Limits, es gibt 'n Pricing. Das Pricing ist günstiger als und 3 Punkt 7. Und zwar sind wir bei ein Dollar 25 pro 1000000 Input Tokens und 10 Dollar pro 1000000 Output Tokens.
Dennis: Ist Kontext genau? 1000000.
Philipp: Mhm. Aktuell. Okay. Ich weiß nicht, also wirklich, wenn ihr irgendwie LLMs nutzt, sei es für die Arbeit, sei es zum Chatten, sei es für sonst was und ihr habt's noch nicht getestet, gebt dem definitiv eine Chance. Vielleicht noch dazu sagen, es ist kostenlos nutzbar in der Studio, in der UI für euch zum Testen. Man hat auch als sozusagen Free User irgendwie 50 per Style umsonst und irgendwie 3 per Minute. Es ist kostenlos verfügbar in Gemini Advanced, das ist die die Chatanbindung, die man auf iOS oder Android hat oder halt auch im Browser. Was richtig cool ist in der Gemini App, man hat jetzt dieses Canvas Feature auch. Das heißt, man kann Gemini direkt nutzen mit Canvas zusammen, Docs zu erstellen oder auch Webseiten zu programmieren. Und es ist echt cool, also ich hab so viele Demos gesehen online von Canvas oder generell, wo dann Leute einfach son Spiel erstellt haben oder eine komplette Landingpage einfach nur mit einem prompt und dann das in 'nem Canvas erscheinen. Und da hat man auch eine Preview und es nutzt. Und also ja, wenn ihr's nicht getestet habt, sehr, sehr, sehr zu empfehlen, erst mal testen, bisschen rumprobieren und natürlich, wie alles bisher auch multimodal. Das heißt, versteht Text, Images, Bilder, Video, Audio. Ja. Und was als Output alles? Output ist bisher nur Text.
Dennis: Okay. Dann unterscheidet sich 'n bisschen ja zu der Ergänzung von der Einführung, was Open AI noch rausgebracht hat, nämlich der da kannst Du's vielleicht technisch mir gleich noch mal 'n bisschen erklären, aber letztendlich haben wir jetzt ein GPTV0, das jetzt nun auch Bilder generieren kann. Ich mein, GPTV0 war ja, glaub ich, von Grundsatz schon mal multimodal, aber zumindest diese Funktionalität war bis jetzt nicht für die User verfügbar. Es ist jetzt auch seit, weiß gar nicht auch, also kam kurz nach unserer Newsfolge raus, glaub ich. Und das, was ich da so an Ergebnissen gesehen hab, war schon ziemlich beeindruckend. Das heißt, Sie haben ja, Sie beschreiben es ein bisschen so, dass letztendlich Sie die Power von den modernen LLMs, also dem ganzen Verständnis in die Bildgenerierung reingebracht haben. Das heißt, letztendlich ist damit Dorly irgendwie abgelöst und es wohnt jetzt damit in dem GPTV0 kosmos. Und grade so Dinge, also wo's wirklich 'n Riesensprung gemacht hat, ist so was wie Textgenerierung. Also man kann jetzt wirklich korrekten Text mit Positionierung, mit verschiedenen Schriftarten, mit all den Möglichen kann man sehr, sehr gut prompton einfach, dass dass dort Text mit auf dem Bild ausgegeben wird. Und auch, glaube ich, sowas wie Character Consistency ist ziemlich beeindruckend. Das heißt,
Philipp: wenn ich mir ein
Dennis: Bild generieren lasse mit irgendeinem, ja, Menschen oder 1 Figur oder einem Tier oder wie auch immer, dann ist das in den Prompts, danach kann man das in unterschiedlichen Situationen darstellen und das ist ziemlich nah dran. Hast Du noch 'n bisschen Infos, was das technisch bedeutet?
Philipp: Also vielleicht zuallererst, das wurde ja letztes Jahr bei der schon dargestellt, hat jetzt ungefähr 'n Jahr gedauert, bis Sie's dann releast haben. Definitiv cool, dass Sie's releast haben. Und mein, wir hatten ja GPT, sorry, GMI auch für 'n paar Wochen. Funktioniert höchstwahrscheinlich genauso und kann ähnliche Feature. Performance sieht echt beeindruckend gut aus. Mein Twitterfeed war voller Bilder. Ja. Also vielleicht, für die es nicht wissen, das ist son japanisches Animation Studio. Die haben sone spezielle Art. Und Openay hat das gezeigt während ihrer ihres Livestream und plötzlich war die komplette Welt von monumentalen Ereignissen. Man hat dazu sozusagen einfach 'n Bild hochgeladen und gesagt, änder den Style davon. Und wie Du ja beschrieben hast, die die ist von den ist super. Genau, das heißt, es sieht wirklich so aus mit 'nem Style. Find ich richtig cool. Ja, also das das krasse Unterschiedliche ist halt, dass man jetzt kein Modell hat für die Imagegenerierung, sondern dass alles auf diesem, auf der ganz normalen Transformer Architektur mit 'nem Auto progressive Ansatz basiert. Das heißt, man hat nicht dieses Bild, das komplett, sag ich mal, nicht verpixelt, sondern man hat bei Diffusion da dieses neues Bild, was dann immer klarer wird. Und bei Transformern oder halt normalen Modellen geht man ja von links nach rechts. Das heißt, auch in dem Fall werden wirklich die Pixel von links oben, nachts rechts unten generiert. Genau, weiß man natürlich nicht, was GPTVO oder halt auch Gemini nutzt, aber das ist so der der große Unterschied. Und manche sagen, okay, es ist jetzt der der Tod von von Diffusion. Manche sagen, es wird beides geben, weil es verbraucht doch sehr viel, also braucht sehr viel Zeit und auch sehr viel, 'n Bild zu generieren im Verhältnis zu Diffusion Modellen. Und viele Ansätze, die ich gesehen hab von Leuten, die das an den Anwendungen integrieren, also die nutzen ja irgendein Imagemodell, erstes Bild zu generieren und dann halt sozusagen irgendwie sone Art Geschichte zu erzählen oder Bilder zu editieren. Und vor allem das Bilder editieren find ich schon echt cool. Also wenn Du wirklich, ich hab 'n Bild gesehen, wo hat jemand sone Art Skizze gezeichnet auf 'nem Papier von Hand, von wegen, hier soll irgendwie, also es war son Astronaut aufn Moon. Er hat halt nur beschrieben mit so Stellen markiert irgendwie Moon und dann der Astronaut hat irgendwie son Helm aufgehackt und er hat das so reingeschrieben mit Crack und hat TWT sozusagen wirklich das Bild erstellt mit den ganzen Merkmalen, die er beschrieben hat. Und das ist schon cool. Also ich bin echt gespannt, was da wirklich dann passiert und wie schnell ist so, was dann wirklich auch in Photoshop landet und es dann halt noch so viel zugänglicher für alle wird.
Dennis: Ja. Ja, absolut. Aber ist interessant, dass Du sagst mit dieser Erstellung. Ich glaub, sie haben's ja visuell auch son bisschen dargestellt, ne, dass wenn das Bild kommt, dass es praktisch so von oben nach unten wird oder berechnet wird und bei diesen praktisch auch so dem zugucken kann. Ja, führt auf jeden Fall auch dazu. Also ich glaube auch gerade dieses Ding hat noch mal zu 'nem sehr, sehr starken Useranstieg geführt. Da hat er auch, glaub ich, Sam Oltmann auf Twitter noch mal gepostet, dass er schon den Chat GPT Launch krass fand, was wie Realität anging und haben sie irgendwie in 5 Tagen, glaube ich, 1000000 User hinzugefügt und in der Zeit war es pro Stunde 1000000 neue User, die sie da onboarded haben. Ja, genau, in dem Kontext gab's auch noch mal 'n Post, dass ChatGPT jetzt bei 500000000 Weekly Active User sind am Anfang des Monats und deswegen gehen sie stark davon aus, dass sie 1000000000 Nutzer, also ein Achtel der Menschheit vor Ende des Jahres dort erreichen, was was einfach die, ja, die Nutzung angeht, was einfach, ja, faszinierende Zahlen sind für ein, nicht nur für Tech Tech Produkt, für jegliches Produkt, was man irgendwie an den Start bringen kann. Aber ja, es bleibt eine Erfolgsgeschichte bis jetzt. Und trotzdem schön, dass es immer noch Alternativen und viele andere Dinge gibt, die man machen kann. Vielleicht passt ganz gut dazu. Ich glaub, wir hatten bei dir noch was mit der aktuellen Bewertung von OpenAI. Was war ich denn im Kontext
Philipp: sehr gut? Ja, also ich ich ich frag mich, ob das zusammenhängt. Also am einunddreißigsten März wurde veröffentlicht, dass OpenAI eine neue Funding Round hatte, welches die jemals, die größte jemals dokumentierte Funding Round überhaupt ist mit 40000000000 neues neue Finanzierung und 'ner Evaluierung von 300000000000 von OpenAI. Im Englischen dann 40 Billionen und 300 Billionen. Meistes Geld kommt von Softbank. Ich frag mich, hängt das irgendwie mit dem Stargate Project zusammen? Ist das irgendwie unabhängig davon? Haben sie Image out gelauncht im Zug dessen, weil sie zeigen wollten, hey, jo, wir können noch mal anziehen, wenn wir mehr Geld haben und mehr Computer haben, es wirklich weiterzuskalieren. Arc viel mehr ist nicht bekannt. Mal schauen. Also sie verbrennt zwar immer noch Unmengen an Geld, also OpenAI, deswegen brauchen sie ja dieses Geld. Aber es ist schon, also schon Unmengen, also wirklich, das ist, war irgendwie, glaub, vor vor 3 Jahren waren wir bei 10000000000 oder 20000000000, Bewertung jetzt bei 300. Und ich glaub, die magische Grenze, von dem jedes Techunternehmen irgendwie träumt an der Börse, sind ja. Und bisher haben das ja nur irgendwie 5 oder 6 Unternehmen geschafft mit Microsoft, Apple, Google und so was. Deswegen bin ich echt gespannt, worin das noch geht. Ja.
Dennis: Und vielleicht ist es ganz gut für Sie, dass Sie aktuell noch nicht öffentlich an der Börse sind, sonst wäre
Philipp: Ja, heute wär's vielleicht schlecht,
Dennis: wär die Evaluierung vielleicht diese Woche nicht mehr ganz so positiv. Man würde da darunter leiden.
Philipp: Ja, gute Zeitpunkt zu kaufen. Ja. Aber was vielleicht noch ganz interessant ist und was auch in den ganzen letzten Wochen mit umging, also Sam Oldman ist sehr, sehr aktiv zurzeit auf Twitter, verkündigt, neue Updates oder was kommen wird. Sie haben ja vor einiger Zeit gesagt, O-Free wird nicht als API kommen, sondern es kommt nur GPT-fünf. Jetzt heißt es wieder, O-drei wird als API kommen und O-vier-Mini soll auch kommen noch vor GPT-fünf. Mhm. Zusätzlich haben Sie auch angeteasert, dass Sie in den kommenden Monaten ein neues Open Source Modell oder Open Modell releasen wollen. Da haben sie aktuell nur son eine Art gelauncht, wo man sich eintragen kann, ob man Interesse hat. Also es passiert sehr, sehr viel. Und sie haben auch gesagt, dass, okay, vielleicht nicht der nicht der einzige Ansatz ist, deswegen bleibt's echt abzuwarten, wie's wie's für die weitergeht und sind sind fleißig aktiv, kann man auf jeden Fall sagen.
Dennis: Ja. Und natürlich so positiv geframt, dass Sie gesagt haben, GPT 5 wird dann doch so viele neue Features und so Ja, genau. Wahnsinnig viel können. Deswegen müssen wir's noch mal
Philipp: Also Sie müssen's jetzt releasen, weil GPT 5 so viel besser wird, dass Sie derzeit der Zwischenzeit noch so was haben. Ich. Ja.
Dennis: Okay. Ja, sehr schön. Gut. Na, Connon, machen wir das. Ist wahrscheinlich eine kurze News mit Cursor der AI, die haben auch 'n bisschen Geld eingesammelt.
Philipp: Ja, Cursor hat auch eine neue Fundingrunde bei 'ner Bewertung von nur 9600000000.0, was unglaublich ist, wenn man aber klar, wenn man's mit 300 vergleicht, 625000000 Geld haben sie eingesammelt. Und ja, die Story geht weiter, weiterhin beeindruckend. Also sie haben mittlerweile 200000000, das heißt wirklich Geld, das sie aktuell zum jetzigen Zeitpunkt pro Jahr verdienen würden. Und das Unternehmen existiert seit 2 Jahren oder so was. Und da hat er vor 'n paar Monaten erst die 100000000 geknackt, also 'n Riesenboom in allen AI Editoren. Wir hatten's ja ganz oft schon hier. Ich nutz es auch. Ich glaub, bei euch nutzen's auch viele. Ja. Definitiv kann man sich mal anschauen. Sie haben immer noch eine eine für den den Pro Modus. Das heißt, wenn ihr's noch nicht getestet habt, könnt ihr's einfach mal kostenlos testen. Und natürlich Gemini 2 Punkt 5 Pro ist ist mittlerweile auch da drin und kann man auch nutzen.
Dennis: Ja. Cool. Gut. Ab und zu haben wir ja auch 'n bisschen den Connect hier zu Robotern, den wir darstellen. Da haben wir natürlich da auch relativ viel passiert. Kannst Du dich erinnern, hatten wir Figar als Unternehmen? Haben wir da schon mal drüber gesprochen oder ist das auch neu irgendwie in der?
Philipp: Also ich weiß, dass sie am Anfang Open Air genutzt haben, ihren Roboter zu kontrollieren und mittlerweile offenen Open eigenes trainiertes Modell gehen. Genau. Aber ich weiß nicht, ob wir es hatten.
Dennis: Okay. Also ist auf jeden Fall auch ein US amerikanisches Start-up, das sich dem verschrieben hat, humanoide Roboter zu bauen, weil sie eben auch daran glauben, dass das der Weg ist, dass man nicht dedizierte Roboter für unterschiedliche Use Cases hat, sondern einen sehr menschenähnlichen, der eben durch die,
Philipp: die
Dennis: wir aktuell in AI sehen, in der Lage sein wird, ganz viele Tasks zu unternehmen und zu unterstützen einfach. Und das heißt, einmal auf der kommerziellen Ebene, aber auch auf der privaten Ebene dort reinzugehen. Und Sie haben einen relativ langen Artikel veröffentlicht, wo sie son bisschen darlegen, also sie haben aktuell gibt es einen, also hardwaremäßig eine zweite Version, sie arbeiten gerade an der an der dritten Iteration des des Roboters Und wie Du sagtest, sie haben eben auch einen eigenes Modell und haben damit Reanforcement Learning eben geschafft, letztendlich ganz viele Daten zu simulieren. Und jetzt dann, so ist zumindest meine Interpretation davon, ohne noch mal irgendwie auf der Hardware zu trainieren oder ganz speziell mit diesem Hardware Typen zu trainieren, es geschafft, dieses Modell dann zu nutzen, den Roboter laufen zu lassen, Aktionen laufen zu lassen, also praktisch, dass das dass das neuronale Netzwerk dort alles übernimmt und da son Zero Shot Ding ist, das auf der Hardware einfach zu deployen. Genau, und darüber, ja, den Artikel gibt es dann noch in den Shownotes. Womit machen wir weiter? Wir haben noch, ja, ein Projekt, über das wir gestolpert sind. Was sich auch ganz spannend anhört, ist. Da geht's einen Browser, der für ais gebaut ist. Und zwar ist es so, dass ja, AI ja da draußen alles mögliche scrapen muss, die ganzen Daten zu bekommen und in der Regel war es bis jetzt eben so, dass es irgendeine Version von Chrome ist, die man da genommen hat und sie haben halt gesagt, okay, das in großer Performance viel deutlich besser machen zu müssen, müssen wir halt komplett einen Browser neu bauen. Und ja, wie oft mit solchen Zahlen, wenn man da drankommt, dass es bis zu zehnmal schneller, zehnmal weniger Memory, der gebraucht wird. Und genau, man kann es, glaub ich, über eine API ansprechen, das Ganze zu nutzen. Und im Moment ist halt so, dass sie sagen, okay, wir haben schon sehr, sehr viel, was wir abdecken und wo es gut funktioniert und haben aber selbst in Fallback letztendlich zu Chrome, wenn das mal nicht funktionieren würde. Also wenn unser Browser halt irgendwas nicht rändern, nicht anzeigen kann, nicht scrapen kann, dann ist dann 'n Fallback. Von daher, ja, wer irgendwie den hat, viele Daten noch selbst zu scrapen, irgendwo reinzupacken, was damit zu trainieren, hat jetzt mit Lightpanner eine Alternative zu einem Headless Chrome, die er nutzen kann.
Philipp: Und nicht den geschrieben, sondern den zig hab ich gerade gesehen.
Dennis: Bist Du ein Freund von zig?
Philipp: Keine Ahnung. Ich war nur, normalerweise ist es ja immer okay, hundertmal schneller, zehnmal schneller, sind von JavaScript zu gewechselt, aber diesmal ist es zig.
Dennis: Ja, okay, ganz richtig. So, dann haben wir noch 'n neues oder vielleicht 2 neue Modelle. Einmal ein Bildmodell, Image oder beziehungsweise das heißt Harf Moon, ist der Name von dem Ja. Modell.
Philipp: Ja. Ja, Ref Image ist die Company, die Start-up, die Gruppe dahinter und kam 'n bisschen eigentlich. Half Moon ist 'n neues Image und Image Editing Modell. Man weiß bisher noch nicht so viel, außer es gibt eine Preview, wo man sich anmelden kann und 'n paar Bilder anschauen. Sie haben da auch eine coole UI mit ganz vielen Videos, wo man sieht, okay, wie es funktioniert. Also es ist relativ intuitiv. Man kann Bilder editieren mit prompts und man kann Bilder stellen mit prompts und man hat sehr viele Möglichkeiten von verschiedenen Styles oder irgendwie so was. Und ja, funktioniert echt gut. Also wir hatten's ja am Anfang kurz mit g p dvo, mit mit Text editieren oder Text hinzufügen. Da scheint Reef auch sehr oder Half von uns sehr, sehr gut zu sein. Und auch in der Image Arena von sind Sie auf Platz 1 mit dem gleichen Elo Score wie GBDV0. Ja.
Dennis: Okay. Cool. Und kann man einfach testen, ne, hast Du gesagt, ja.
Philipp: Das weiß ich nicht. Es gibt auf jeden Fall eine Preview, wo man sich Dinge an, wo man sich anmelden kann und auf jeden Fall Dinge anschauen kann. Ob das bedeutet, man kann's ja auch testen oder ob man da wieder 'n extra braucht, dann weiß ich.
Dennis: Nämlich grade, ich hab sogar irgendwelche Bilder. Also ich hab hier in meinem Verlauf Bilder, die ich damit generiert hab, seh ich grade auf der Website. Also irgendwie bin ich rangekommen ohne großes
Philipp: Gibt auch auf jeden Fall 'n Discord, an dem man entscheiden kann, aber generell bisher noch nicht viel bekannt darüber. Auch keine Pläne, ob's Open Source wird oder Closed Source oder API oder Price, das ist alles noch 'n bisschen relativ neu von letzter Woche.
Dennis: Mhm. Cool. Und was nicht mehr ganz neu ist und von daher schon die Version Nummer 4 mit sich bringt, ist Lama aus dem Metauniversum. Was gibt es da Neues?
Philipp: Ja, also ich würd sagen, es ist sehr, sehr neu.
Dennis: Das das Modell ist neu, aber ich meine, die Begriff Lama ist schon ein bisschen
Philipp: Marc hat entschieden, dass Meta an einem Samstag, und zwar jetzt am Samstag 'n neues, eine neue Lamaversion launcht.
Dennis: Mhm.
Philipp: Sehr, sehr interessanter Release, würde ich jetzt einfach mal vorsichtig behaupten, weil wer releast an 'nem Samstag? Zum einen, was passiert, wenn der Release nicht so gut läuft, wenn man nicht reagieren kann, weil jeder am Wochenende ist und die Leute ihre eigene Meinung bilden? Das könnte eventuell 'n Problem für Lama aktuell sein, aber Lama 4, komplett neues Modell, jetzt, das heißt sozusagen weniger aktive Parameter und dadurch schneller Regenerierung, aber ich hab halt mehr Memory son bisschen, was alle Man munkelt, was alle große oder so machen. Man hat ja auch damals schon gesagt, GPT-4 waren Mixed Stoff Expert. Genau, es gibt also 4 Modelle haben sie angekündigt, 2 haben sie jetzt released mit und. Angekündigt haben sie noch und. Also das kleinste Modell, hat 109000000000 Parameter und 17000000000 aktive Parameter bei Generierung. Maverick, das mittlere, hat 400000000000 Parameter und auch 17000000000 Parameter bei Generierung. Sie sind multimodal mit. Das heißt, das Modell versteht nativ Bilder und Text und kann Text generieren, trainiert auf 40 Trillionen Token, also Deutschen wären das Billionen dann, würd ich sagen. Über 200 Sprachen, besser als die bisherigen Modellen, auch multilingual. Das einzige große Problem für uns in Europa ist, man darf es nicht nutzen, weil Lizenz, wenn Du in Europa domizil oder eine Company bist, dann darfst Du keine multimodalen Lamamodelle nutzen. Jetzt sind alle Lamamodelle multimodal. Das heißt, man kann es nicht selber hosten oder selber nutzen lokal. Ich mein, 100000000000 Parameter ist relativ groß, es lokal mal zu testen. Heißt, wenn ihr es irgendwie testen wollt aktuell, müsst ihr über API Provider gehen. Find ich sehr schade, muss ich sagen, weil gerade irgendwie, keine Ahnung, Jamar und Quen und die anderen Modelle oder, sind ja ohne Einschränkungen, sag ich mal, in Europa nutzbar. Und generell, wenn man son bisschen den den Social Vibe verfolgt hat über die letzten 2 Tage, gibt's viele, viel Verwirrung aktuell, weil irgendwie der Alem Sus Arena Score, den wir am Anfang schon hatten mit Gemini, da ist Lama, das neue Lama Modell Platz 2. Aber das Modell ist ganz anders, wie wenn man das jetzt auf irgend 'ner API nutzt und hat auch irgendwie 'n Experimental Tag. Und es gibt auf Reddit Nachrichten, dass irgendwie sie auf Testsets trainiert haben. Da muss man sehr, sehr vorsichtig sein, weil Reddit sollte man nicht für garantiert nehmen. Aber es gibt ganz viele verschiedene Rumors und generell, dass es sich eher nach 'nem Downgrade anfühlt als von Lama 3. Und ich mein, ich weiß nicht, wenn man halt an 'nem Samstag releast, ich mein, hätten sie's heute gemacht, dann wär ich mir sicher, hätten sie auf viele Dinge schon antworten können oder eingeben können. Und so hat das halt dazu geführt, dass Leute ihre eigene Meinung bilden. Und ja, wenn's euch irgendwie interessiert, gerne mal auf irgendwie Localama Reddit schauen oder generell oder einfach mal bisschen abwarten die nächsten Tage, was da noch rauskommt und vielleicht jetzt nicht blind darauf stürzen. Aber generell scheint's 'n guter und 'n riesiger Fortschritt zu sein, wenn man Lama mehr auf 'nem Server nutzen möchte. Klar, 8000000000 Parameter oder 3000000000 Parameter gibt's aktuell nicht. Wir können hoffen, dass es irgendwann kommt. Aber ja, für EU sieht's bisher echt schwierig aus, sag ich mal.
Dennis: Weißt Du, was es für eine Richtlinie oder warum das so ist? Oder ist das einfach noch wie früher, dass sie einfach immer alles langsamer in Europa releast haben?
Philipp: Also mit Lama Drehpunkt 2, welches das erste multimodale Lama war, mit Lama Vision, was Mitte letzten Jahres kam, haben sie eine Lizenzänderung oder eine Terms of Service Änderung durchgeführt. Sie haben damals als Grund son bisschen den EUI Act angeführt, dass sie darüber nicht mehr sicherstellen können irgendwie, dass ihre Modelle konform sind und sie deswegen die erst mal in Europa nicht releasen können. Ich weiß ehrlich gesagt nicht, ob das der Grund ist oder was auch, also mal welche, ob da eine größere Intention dahintersteckt. Das Einzige, was ich sagen kann, ist, dass ich auch vorsichtig wär. Also weil man kann's theoretisch runterladen und nutzen. Und es gibt auch Versionen, die sind, also man darf, Klammer, Distributen und Du musst nicht irgendwo auf klicken und die prüfen dann deine IP, ob Du's runterladen kannst oder so was. Aber wenn ich's halt für irgendwelche Zwecke nutzen möchte, wär ich halt schon sehr, sehr vorsichtig. Und sie schreiben halt, dass halt multimodale Modelle in Europa sind oder mal keine Lizenz dafür hat. Und per Architektur sind alle Lama Modelle jetzt multimodal. Mhm. Okay. Bleibt abzuwarten, ob sie das anpassen. Ich hoffe es, ansonsten schließen sich's 'n bisschen selber ins Bein.
Dennis: Okay. Gut. Dann gucken wir mal, was die nächsten Tage da noch ergeben und an Klarheit bringen. Und dann der, nee, ich weiß nicht, letzte der Großen haben wir noch, ja. Aber 1 der großen Amazon haben wir noch auf der Liste. Dort gibt es nämlich Amazon Nova Act nennt sich das und das Ganze ist ein Agent, der Actions in Webbrowsern performen kann. Also auch jetzt nichts grundsätzlich Neues, wo wir sagen, und das haben wir noch nie gehört, hatten wir auch in den letzten News immer mal wieder. Aber genau, das gibt's jetzt als SDK, was man nutzen kann, Und ermöglicht eben, dass man Agenten so programmieren kann, dass sie eben mit der, ja, mit der Außenwelt über ein Browserinterface interagieren können und das natürlich deutlich andere Use Cases bringt. Ein bisschen das, worüber wir schon gesprochen haben mit, wer heißt das alles? OpenAI Operator, ist ja, sehr ähnlich. Vor 2 Wochen hatten wir noch einen, weißt Du noch, welche das war? Das chinesische Start-up
Philipp: mit Mhm. Das chinesische Start-up mit
Dennis: Mhm. Guckt in den Shownotes Shownotes verlinken.
Philipp: Ich hab Manus e I im Kopf, aber ich weiß nicht, ob das stimmt.
Dennis: Nee, Manus war, glaub ich.
Philipp: Doch Manus. Manus ist Manus? Ja. Okay.
Dennis: Ja. Sehr gut, ich guck grade hier auf dann noch irgendwas anderes. Nee. Ja, genau, Manos waren das. Ja, also von daher einfach für Depps, glaub ich, interessant, wenn Sie in die Richtung was bauen wollen, betet das da jetzt, gibt's son SEC, mit dem man das einfach implementieren kann. Cool. Judi. Dann Philipp wünsch ich dir schon mal jetzt ganz viel Spaß, hoffentlich 'n angenehmen Flug nach Las Vegas. Bin gespannt, was ihr da als Sondernews mitbringen könnt aus der Woche und an unsere Hörer*innen wie immer gerne Feedback an Podcast at Programmier Punkt bar oder über einen der vielen Kanäle, über die übrigens auch online findet. Sonst wünschen wir euch 2 wunderschöne Wochen. Jetzt endlich mit 'n bisschen mehr Sonnenschein in Deutschland und bis ganz bald. Macht's gut.

Gemini 2.5 Pro // GPT-4o Bildgenerierung // Halfmoon von Reve Image // Figure Robotics // Lightpanda // Llama 4

Shownotes

Speaker Info

Philipp Schmid