News AI #5 –

Falcon 180 B // SD XL 1.0 // IDEFICS // GPT Finetuning // CodeLlama // Coreweave 2.3B$ AI Kredit

13.09.2023

Shownotes

Die erste AI News nach unserer Sommerpause! Wir versuchen, einen breiten Überblick über die Themen der vergangenen sechs Wochen zu geben:

Soundtrack composed by AIVA (Artificial Intelligence Virtual Artist)

/transkript/programmierbar/news-ai-5-falcon-180-b-sd-xl-1-0-idefics-gpt-finetuning-codellama-coreweave-2-3b-ai-kredit
Hallo und herzlich willkommen zu mal wieder einer weiteren Folge der Programmierbar AI News. Lange Zeit, sechs Wochen waren wir jetzt in der Sommerpause neben mir, dem Fabi ist man wieder dabei, der Philipp. Hi Philipp. Servus, Hi. Sechs Wochen ist ja viel Zeit in AI Zeit. Normalerweise waren unsere Zeiträume immer zwei Wochen, über die wir uns unterhalten haben. Jetzt ist sechs... Da kann noch was passiert. Deswegen probieren wir es heute mal eher ein paar mehr Themen dafür kürzer zu halten und trotzdem bei unserer halben Stunde zu landen. Mal gucken, wie gut wir das hinbekommen. Lass uns einfach mal direkt einsteigen, Philipp. Ich glaube, mit dem ja meistens anfangen sind ganz am Anfang. Was gab es denn Neues in der Model Welt? Ich glaube im Open Source Bereich kam Falken raus, oder? Was kannst du dazu erzählen? Genau. Also scheinbar hat AI über den Sommer nicht geschlafen. Also Meta und alle anderen haben fleißig weiter gearbeitet und Model releast, unter anderem auch TAI, was für Technical Innovative Institution steht und aus Abodabi kommt. Und die haben Falken 180B releast. Also ich weiß nicht, ob ihr euch noch zurückerinnern könnt. Vor drei, vier Monaten gab es schon ein Falken Release mit 7 und 4DB. Und damals war Falken das erste Apache 2.0, also wirklich Open Source Language Language Modell. Und das Team hinter Falken 7, B und 4DB hat gleichzeitig auch ein Training gestartet für ein Modell, was 180 Milliarden Parameter hat, somit ein bisschen größer als GDP 3.5 oder Blum zum Beispiel. Und dieses Training war vor ein paar Wochen abgeschlossen und die haben das Modell jetzt releast und es würde auf 3,5 Trillion Tokens, also im Deutschen dürften das dann 3,5 Billionen Tokens sein, hat 180 Parameter und ist besser als Google's Palm2 Lady. Also Google hat aktuell über ihre Vertex AI Suite und generell auch Dutch Language Modelle im Angebot. Und PalM2 ist dort das größte und Falken 180B ist, ich weiß nicht in wie vielen Benchmarks besser als Google's PalM2 und außerdem ist es auch besser als GPS 3.5, was schon sehr beeindruckend ist, da wir jetzt sozusagen ein öffentlich zugängliches Modell haben, welches mit Open AI oder Google konkurrieren kann. Auf jeden Fall noch leider nicht mit GPS4. Aber ich sage mal so, die Lücke zwischen Closed Source und Open Source wird langsam immer kleiner. Der einzige Nachteil ist, man braucht sehr viel Compute und Geld. Also das Modell trainieren zu können, brauchst du mindestens für, wenn man, sage ich mal, effiziente Techniken nutzt, 2A 180 Gigabyte und für Influencer, also was wir aktuell nutzen, sind 8A 180 Gigabyte, welche ungefähr, sage ich mal, bei normalen Public Cloud Preisen die 50.000 € im Monat kosten. Also es ist schon sehr teuer, wenn man das Modell hosten möchte. Aber hosten ist vielleicht auch ein ganz gutes Stichwort. Falken 180B ist nicht mehr unter Apache 2.0 releast, das ist kein Open Source Modell sozusagen mehr, sondern es hat ein paar Restriktionen und eine Restriktion oder ich glaube, die wichtigste Restriktion dahinter ist, dass man das Modell nicht hosten darf und als API anbieten. Also wenn ich jetzt zum Beispiel ein Unternehmen habe und ich möchte gern irgendwie mit Open AI konkurrieren und sehe okay, Falken klingt gut, sieht gut aus. Ich biete es als API an und Nutzerzahlen dann einfach per Token oder per Compute Time. Das verbietet die Lizenz sozusagen. Aber man kann es trotzdem noch finetunen und intern für interne Zwecke. Also wenn ich irgendwie interne Suchebau verwenden oder auch wenn ich ein JGPT Klon bauen wollen würde. Das funktioniert auch. Man darf nur das Modell nicht als Hosted APIs sozusagen anbieten. Okay. Und aber den wichtigsten Test hast du denn schon deinen, also konntest du es mal ausprobieren, hast du deinen Test mit dem Zählen gemacht? Nee, habe ich nicht gemacht, aber ich kann das währenddessen mal einfach testen. Also es gibt auch eine Demo, die wir zusammen mit dem Institut sozusagen zur Verfügung stellen. Also wenn ihr Interesse habt zu testen, okay, ist es wirklich besser als GBT 3.5, dann könnt ihr einfach auf den Link in den Shownotes gehen. Ich gehe jetzt einfach mal davon aus Fabi packt den Link in die Shownotes rein und dann könnt ihr einfach gerne mal zwei Browserfenster vielleicht aufmachen und dann einfach bei ChatGPT was fragen und dann einfach Cloud was fragen. Ja cool. Apropos neue Modelle. Ihr habt von HackingFace auch was rausgebracht. Ein Visual Language Modell, das sich IDEFix nennt. Ich glaube anhand der Bilder kann man, da geht man auch davon aus, dass auf jeden Fall Asterix und Obelix angelehnt ist und ihr ein multimodales Language Modell rausgebracht hat, was das Ziel so ein bisschen hat, auf jeden Fall die Capabilities von Flamingo, von DeepMind, also Google zu halten oder übertreffen und ist alles komplett Open Source auch zusammen. Also ist glaube ich auf verschiedene Modelle rausgebracht. Es gibt ja auch ein 80 Milliarden Parameter Modell, sowohl in der Instruct Variante als auch ein 9 Milliarden Parameter Modell und wurde auf verschiedene Datensets trainiert, unter anderem auch ein Datenset, das ihr bei HackingFace extra dafür erstellt hat, und zwar ein 150 Milliarden Token Data Set, das sich Obelex nennt, wo man auch durchaus mal wieder die Asterix und Obelix Analogie erkennen kann. Und da handelt es sich Interleafed Image Text Documents, 140 Millionen und wo 353 Millionen Images drin sind. Also genau grundsätzlich für die, die jetzt nicht genau wissen, was es ist, also bedeutet Multimodal. Das heißt, ich kann als Input sowohl Text als auch Bilder geben. Ist ja auch das, was GPS4 schon eine Weile lang enabled hat, aber noch nicht publy archive ist. Also ich glaube, man kann es über Bing Search nutzen, was ja hintendran wohl GPS4 nutzt, auch für diese Multimodalität. Aber in GPS4 zumindest noch nicht publy archive. Ich habe es in meinem Account nicht. Ich weiß nicht, Philipp, ob du in irgendwelchen Betas da mit drin bist, das ausprobieren zu können, aber zumindestens GDPT4 selbst habe ich es noch nicht probiert und sieht auf jeden Fall super cool aus. Ich glaube aktuell was Lizenzen zumindest angeht, ich habe jetzt ja gemeint, Open Source, alles wie es trainiert wurde, da ja auch super viel Informationen, die ihr geteilt hat, auch so Insights, was beim Training schiefgelaufen ist und so fand ich super interessant zu lesen. Was die Lizenz angeht, dadurch, dass es auf zwei Models gepretraint wurde, ist unter anderem auf Lama65B, was ja nur eine Non-Commercial Lizenz for Research Purpose ist von Meta, ist das IDFix natürlich auch unter derselben Lizenz, also auch eine Research-only Lizenz. Aber fand ich auf jeden Fall super interessant, ob man mal ein bisschen rumprobiert, mal ein bisschen, also zumindest wenn ich es jetzt vergleiche mit den Tests, die ich gemacht habe, die nur ein paar wenige waren, so ein bisschen ich habe Object Counting gemacht, also ein paar Bilder rein gegeben und Objekte, Personen, also auch Äpfel sollten irgendwie ein bisschen gezählt werden, hat es zumindestens bei meinen zehn Random Images gleich mit BING Chat performt. Also so keine Ahnung 60 Prozent der Fälle war es, 50 bis 60 Prozent der Fälle war es richtig, was es gemacht hat. Aber ansonsten super cool auf jeden Fall damit rum zu probieren, irgendwie ein Modell zu haben, mit dem man da jetzt ein bisschen interagieren kann, weil ihr ja auch einen Playground dafür herausgebracht hat. Genau. Und ich meine, EDFix ist, wie du schon gemeint hast, auf Lama 1 basierend. Das hat einfach den Grund, als man das Training angefangen hat, gab es noch kein Lama 2 oder anderes, sag ich mal, Power Full Language Modell. Das heißt, man hat einfach nur, also bei dem Training hat man auf die Basis von einem Text Language Modell sozusagen aufgesetzt und das dann sozusagen mit dem mit dem Visual Input weiter trainiert. Und soweit ich weiß, möchte das Team auch eine Version rausbringen, welche auf Lama 2 basiert, die man dann kommerziell nutzen kann. Allerdings weiß ich nicht, wann das Training dort startet und das dauert dann auch wieder ein paar Wochen oder Monate, soweit ich weiß. Also ist man auf jeden Fall eine Arbeit, dass man das auch, sage ich mal, mehr kommerziell nutzen kann. Macht auf jeden Fall Spaß, damit rum zu probieren. Ab vor Hakenfels, ich glaube bei euch gab es eine Investmentrunde, oder? Ja, also Sommer war sehr spannend, sage ich mal bei uns. Wir haben unsere Series D geclosed und haben 235 Millionen US Dollar geraised bei einer Evaluierung von 4,5 Milliarden, was schon sehr, sehr, sehr viel ist. Aber ich glaube, das richtig Coole daran, was sehr speziell und auch einzigartig ist, ist, es gibt keinen einen großen Investor, sondern es gibt wie so eine Art, wir nennen das immer Ecosystem Runde. Zu den Investoren gehören unter anderem Sales Force, Google, Amazon, Nvidia, Intel, AMD, Qualcom. Also ich sage mal, fast alle Big Player, die irgendwas mit Semi-Kontaktoren oder Cloud zu tun hat, sind zusammengekommen und investieren in ein Hining-Phase, was zum einen finde ich ein sehr starkes Statement ist für Open Source Machine Learning, dass halt alle wirklich okay, es gibt halt den closed Source Weg, aber man muss auch definitiv diesen Open Source Weg vorantreiben. Und es ist sehr, sehr cool zu sehen, dass man dort halt mit heiligen Fels wahrscheinlich den Platz gefunden hat. Und ist es untypisch, dieses Pooling Investment von größeren gleichwertigen Investoren? Ja, also zum einen ist es super schwierig überhaupt, dass du Google und Amazon in dieselbe Runde bekommst, weil es ja wie bei allem Amazon, Google, Microsoft konkurrieren immer irgendwie miteinander. Dasselbe gilt ja für Intel und AMD oder Qualcom. Sind ja auch, sage ich mal, alles Konkurrenten in ihrem Marktbereich. Den Vorteil oder wie wir es dann geschafft haben, ist sozusagen Sales Force Venture ist der Leading Investor. Also die haben sozusagen den größten Beitrag geleistet. Und darüber war es dann möglich, dass Google und Amazon mehr oder weniger zu gleichen Teilen dazukommen. Das gleiche gilt für Nvidia und Inter, dass sich sozusagen keiner irgendwie auf den Schlips getreten fühlt, aber alle trotzdem davon mit profitieren wollen. Und das ist schon sehr einzigartig und hat vor allem im AI Space, glaube ich noch nicht gegeben. Ja, cool. Glückwunsch auf jeden Fall. Klingt, dankeklingt nach einem coolen Meilenstein. Ja, vor allem ich glaube, was auch für vielleicht die Zuhörer interessant ist, dass das bedeutet, dass wir weiterhin mit unserem Github für Maschine Learning weitermachen können und auf jeden Fall für die nächsten Jahre erst mal ausgesorgt haben und halt weiter den Zugang und einfach, dass der normale Entwickler auch KI und Maschine Learning nutzen kann, vereinfachen kann oder dass auch Unternehmen die Modelle in ihrem eigenen Account deployen können. Das ist halt, sage ich mal, dadurch gesichert und man muss sich nicht nur an Open AI hängen. Cool. Bevor wir gleich noch mal ein bisschen weiter auf Modelle eingehen, ich glaube an der Stelle passt vielleicht so ein bisschen Core-Weef, ist ja auch einer der großen CPU Cloud Anbieter, hat nämlich auch ein bisschen Geld eingesammelt, aber diesmal auf eine bisschen andere Art, hat keine Series ABCD geraised, sondern die haben ihre Infrastruktur dafür genutzt, an Geld zu kommen, weil die haben ja eine große Menge an den NvdA, was sind es, 1.000 oder 100? Was sind die größten aktuell? 100. 100, 8.100, Grafikkarten und haben die genutzt, einen großen Kredit aufzunehmen, und zwar 2,3 Milliarden und das Ganze gebackt bei den Nvidia Chips. Und ich glaube, das ist auf jeden Fall auch etwas, was relativ neuartig so in der ganzen AI Landschaft ist, weil es für sie scheinbar ein sehr einfacher, also was heißt einfacher, zumindest ein kosteneffektiver Weg ist, Geld aufzunehmen. Das Ganze von den EnBieter Chips backen zu lassen. Und das scheint auf jeden Fall ein relativ neuer und interessanter Schritt zu sein. Was man dazu sagen kann, ist, ich glaube der CEO von Coreweaf war davor im Finance tätig. Also der hat vielleicht ein bisschen mehr Erfahrung, was das ganze Investieren oder Geld aufnehmen, Kredit aufnehmen angeht als ein typischer Tech Startup CEO. Was aber sehr, sehr speziell ist, ist, dass also sie haben sozusagen einen Kredit aufgenommen bei einer Bank für 2,3 Milliarden und man kennt es vielleicht aus dem privaten Leben, wenn ich bei einer Bank einen Kredit aufnehmen möchte, erwartet die Bank ja immer eine gewisse Sicherheit. Also mal angenommen, ich möchte ein Haus bauen oder ich möchte eine Wohnung kaufen. Okay, welche Rücklagen habe ich, dass ich diesen Kredit auch falls zurückzahlen kann oder dass die Bank sozusagen auf jeden Fall einen Gegenwert davon hat? Genau. Meistens ist es das Haus selbst oder man hat eben noch mehr nebenbei. Genau. Und bei Core-Reef ist sozusagen der Gegenwert die Grafikkarten. Also wo auch immer Sie den Kredit aufgenommen haben, das Institut hat gesagt: „Okay, Nvidia-GPU-Grafikkarten haben einen Wert, einen Gegenwert, deswegen können die den Kredit aufnehmen. Was sehr, sehr untypisch ist, weil wir kennen es alle vom Murschen Law. Normalerweise veralten Computerchips sehr schnell und innerhalb von ein, zwei, drei, vier Jahren ist die Version, die man hatte, so veraltet, dass es eigentlich, sage ich mal, gar keinen Gegenwert mehr hat. Und das hat das Institut nicht so angesehen, dass einfach der Bedarf, der aktuell auf der Welt da ist, so hoch ist, dass auch ältere CPUs noch diesen Wert haben und so Coreviv 2,3 Milliarden US Dollar aufnehmen konnte. Ich glaube, daran zumindest was ja auch in dem Interview gesagt wurde, daran steckt ja auf jeden Fall auch die meiste Arbeit im Endeffekt wirklich einen Plan zu machen. Wie lange ist die Deprecation-Skene oder wann deprecatedden CPUs wirklich und wie lange haben sie eine Pay of Skene, das heißt wie lange kann man daran Geld verdienen? Da steckt auf jeden Fall die meiste Arbeit in diesem Deal drin. Auf jeden Fall ganz interessant, weil 2,3 Milliarden ja durchaus auch nicht wenig, aber ich glaube, die haben auch einiges an CPUs da rumliegen. Alright, dann lassen Sie mal weitermachen bei den Modellen. Was gab es denn bei Stable Diffusion? Genau. Also ich glaube, das ist keine großartige News. Stabil Diffusion XL 0.9 wurde ja schon im Juni glaube ich releast, aber sage ich mal, zwischen der letzten Folge und heute hat Stabil EDI Stabil Diffusion XL 1.0 releast komplett. Also man kann die Rates sich runterladen, man kann das Modell finetunen und auch auf ihren APIs nutzen zum Image generieren oder halt auch dann selber hosten. Und ich muss sagen, ich bin echt beeindruckt. Also ich habe Stabil Diffusion 1.5 oder 2.1 auch davor schon genutzt und ich nutze es jetzt für alle Social Media Images oder Blogpost Images, die ich generiere, nutze ich Stabil Diffusion XL und es kann wirklich mit mit Journey oder Dali mithalten. Also wenn ihr irgendwie auf der Suche nach einem sage ich mal Open Source oder Open Access Alternative seid, die ihr intern hosten könnt oder selber weiter trainieren könnt, dann definitiv Stabil Diffusion XL 1.0 anschauen. Weil du gerade gesagt hast, auch mit Dali mithalten hast du Dali in letzter Zeit aktiv genutzt? Weil gefühlt, gut das ist jetzt auch schon irgendwie anderthalb Monate her, als ich Dali mal genutzt habe, dachte ich noch okay krass, gefühlt hat sich da im Dali Bereich gar nichts getan und hält überhaupt nicht mehr mit dem, was aktuell da draußen ist. Weil du es witzig fand, dass du es in den Korb geworfen hast. Gerade mit „Da kannst du mithalten. Wenn es nur damit mithalten kann, wäre ich leicht enttäuscht. Ja, getestet nicht. Aber es gibt sozusagen User, die es verglichen haben, also die selben Prompts wo ausprobiert haben und dann Bilder sozusagen gegenübergestellt haben und abgestimmt haben. Okay, was ist das? Was gefällt mir am besten? Was nicht so gut? Und da Dali noch mitkommt mit dem aktuellen Journey Varianten mithalten? Jetzt nicht mithalten. Also es ist halt. Gleich. Gut oder besser sozusagen. Also Stable Diffusion 1.5 oder 2.1 war ja, sage ich mal, noch ein bisschen hinterher. Vor allem was so Details angeht, wie Hände oder halt Finger und alles möglichen und oder auch Hochauflösung oder Details. Und da ist es halt jetzt signifikant besser und es ist echt sehr cool. Also funktioniert echt gut. Ja, cool. Dann auf jeden Fall ausprobieren. Weil wir gerade durch da bei OpenAI waren. In Kleinigkeiten gibt es auch, dass OpenAI jetzt die ich glaube seit zwei Wochen zumindest Ende August, die Möglichkeit dafür gibt, GPS 3.5 zu finetunen. Also falls ihr daran interessiert seid, eines der Modelle fein zu tun, zum Beispiel keine Ahnung, weil ihr, ich glaube einer der typischen Dinge ist ja Reliable Output Formiting, also dass ich möchte, dass immer das gleiche Format als Antwort zurückkommt, dass ich irgendwie wichtig ist, irgendwie API Codes am Ende zu machen, dass ich High Quality Json am Ende haben möchte oder ähnliches. So, dafür könnte man es nutzen, dass ich irgendwie einen Custom Tone haben will. Also wenn ich sage, mein Business hat eine bestimmte Sprache, in der es spricht und möchte auch, dass wenn, keine Ahnung, GPT in dem Fall direkt mit dem Endkunden interagiert, auch in dieser Sprache spricht, dass ich damit ein bisschen finetunen oder ähnliches, dann habt ihr dazu jetzt die Möglichkeit, das Ganze jetzt auch mit GPT 3.5 zu machen. Also Feintun war ja schon vorher auch möglich, aber nicht mit GPT 3.5 Turbo. Und genau, grundsätzlich ist es genauso wie es davor auch. Also ihr müsst ein bisschen Preperation Data haben. Ich glaube, sie sagen so 50 bis 100 Examples bräuchte man mindestens, damit es gut funktioniert. Also man kann es auch mit weniger machen, aber das empfehlen Sie. Kannst du uploaden, gibt dann einen Feintune Job und am Ende kriegt man eine Model ID, die man dann über die API angehen kann und so sein feingetuntes Modell nutzen kann. Genau das Ganze jetzt mit GPS 3.5 Turbo auf jeden Fall auch ausprobierenswert. Was ich halt sehr interessant finde, OpenA ist ja nicht an ihren eigenen Terms of Service gebunden. Das heißt, wenn man irgendwie aktuell GPS 4 nutzt für seinen Use Case, könnte man rein theoretisch Input und Output nehmen, damit GPS 3.5 trainieren und dann sozusagen wechseln und sich einiges an Kosten sparen. Also wenn ich GPS3.5 Feintuning, kann ich eventuell für meinen Use Case dieselbe Ergebnisse wie für GPS4 bekommen. Weil du sozusagen meinst, ich würde für den Use Case mir mit GPS4 Inputs und Outputs generieren und die als GPS3.5 Input nehmen? Ja, oder aktuell, sage ich mal, meine Anwendung oder meinen Use Case umzusetzen, muss ich GPS4 nutzen, weil das Standard GPS3.5 nicht gut genug ist. Und dann habe ich ja schon Inputs und Outputs, die ich dann einfach direkt nehmen kann und dann halt eine Fintune Version gegenüberstellen zu der Vierer Version. Und wenn das erfolgreich ist, kann man sich einiges an Kosten sparen. Cool. Ansonsten haben wir noch auf der Agenda noch mal uns über Codelama zu unterhalten. Was gibt es da? Genau Codelama ist auch ein neues Modell, was im Sommer sozusagen rauskam. Codelama kommt von Meta, wie der Name vielleicht schon verraten lässt. Und Codelama ist eine Modell Familie für Code Generation. Und Meta war, ich sage mal sehr kreativ in dem Sinne, dass sie einfach bestehende Lama zwei Modelle weiter trainiert haben auf Code Daten. Also sie haben das sieben Parameter Modell, sieben Billionen Parameter Modell, 13 Billionen Parameter Modell und das 34-Billian-Parameter Modell einfach auf 500 Billionen Tokens, also 500 Milliarden Tokens weiter trainiert, was dazu geführt hat, dass sie sehr, sehr gute Code Generation Modelle erschaffen haben, sozusagen. Außerdem haben sie noch ein gewisses Long Context Fintuning angewendet. Einfach nachdem sie sozusagen die 500 Milliarden Tokens trainiert haben, haben sie noch mal zusätzlich für 20 Milliarden Tokens das Modell trainiert auf längere Kontexte. Das bedeutet, Lama 2 hat einen Kontext von 4966 Token heißt, ich kann in meinen Input und mein Prompt nur 44 1996 Tokens packen, was für Code manchmal eventuell zu gering ist, weil ich ja vielleicht ein langes File habe oder weil ich zuletzt geöffnete Files irgendwie mit hinzufügen möchte, dass es für mich einfach eine gute Code-Suggestion vorschlägt. Deshalb haben sie es einfach auf 20 Milliarden Tokens mit einer Kontext Länge von 16.000 Tokens trainiert, also viermal so viel. Und scheinbar war es erfolgreich. Also wenn man sich die Visualisierungen anschaut, erkennt man, dass es wirklich gute Outputs liefert, wenn ich längeren Prompt oder Context mit rein gebe. Und zusätzlich zu den Base Code Lama Modellen haben sie ja auch noch Instruction Fintune Modelle trainiert und zur Verfügung gestellt, welche ich dann wirklich konkrete Fragen stellen kann wie irgendwie wie kann ich eine JavaScript Array filtern anhand von einem Object Key oder sowas? Und dann spuckt mir das Instruct Code Lama die Antwort und den Code Snippet dazu raus. Was aber eventuell noch viel interessanter ist, ist wie bei Lama 2 haben sie die Modelle öffentlich veröffentlicht. Also man hat Zugang zu den Wates, was dazu geführt hat, dass die Community innerhalb von einer Woche, ichglaube so viele Modelle gefinetut hat und das Level so krass erhöht hat zu den Instruction Modellen von Meta, dass es einfach... Also mittlerweile haben wir von ich glaube Wizzert Coder und Fintintunt Codelummer Modelle, die besser als die März Version von GDPT4 ist. Also wir haben jetzt Fintunt Open Access Code LLMs, welche besser als GDPT4 von vor drei Monaten sind, welche schon sehr sehr beeindruckend ist. Und gibt es irgendwelche für unsere Hörer da irgendwelche Playarounds? Also wahrscheinlich nicht von diesen Communities gefintunten Modellen, aber zumindest von Codelummer selbst oder sogar auch davon? Ich glaube, es gibt also die, was wir hatten. Es gab einen Playground zwischen Find und Wizzard Coder, also Find ist ein Startup aus dem Silicon Valley, welches sich zur Aufgabe gemacht haben, die beste Suche für Entwickler zu erstellen. Also wenn ihr auch auf find. Com geht, also P-E-N-D. Com, ist es die, sage ich mal, die Google Suche für Entwickler. Und das Team dahinter hat CodeLama gefintunt auf ihren internen Datensätzen und haben somit 73,8% auf Human Eval erzählt. Also Human Eval ist ein Code Benchmark Data Set in Python, wo man als Input den Funktionsaufruf, also Dev, Hello World und dann die Input Parameter und den Doc String hat. Und das Modell muss dann sozusagen den Funktionskörper generieren. Und da erreicht es 73,8 Prozent, welches besser ist als das MertsGPT4 Modell. Und die Wissart-LM oder Bizzard Coder ist eine Research Group von Microsoft, die haben auch das CodeLama Modell gefinetunt und die erreichen 73,2 Prozent. Und dort gibt es einen Playground, wo man sozusagen seinen Input-Prompt reingeben kann und dann bekommt man das Ergebnis von beiden sozusagen so gegenübergestellt. Ja nice, dann packen wir find. Com und falls du noch einen Link zu dem Playground hast, schick den auch gerne noch mal rüber, dann können wir den auch in die Shownotes packen. Ja. Alright, Philipp, wir haben es ja wirklich mal geschafft, unter den 30 Minuten zu bleiben. Vielleicht sollten wir einfach immer ganz viele Themen und dafür ganz kurze Themen machen, das irgendwie zu schaffen. Aber ich glaube, beim nächsten Mal haben wir schon gesagt, wir bringen wir mal wieder ein paar längere Themen auch mit. Aber wir haben unsere Baseline geschafft. Wer hat es gedacht? Ich meine, man muss vielleicht dazu sagen, es ist auch 7 Uhr morgens. Also vielleicht hat es ein bisschen mit dazu beigetragen. Ich muss auch sagen, nach keinen einzigen Kaffeeinteressenten, bei mir ist es 8, ich sitze gerade in Helsingknebel, also mittlerweile schon fast 9 Uhr morgens ging es los. Gleich muss mal der erste Kaffee kommen, obwohl eigentlich Kaffee ja nur dazu beitragen müsste, dass man schneller redet und früher fertig ist. Also keine Ahnung, irgendwie hat es bei mir die Entwicklung genau andersrum gemacht, keinen Kaffee zu haben. Vielleicht macht Kaffee mich langsamer. Ansonsten wie immer, gebt uns gerne Feedback. Jetzt geht's wieder los. Wir sind aus der Sommerpause wieder da. Nächste Woche geht es direkt weiter mit einer Newsfolge. Ich glaube sogar, Moment mal, morgen ist, ne heute Abend, da ist ja schon Dienstag, heute Abend ist WWDC. Ich glaube, dann kriegt ihr sogar morgen direkt zwei Folgen mit der Special WWDC Folge und der AI News. Vielleicht haben wir die AI News an morgen anders. Mal schauen, ob ihr mittwochs direkt jetzt. Schon zwei Folgen bekommen. Eine Frage hätte ich dann dazu. Meinst du, Apple stellt irgendwas vor KI-technisch, irgendwelche AI News? Ich habe es nämlich ja schon bei ihrer letzten Keynote gefragt, ob irgendetwas kommt und sie sind ja sehr gut dabei, das Ganze zu beschäftigen. Ich glaube ehrlich gesagt nicht. Also ich glaube, das wird ein Ding sein, was komplett auf neues iPhone geht und sie werden bestimmt irgendwie. Also ich sage mal so, ich glaube, es wird wieder eine Konferenz sein, in der kein einziges Mal das Stichwort AI fällt. Wenn, wird es Machine Learning und on device Machine Learning sein. Ich glaube, sie werden das Wort AI, den Begriff AI nicht in den Mund nehmen. Und ich bin mal gespannt. Ich glaube nicht. Ich glaube, sie halten sich da raus. Warum glaubst du was anderes? Also ich habe zwei. Ich glaube, es gab in den letzten paar Monaten zwei ganz interessante Entwicklungen. Die eine ist on, on Device Machine Learning. Also ich weiß nicht für die, die es verfolgt haben oder ob Lama Cpp etwas sagt, ist sozusagen eine C++ Implementierung von Lama, welches auf MacBook ganz gut läuft, sag ich mal, vor allem auf den M2. Und der CEO und Gründer von Lama Cpp hat Falken 180B auf einem M2 Ultra, glaube ich zum Laufen bekommen, welches mehr effizient war als auf einer Nvidia H100 und hat auch sehr schnell funktioniert. Und es gibt wirklich eine mittlerweile sehr große auch Community, die sich für on device LLMs interessiert. Und da sticht Apple mit ihren M2 oder M1 Chips so weit raus in Sachen Performance, dass es eventuell sein kann, weil jeder redet darüber und du brauchst eigentlich ein Mac, wirklich dann sozusagen diese LLMs zwischen sieben 13 Milliarden Parameter effizient nutzen zu können. Und zum anderen habe ich gehört, dass zum Beispiel die, die das neue Auto correction auf der in der iOS Beta Version echt gut ist schon. Also bin ich mal gespannt, ob da was kommt. Und scheinbar soll Apple intern ein Team haben zwischen 14 und 18 Leuten, die Lerche Language Modelle trainieren. Also wer weiß. Aber da weiß ich nicht, ob es nur für interne Zwecke ist oder ob da auch etwas Customer Facing kommt. Aber ich bin echt gespannt. Ich meine, im Endeffekt werden sie es ja immer probieren, in irgendwelche End User Features zu verpacken. Und dass sie jetzt irgendwie von LARCH, also ich glaube sie werden nicht von Lerche Language Modellen irgendwie reden auf der Konferenz, sondern wenn, werden sie halt, falls sie irgendwie ein Lerche Language Modell haben, was so performant auf den Macs läuft, irgendwie ein Feature drum rum bauen, mit dem man es nutzen kann und dann wird es halt keine Ahnung die nächstbeste Siri oder so. Ich weiß nicht genau was sie, was sie dann oder keine Ahnung, Siri mit Textinput oder Speedinput as well. Also irgendwie mal gucken. Ich glaube, dass die Begriffe LARCH Language Modell und AI werden auf jeden Fall nicht fallen. Und wenn sind sie schonWenn könnte es sein, dass sie so weit sind, dass sie ein End-User Feature draus machen. Aber was? Ja, ich würde dann dagegen werden und sagen, dass sie definitiv Generative AI einmal erwähnen, sei es für Image Generierung. Also ich weiß, es gibt einen speziellen Port von Apple für Stabil Diffusion, der auf CoreMail läuft. Ich glaube, du glaubst der Begriff Generative AI fällt? Ja. Okay, ich wette dagegen. Finde ich gut. Können wir mal in zwei Wochen schauen, wer die Wette gewonnen hat. Generative AI. Ich bin gespannt. Es gab den Begriff AI wird gar nicht fallen. Ja, sehen wir. Dann haben wir noch eine Wette am Laufen. Cool. Dann auch an euch. Ihr könnt uns ja mal schreiben. Schreibt uns gerne mal entweder an unsere Podcast Programmier. Bar Seite kommentiert mal auf Twitter, was ihr glaubt, ob die Begriffe fallen oder nicht. Und ansonsten wie immer gebt uns gerne Feedback. Jetzt geht's wieder los. Wir sind jetzt bestimmt mindestens jede Woche mal für euch wieder da. Bis dann, Philipp. Vielen Dank. Ja, schön. Ciao.

Verwandte Podcasts

  • AI News 2023 24 (2)

    News AI #30: Aleph Alpha Strategiewechsel // Virtual Try On // Claude for Enterprise

  • Lotum News Asset 34

    News 34/24: Google Pixel AI // Crowdstrike Nachlese // Alternative App Stores

  • AI News 2023 24 (3)

    News AI #26: Kyutai Moshi // Aleph Alpha Series B Fake // OpenAI Security Whoopsie

  • Ai News 2023 24 (2)

    News AI #23: OpenAI-Drama // Google AI Overview // Golden Gate Claude // Perplexity Pages // Hugging Face FineWeb

  • News Asset 20

    News 20/24: GPT-4o // iOS 17.5 // Neue iPads // Bun 1.1.8 // Node.js 22

  • 18 Ai News

    News AI #18: Apple MM1 // Mistral // Grok // Inflection & Microsoft // Open Interpreter

  • News Asset50

    News 50/23: Epic vs. Google // iOS 17.2 // Cloudflare "Year in Review" // App Store 2023 // JetBrains AI Assistent

  • 135 Not Deep Dive

    !Deep Dive

  • 08 Ai News

    News AI #8: OpenAI DevDays // State of AI // DallE3 // Zephyr // Fuyu 8B

  • News Asset42

    News 42/23: ChatGPT Voice // Visual Copilot // DockerCon // Node.js 21

Feedback