News AI #9 –

OpenAI DevDays // ChatGPT4 Turbo // Whisper v3 // GPT Agents // xAI Grok // Cohere Embed v3

07.11.2023

// Podcast
// News AI #9

Shownotes

OpenAI hat am 6. November ihre DevDays abgehalten und dabei GPT-4 Turbo vorgestellt. Das neue Modell ist günstiger als GPT-4, hat jetzt ein 128k Token Context Window und einen JSON Mode. Darüber hinaus hat OpenAI ihre neuen Agents vorgestellt, die sie GPTs nennen. GPTs können über ChatGPT erstellt und dann in ihrem neuen GPT Store gepublished werden.

OpenAI hat ihre Version v3 von Whisper released und nun GPT-3.5 Turbo mit dem 16k Context Window zur fine-tuning API hinzugefügt. Rund um GPT-3.5 Turbo gab es auch ein vermeintliches Leak, was zeigt, dass GPT-3.5 Turbo ein 20B-Parameter-Modell sein soll.

Das AI-Unternehmen von Elon Musk, x.AI, hat ihr erstes LLM released und es Grok getauft. Das x.AI-Team hatte 4 Monate für dieses Modell Zeit und bleibt bei den Benchmarks hinter Palm, Cohere und GPT4 zurück. Die Besonderheit ist jedoch, dass das Modell auf Realtime-Daten von X zugreifen kann und explizit darauf trainiert ist, auch sarkastische Antworten zu geben, gerade bei Fragen, die andere LLMs nicht beantworten würden.

Cohere hat ein neues Embedding v3 Model rausgebracht, das sehr kostengünstig ist und als Alternative für OpenAI Ada genutzt werden kann. Hugging Face hat eine Distilled Version von Whisper v2 rausgebracht. Und ja: Mit dem oben genannten Announcement kann man über das Timing streiten!

Weitere Links aus der Folge:

- OpenAI Improved RAG pipeline (Link)

- LLM Apis Pricing Comparison (Link)

Soundtrack composed by AIVA (Artificial Intelligence Virtual Artist)

Download

/transkript/programmierbar/news-ai-9-openai-devdays-chatgpt4-turbo-whisper-v3-gpt-agents-xai-grok-cohere-embed-v3

Hallo und herzlich willkommen zu einer weiteren Folge der Programmierbar AI News der Nummer 9. Beim letzten Mal wird Philipp und ich angekündigt, wir werden zeitnah nach den Open AI Dev Days die Folge aufnehmen, am besten noch direkt danach abends und releasen sie noch. Meine Krankheit hat uns einen Strich durch die Rechnung gemacht, weshalb wir nicht direkt am Abend selbst, aber immerhin am nächsten Tag über die OpenAI Dev Days sprechen. Ich bin der Fabian. Wie immer ist bei mir der Philipp. Hi Philipp. Hi. Neben den Dev Days haben wir euch noch ein paar andere Themen mitgebracht. Ein paar allgemeine Co-Heren mit ihrem neuen Embedding V3 Modell. Xai hat jetzt auch ein LLM rausgebracht, der liebe Elon Musk. Distill Whistle, also eine von OpenAI Whistle, eine Open Source Variante davon. Wird uns gleich noch ein bisschen was dazu erzählen. Und ansonsten, die letzte Folge, geht es rund OpenAI. Lassen Sie mal kurz anfangen mit dem XAI Modell. Grock haben Sie es getauft, Ihr erstes LLM, was Sie jetzt rausgebracht haben. Sie sprechen von vier Monate Arbeit, die jetzt drinstecken. Es gab zwei Versionen davon, Glock null und Glock eins und ist gerade zum Ausprobieren in einer closed Beta. Man kann sie auf die Warteliste eintragen und sie haben einen Blogbeitrag ein bisschen was darüber geschrieben. Ansonsten hat Elon Musk auch schon ein paar Posts dazu gemacht mit Beispielen von der Interaktion mit GROCK. Und ich glaube, grundsätzlich kann man so sagen, man weiß nicht genau wie viele Parameter. Grock null hatten sie 33 Milliarden Parameter und GROCK null war schon vergleichbar mit Lama 2, was 70 Milliarden Parameter hat. Und jetzt sind wir bei GROG 1, wo sie selbst schreiben in den verschiedenen einschlägigen Tests HumanEval, MMLU sind die, die eigentlich nur noch besser sind, Paarm2, Klo2 und GPT4. Trotzdem muss man sagen, jetzt, wenn man sich die genauen Testergebnisse anguckt, da ist auf jeden Fall noch ein bisschen Weg zu gehen. Aber sie sagen selbst, es war natürlich jetzt ein sehr kurzer Zeitraum und Sie sind schon selbst davon begeistert, wie viel Sie in der kurzen Zeit geschafft haben und wollen sehr viel kürzere Iterationszyklen haben und es schnellere, neuere Varianten davon rausbringen. Aber ich glaube so ein bisschen das, was in Twitter X wie auch immer auch viel diskutiert wurde, was ein bisschen besonderer ist, ist wie Glock mit einem interagiert. Und zwar ist es so, dass selbst gesagt wird, dass der erste Part in diesem Blogbeitrag ist, dass Glock antwortet mit abit of wit and has a Rebellio Streak, so bitte don't use it, if you has humor. Also er ist durchaus sehr sarkastisch in seinen Antworten und hat auch Zugriff auf Realtime Daten von X. Also ich glaube daher kommt vielleicht auch ein bisschen der sarkastische Humor und so weiter. Gibt wie gesagt auch ein paar interessante Posts dazu von unter anderem Ile Masru zum Beispiel auch gesagt hat, zum Beispiel beantwortet Grock auch die Frage, wie man denn Kokain herstellen kann und mit einer detaillierten Anleitung jedoch natürlich nicht wirklich, sondern sagt Na ja, krieg erst mal überhaupt einen Degree in Biophysik und dann such dir irgendwo draußen im Nirgendwo ein kleines Labor und am Ende sagt es natürlich: „Nein, natürlich ist das alles gefährlich, illegal und so, lass das, aber ist zumindest da nicht so restriktiv und sucht eine sarkastische Antwort dafür. Ich glaube, das macht zumindest ein bisschen den größten Unterschied, denke ich, aus, wenn man sich so darüber unterhält. Aber wie gesagt, ist noch in closed Beta. Mal schauen, man kann sie auf die Warteliste eintragen. Hast du die eingetragen, Philipp? Natürlich. Zwei Dinge, die ich vielleicht noch ganz interessant finde, ist, wie viel Macht doch Elon Musk eigentlich hat. Also ich glaube, er hat jetzt in den letzten vier, fünf Tagen, also seit das Modell raus ist, mindestens jeden Tag einmal darüber getwittert oder halt geXt, wie auch immer man es jetzt nennt. Und diese Tweets haben immer Tausende und Hunderttausende von Reaktionen und Impressions, was halt schon sehr beeindruckend ist, wenn man einfach mal XAI mit, keine Ahnung, lass es andere closed Source API Provider vergleichen. Das ist einfach so marketingtechnisch so krass im Vorsprung. Ich will gar nicht wissen, wie viel Millionen Leute sich jetzt für das Modell angemeldet haben, obwohl es ja nicht besser ist. Also es ist ja ungefähr wie Lama 2. Ich habe mal geschaut, mysteral 7B ist ungefähr auf dem Niveau von CROK null. Also mal abwarten, was da kommt. Aber es ist jetzt nicht irgendwie ein Breakthrough, es ist einfach nur die Bekanntheit von Elon Musk. Und das zweite, was ich noch ganz interessant finde, was ich schön finde, dass sie es geteilt haben, ist ein bisschen ein Infrastruktur-Themen, also deren Infrastruktur. Sie nutzen REST und Kubernetes für Influencer und nutzen Chux für Training, was ganz cool ist zu wissen. Ja, auf jeden Fall. Ich meine, ich glaube auch, dass Elon Musk auf jeden Fall eine Power hat. Das steht komplett außer Frage und ist auf jeden Fall denke ich auch der Part, der viel ausmachen wird dafür, dass sich da sehr, sehr viele anmelden. Sonst aber, wenn man so die Kommentare liest und sowas, ist ja auch so, endlich mal ein Larch Rangles, was nicht so walk, Secure ist und irgendwie alles irgendwie nur sehr anhand der ersteller definierten Regeln irgendwie beantwortet. Und davon haben sie ja so ein paar angesprochen gefühlt. Ich meine, ist natürlich so marketingmäßig so, wenn sie zumindest nicht darüber begeistern können, was jetzt die Ergebnisse in den einschlägigen Tests sind, dann ist das natürlich auch nicht schlecht gewählt zu sagen Okay, dann machen wir mal hier eine sarkastische Variante von dem Ganzen. Verkauft sich ganz gut. Die Frage, die ich mir stelle, wollen Sie oder werden sie es open sourcen? Oder ist das Ziel okay, ich bringe jetzt mehr Gen AI-Technologie in to Twitter, dann sage ich mal am Ende? Oder wollen sie wirklich eine API anbieten und so ein bisschen mit Open AI konkurrieren? Und für mich macht das dritte halt ehrlicherweise am wenigsten Sinn, wenn die Modelle schlechter sind als was aktuell schon zur Verfügung steht. Preislich ist Open AI auch günstiger geworden, das hören wir nachher noch. Ist der Gedanke dann okay, dass ich irgendwann vielleicht auf Twitter so AI Avatare habe, die dann mit tweeten und kommentieren? Oder bleibt auf jeden Fall spannend? Ja, muss ich selbst sagen. So in dem Zeitraum, also zumindest wenn man den Blogbeitrag so zwischen den Zeilen liest, haben sie ja schon die Ambitionen darin, noch Modelle zu bauen, die durchaus da mithalten können. Mal gucken, wie lange sie dafür brauchen. Aber von daher kann kann aber gut sein. Ich meine, er sieht ja XE als gesamte Plattform und so am Ende ist vielleicht dieses Lutsch-Langwege-Modell einfach nur ein Teil der Plattform, was auch immer es dann tun wird auf dieser Plattform. Mal schauen. Was gibt es denn sonst noch? Philipp, wollen wir noch vorab auf Open AI gehen? Vielleicht noch mal über das The Whistle und KURIER sprechen. Fang an mit. Welchem Thema du möchtest. Genau, für KURIER. Ich halte es super kurz. Kurier hat eine neue Version von ihrem Embedding Modell veröffentlicht, die V3. Bisher hatte Coheer ein Embedding Modell Multilingual. Now gibt es vier Modelle, zwei dedizierte englische Modelle, zwei dedizierte Multilingual Modelle, die man per API aufrufen kann. Die kleineren Modelle, auch Light genannt, haben einfach weniger Dimensionen. Heißt die Ergebnisse der Embeddings sind viermal kleiner als von den normalen Modellen, was dann einfach dazu führt, wenn man irgendwie die Postpress oder so speichert, weniger Festplattenspeicher braucht. Sie haben Benchmarks veröffentlicht, was sehr cool zu sehen ist und die neuen Modelle performen, sage ich mal, wie populäre Open Source Modelle auf MTEB und BIR und das Modell oder die Modelle performen besser als aktuell Open AIDA. Also wenn ihr, sage ich mal, API-based Retrieval Augmented Generation Suchen baut oder halt generell mit Embeddings arbeitet, dann definitiv mal Coheer Embedding wie Friant schauen. Vom Preis her ist es aktuell genauso viel wie OpenAI. Also es ist eigentlich nur ein kostenloses Update. Cool. Was macht das zu den Whistleblower? Und dann noch zu Wispur. Ja, genau. Ja, leider sehr schade. Wir werden nachher noch gleich hören, dass Open Air gestern auch eine neue Whistleblower Version vorgestellt hat und was auch unser Audio Team gemacht hat, jetzt leider schon ein bisschen Outdatet ist bzw. Eventuell wiederholt werden muss. Aber das Audio Team bei Hacking Phase hat so ähnlich wie vor drei Jahren ein LLM destilliert. Damals war es BERT to Distill BERT und jetzt haben wir Distill Vispr. Und Distill Vispr ist einfach eine kleinere und schnellere Variante von Vispr bis zu fünf bis sechsmal schneller. Das heißt, wenn man eine Minute Audio bisher transkribiert hat und die 60 Sekunden gedauert hat, ist man jetzt sechsmal schneller, dann nur noch ungefähr zehn Sekunden. Die Performance allerdings bleibt bis zu einem Prozent gleich. Das heißt, man hat einfach ein kostenloses Upgrade, das schneller funktioniert zum Transkribieren und natürlich auch weniger kostet dann zum Hosten, da es kleiner ist. Distal Wizzper gibt es aktuell nur für Englisch. Das heißt, wenn man irgendwie bisher Wizzper genutzt hat, deutsches Audio zu transkribieren, funktioniert es bisher mit Wizzpo noch nicht. Modelle, Demos auf Hacking-Faces verfügbar. Dann werden wir gleich Wizzpo, wird auf jeden Fall noch ein Thema sein bei Open AI. Genau, wir haben es ja schon am Anfang angekündigt. Gestern waren die Dev Days der Dev Day von Open AI, starten mit einer Keynote von unter anderem Sam Oltman. Und da wurden einige Themen vorgestellt. Was, Philipp, was waren, was waren dein Highlight von den Dev Days? Würdest du irgendwas hervorheben? Ich meine, es hat sich so gefühlt ein bisschen, also es hat sich angefühlt wie so eine traditionelle Public Cloud Keynote. Man ist erst davon ausgegangen, also hat ein Video gezeigt, wie Open AI oder ChatGPT schon das Leben von Menschen verändert, wie die aktuelle Zahlen sind. Sie haben davon gesprochen, 2 Millionen Entwickler, 100 Millionen Mantely Active User von ChatGPT. Dann hat man noch neue Produkte vorgestellt, auf die wir gleich eingehen. Dann war noch Microsoft CEO Satya Nadala auf der Bühne. Da muss ich sagen, die Diskussion oder das Interview mit Sam Altman und Satya war für mich ein bisschen merkwürdig. Also hat sich ein bisschen unfreundlich angehört, wie Sam die Fragen gestellt hat und auch nicht wirklich professionell. Vielleicht war er einfach ein bisschen nervös. Es hat er ziemlich gut, hat super gut reagiert, finde ich, auf die so richtig schlecht gestellten Fragen. Ja, aber Sam hat halt wirklich. Also ich fand es echt fast schon respektlos, was er da gefragt hat und vor allem am Ende hat er ihn einfach noch komplett unterbrochen. Ich weiß nicht, ob sie zu langsam waren im ganzen Prozess, aber im Verhältnis zu dem, was man gewohnt ist, war es schon sehr, sehr verbesserungswürdig, würde ich sagen. Man hat ganz Konferenz hat man auch irgendwie angemerkt. Sie waren glaube ich sehr inspiriert, auf jeden Fall auch von Apple und so wie sie es gemacht haben. Auch dann, wenn die erste Solution Architect, die da Jessica oder so was hieß sie glaube ich, und ist dann wirklich auf die Bühne gerannt gekommen, was ja auch so ein Apple Ding ist. Was ich aber super weird fand, dass Sam Outman immer in die Kamera geguckt hat. Also er hat die Zuschauer außen immer direkt anguckt, hat gar nicht das Publikum angeguckt, sondern immer in die Kamera, hat kurz weggeguckt und dann wieder in die Kamera rein. Ich fand es voll weird bei so einer Public Präsentation, dass der, der präsentiert, so in die Kamera guckt und nicht in die Audience. Das war sehr weird, aber ich fand auch das fand ich auch komisch dieses Interview. Aber sorry, apropos Unterbrechen. Sam Oertman hat da ja unterbrochen. Jetzt. Habe ich dich unterbrochen. Was war. Dein Highlight? Ja, für mich ist... Also natürlich ist es super interessant, was für Produkt-Updates die veröffentlicht haben, aber was so, was ich heute Morgen auf Twitter gesehen habe und auch dann auf LinkedIn schon geteilt hat, es gab so eine Private Session mehr oder weniger oder so eine Breakout Session im Nachgang, in dem Open AI geteilt hat, wie sie von mit, mithilfe von Retrieval Augmented Generation und welche, sag ich mal, Improvenments sie gemacht haben von 45% Genauigkeit zu fast 100% Genauigkeit gekommen sind, fand ich super interessant, dass sie halt auch das geteilt haben. Ich habe es, also wir können es vielleicht verlinken, dass sie halt genauso Dinge wie okay, wie Chunk ich meine Documents z. B. Richtig? Das hat schon geholfen von 45 auf 65 Prozent zu kommen. Das heißt nur alleine die Art, wie ich meine Dokumente Embedded kann 20 Prozent Performance Improvenments führen. Und dann noch ein Ranking Modell zu sortieren. Von welchen Informationen ich zu meinem Prompt hinzufüge, kann wieder 20% Verbesserungspotenzial geben. Und das war schon sehr cool. Und für dich irgendwas spannendes Neues? Na ja, ich finde das, was man zumindest hat, da hatten wir uns ja vorher im Vorhinein auch schon mal drüber unterhalten. Ich meine diese GPTs, die sie jetzt genannt haben, also Ihre Implementierung der Agents. Ich glaube, es ist halt noch eine Ausbaustufe, die jetzt auf jeden Fall, vielleicht können wir auch gleich schon mal ins Thema reingehen. Also was sind denn die GPTs, bevor ich jetzt sage, warum ich es cool finde. Also es ist ja Ihre Implementierung oder Ihre Art davon, wie man die, wie man Agents baut. Und Sie haben einen Store zur Verfügung gestellt, wo man diese GPS ausprobieren kann. Und das Coole daran ist, diese GPS sind eben nicht so wie ich jetzt Agenten baue, keine Ahnung, ein typisches Setup, ich habe irgendwie Länge Chain oder wie auch immer, brauche irgendwie meine Embedding Datenbank, meine Dokumente da drin zu haben und da ist es so, dass alles mit Natural Language ist. Also man hat so einen GPS Generator heißt er so, ich weiß gar nicht genau, wie sie ihn jetzt genannt haben, aber da kann ich mit Natural Language sagen: Was sollst du denn für einen GPT sein, für einen Agent? Also es gab da verschiedene Beispiele. Sie hatten irgendwie einen, der so ein bisschen bei Reisen hilft. Sam Oldman hat einen geschrieben, der Startup-Foundern Tipps gibt, wie sie ihre Firmen bootstrappen. Und da ist es so, dass man im Endeffekt wirklich per Textinput sagt: „Okay, was sollst du machen? Man kann auch Dokumente füttern. Also man kann sagen: „Okay, greife auf dieses Knowledge zurück und da Dokumente mit hochladen. Und man kann sich dann in den Settings angucken: „Okay, was für Parameter hat denn dieser GPT? Aber grundsätzlich das erste Erstellen geht komplett über eben auch da die Natural Language API und wird automatisch auch ein Bild erzeugt und so weiter. Und dann gibt es einen großen Store, den sie jetzt rausgebracht haben, wo diese verschiedenen GPTs genutzt werden können, wo man sie finden kann. Und es soll auch so sein, dass diejenigen, die GPTs erzeugen, je nachdem wie stark die genutzt werden, auch am Umsatz beteiligt werden sollen von OpenMedia. Also man wird auch vergütet dafür, dass man sie erstellt. Wie es genau funktioniert, ist noch nicht 100 Prozent klar, die Vergütung. Also sie sagen, es wird erst mal ein kleiner Teil von den Subscription Fees, die es gibt, irgendwie ausgeschüttet mit irgendeinem Schlüssel, der darauf basiert, wie häufig werden die aufgerufen, plus noch ein paar Benefits oder ein paar Boni. Aber da sagt Sam Altmann auch selbst, dass sie noch da einiges an den Weg gehen werden müssen, zu sehen oder zu definieren, wie genau jetzt das Revenue Modell für GPT-Ersteller, -Creator aussehen soll. Aber dieses GPT-Thema zumindest bin ich mal gespannt, weil es natürlich schon sein kann, dass das vielleicht in ein bisschen breiterer Masse trägt, wenn man jetzt diese Natural Language Interface hat, sie zu erzeugen. Wie mehrwertig sie jetzt am Ende wirklich sind und wie gut man GPS damit erzeugen kann, muss man mal sehen. Aber ich fand jetzt diese Beispiel, die sie gebracht haben, jetzt ist Sam Optman Beispiel, was er gezeigt hat, so na ja, aber zumindest da, wo sie es auch schon direkt in der UI integriert haben, wo sie diesem Städtetrip Planer gezeigt haben, da hat man schon Gefühl dafür bekommen, okay, es könnte vielleicht ganz cool funktionieren. Ja, also die definitiv, wenn ihr die Keynote nicht gesehen habt, schaut sie gerne euch an und vor allem die die Städte Planer, UI oder Experience fand ich schon sehr cool. Also es war eine sehr coole Anwendung, auch mit Animationen und allem. Und ja, ich bin mal super gespannt. Also man hat ja, sage ich mal, jetzt nicht krass viele Möglichkeiten, da was zu tun. Also im Sinne von du kannst halt beschreiben, was er machen soll. Du kannst die Tools hinzufügen, die er nutzen soll, ob er Webzugang hat oder nicht. Und ich frage mich halt, ob das ausreicht, dass es wirklich so, dass ein AppStore notwendig ist. Also gibt es so viele Ideen und verschiedene Tools, die es dann wirklich nachher notwendig machen, dass ich eventuell Hunderte oder Tausende verschiedene GPS habe? Oder wird es nachher so sein, dass wir 15, 20 haben, die so genutzt werden? Du hast einen, irgendwie mit Dokumenten zu chatten, du hast einen irgendwie sage ich mal News Dinge zu fragen. Du hast einen, mit dem du irgendwie Sprachen lernen kannst. Du hast einen vielleicht irgendwie besser programmieren zu lernen für TypeScript, JavaScript und alles. Aber habe ich wirklich nachher hunderte verschiedene? Und was mir noch so ein bisschen unklar war, kann man die Tools selber schreiben? Also kann ich sozusagen wirklich koten, ein Tool, welches ich dann in ChatGPT nutzen kann, mein eigenes GPT sozusagen zu bauen? Oder habe ich nur eine gewisse Verfügbarkeit von Tools, die entweder Open AI oder spezielle Provider bereitstellen? Das ist so, was ich noch nicht verstanden habe. Also erst mal zu deinem Beispiel mit den vielen. Ich bin auch mal gespannt drauf, aber ich meine, immerhin kamst du ja jetzt auf die Schnelle auch schon mal auf vier Ideen. Also tippe ich mal, dass nicht bei 15 bleiben wird. Aber ob es jetzt wirklich so ein App Store wird, wie wir es von unseren Smartphones kennen oder eher ich denke auch eher was limitierteres. Aber so wie ich es jetzt zuerst verstanden habe in meiner Wahrnehmung, war, dass man wirklich im Endeffekt, was da in dem Store ist, nur die GPTs sind, wie sie aus diesem Natural Language Interface herausgehen. Also dass ich da eben keine eigene UI wirklich bauen kann und sie irgendwie hosten kann. Also dieses Beispiel mit dem Städte Planer, wo sie ja wirklich eine eigene UI geschrieben haben, das ist ja was, der wahrscheinlich diesen GPT in Form einer API irgendwie nutzt und den einfach in der. Eigenen Applikation anbietet. Genau, das nutzt die neuen Assistenz API, wo ich auch Zugriff auf die ganzen Dokumente und auch auf Tools habe. Das ist ja nicht das. Aber ich glaube, das was sie... Also daswas GPTs ist, das soll ja über ChatGPT kommen. Und der AppStore, das soll ja auch über ChatGPT kommen. Natürlich kann ich ja bisher auch meine eigenen Agents irgendwie programmieren und koden und eine Custom UI dafür bauen. Aber der AppStore ist ja wirklich nur ein ChatGPT und dann habe ich klassisch ChatGPT und habe vielleicht Woke ChatGPT, was immer irgendwie mit keine Ahnung Bitten antwortet. Gibt es da genug Use-Cases, dass ich so wie ein Markt oder ein Ecosystem erstellen kann oder reichen da halt ein paar hundert? Und wenn einmal der Paper Summarizer erstellt würde oder irgendwie sowas, brauche ich dann noch einen zweiten? Also wie sieht das Ganze in vier Monaten aus? Und kommen halt neue Tools hinzu? Ich glaube alles steht und fällt so ein bisschen. Wie gut kann ich Tools integrieren? Da wenn ich jetzt nur beschreiben kann okay, du hast Zugriff aufs Web und kannst meine Dokumente lesen, dann ist es halt schon relativ limitiert. Klar kann ich auch irgendwie beschreiben, wie es antworten soll und wie der Ton sein soll, ob ich vielleicht Bilder hinzufügen kann. Aber kann ich eigene Tools schreiben, die dann eventuell eine Wetter-API nutzen oder vielleicht meine regionale Verkehrs-App oder sowas, rauszufinden, soll ich eher mit der Zug, mit der Bahn fahren oder mit dem Zug? Oder generell kann ich darüber ein Assistant bauen, welche mir bei der Deutschen Bahn oder bei Lufthansa ein Ticket bucht? Oder funktioniert es nicht, weil ich dann wieder coden müsste für die Tools? Ja, das habe ich auf deine Frage genau verstanden mit den Integrationen. Ja, da bin ich auch mal gespannt darauf. Bisher ist es noch so, diese ganzen Integrationen, sowas wie SAPIER und sowas sind einfach limitiert auf nur ein paar Anbieter, die überhaupt diese Integration schreiben können, oder? Weil sie hatten ja auch dieses Beispiel mit SAPIER, wo man dann direkt einträglich einen Kalender gemacht hat und irgendwie einen Slack gepostet hat. Diese Integrationen sind ja aktuell noch sehr limitiert, wer die schreiben darf. Weißt du das? Das einzige, was ich gerade im Nachgang oder nebenher geschaut habe, ich habe mich auf die Plattform eingeloggt, wo man ja auch diese Assistenz API erstellen kann. Und dort habe ich aktuellfür die bei der Möglichkeit bei Tools kann ich einmal Code Interpreter nutzen, also das Tool, welches Code schreibt, was Ausfälle an die Response gibt. Ich habe Retrieval, auf meine Dokumente zuzugreifen und ich habe ganz normal Functions, also Open AI Functions, wo ich dann diese Json Schema definieren kann, von was eine Funktion kann. Und dann kann ich natürlich wieder programmiertechnisch irgendwie getDbStatus und dann nutzt Open AI die Function oder nicht und dann kann ich sie halt wieder selber ausführen. Aber das ist natürlich alles wieder programmiertechnisch. Das ist nicht dieses GPS und DCUI Experience, die sie geteilt haben. Ja, aber schon wahrscheinlich ist die ist die Experience, die man dann innerhalb von GPS direkt erzeugt, also innerhalb von ChatGPT ein GPS erzeugt, wahrscheinlich wirklich sehr limitiert. Schauen wir uns mal an, wie weit es gehen wird. Das ist ja nur Mutmaßen. Aber es war ja nicht das einzige Thema, was sie auf den Dev Days hatten. Sie haben auch eine neue Variante von GPS 4 rausgebracht, GPT4 Turbo. Hast du Lust uns mal einen kurzen Abriss zu geben, was der Unterschied ist zu GPS 4? Genau. Also Sam hat auf der Bühne gesagt, dass sie mit GPS 4 Turbo eines von den zwei Kreditpunkten von GPS4 adressiert haben. Das ist nämlich Pricing, also GBT4 Turbo ist jetzt nicht wie der Name vielleicht vermuten lässt schneller, sondern es ist einfach günstiger. Und es ist die Input Tokens, also den Prompt, den ich bereitstelle, der ist dreimal günstiger als GPS 4. Da haben wir bisher 1.000 Tokens 3 Cent gekostet. Jetzt kosten 1.000 Tokens 1 Cent und die Output Tokens sind zweimal günstiger. Ich glaube von 6 Cent auf 3. Und sie haben gerechnet anhand von dem Usage Pattern, den sie haben, bedeutet das im Durchschnitt 2,7 Kosten ersparen. Das heißt, dass auch der Input Prompt oftmals größer ist als das, was generiert wurde. Das Knowledge Cut off, was bisher 2021 war, ist jetzt April 2023. Das heißt, wir dürften jetzt eventuell rausfinden, wer Bundeskanzler aktuell ist oder wer 2000 oder was mit Corona auf sich hat, genauer. Oder ob Russland die Ukraine angegriffen hat. Also die Informationen sind drin. Und was noch ganz interessant war, im Zuge dessen gibt es jetzt auch so ein Json Output. Wir haben ja gerade über diese Open AI Functions geredet. Man kann jetzt sozusagen Json Mode aktivieren und dann verifiziert die API innerhalb von sich selbst, dass die Response ein valides Json ist, was aktuell immer bisher zu händischen Aufwänden geführt hat, wenn du Functions nutzt oder Agents gebaut hast, dass du immer selber erst mal validieren musst, was OpenAI hier zurückliefert, ist es überhaupt ein Json oder muss ich die Anfrage noch mal senden? Ja, und haben Sie auch gesagt, es kostet zumindest keine höheren Kosten als auch keinen großen Side Impact dafür, wenn man diesen Json Output Mode benutzt. Ist vielleicht auch ganz interessant zusammen mit dem Reproduceable Output, den Sie jetzt genannt haben, also dass man wirklich den einen Output mit einem Input jetzt reproduzierbar machen kann mit einem Seed, den man mitgibt. Ich weiß nicht, in welcher Form man den Seed jetzt mitgibt, aber man kann eine Anfrage seeden, immer den gleichen Output für eine Frage zu bekommen oder für einen Input Prompt zu bekommen. Was auf jeden Fall auch noch mal ganz interessant ist, gerade für Programmier-oder API-Anbindung und wo man irgendwie wirklich sagen will, man will die gleichen Dinge zurückhaben, je nachdem was man dann fragt. Die Frage, die ich mir halt stelle, ist es dann ein Cache? Also ist es Input-Prompt plus Seed-ID gleich Cache, den sie irgendwo abspeichern? Oder ist es wirklich Input-Prompt plus Seed? Und ich habe es irgendwie hinbekommen, dass mein Output Deterministik ist. Weil im Normalfall, wenn ich Nuclearsampling, was auch im AI nutzt, mit Top P und Temperature nutze, habe ich keine Garantie, dass die generierte Antwort dieselbe ist wie die, die ich zuvor gestellt habe. Das heißt, die Frage ist halt, ob dieses Seeding plus Input-Prompt einfach nur eine Art Cache ist oder ob das wirklich etwas ist, was sie hinzugefügt haben, dass die Ergebnisse genau gleich sind. Und was vielleicht noch zu erwähnen ist, GBT4 Turbo hat jetzt auch Cloud übertroffen im Sinne von Context, was ich glaube sehr interessant ist für viele mit jetzt 128.000 Tokens. Und ich glaube, Sam Altmanhat irgendwie gesagt, 3.000 Seiten oder 300 Seiten? Ich weiß nicht, genau, irgendwie sowas. 300 Seiten aus dem Buch. Genau, 300 Seiten aus dem Buch kann man jetzt in einem Prompt hinzufügen. Aber natürlich, wenn ich 128.000 Tokens bereitstelle und ein Cent pro 1.000 Tokens zahle, dann sind es halt 1,30 € für pro Request, wo man sich doch definitiv überlegen sollte, brauche ich wirklich die die 128.000 Tokens? Wie wichtig kann mir die Antwort sein? Ja, das stimmt. Er hat mit einem Augenzwinkern auf der BühneDu hast vorhin auch gesagt, man kann jetzt auch die Logit Probabilities via API anfragen. Und das war so ein Punkt, wo ich dachte okay, ich habe keine Ahnung, was Logit Probabilities sind. Hast du den Punkt, also hast du verstanden den Punkt? Ich habe ihn nicht verstanden. Man kann es noch nicht. Es wird wieder kommen und man hatte das früher bei GDP 3 und Logit Probabilities ist mehr oder weniger eine Art Liste von Wahrscheinlichkeiten oder Scores für das jeweilige Token. Also wir generieren ja einen Text und dann hat ja jedes neu generierte Token eine gewisse Wahrscheinlichkeit, dass es vorkommt. Und die Werte kann man sich jetzt ausgeben lassen, zu verstehen, wie ist der generierte Text zustande gekommen? Und das hilft vor allem, wenn man, sage ich mal, mehr Research darauf machen möchte oder mehr Customizing und Post Processing und nicht eventuell auf einfach den Text geht, sondern wirklich schaut, okay, will ich Threats einbinden, gewisse Tokens zu forcieren oder sicherzustellen, dass die Generation immer über diesen Threats ist. Was mir nicht klar ist, aber was im Normalfall ein Feature dabei ist, dass sie nicht nur das selektierte Token zurückgeben, sondern auch die Probabilities für die Top 5 Tokens z. B. Und dann hast du halt die Top 5 Tokens mit deren Wahrscheinlichkeit und davon pickt Open AI immer das höchste. Aber wenn du halt alle hast, könntest du auch eventuell im Nachgang die Generation, die erstellt wurde, noch ein bisschen anpassen anhand von deinen Kriterien sozusagen. Okay, das war es glaube ich zur GPS 4 Turbo oder haben wir noch was vergessen? Ne, es ist günstiger. Es soll auch, also sie sagen, dass es ist besser oder genauso gut wie GPS 4 sein soll. Es ist günstiger und hat mehr Kontext. Also wenn ihr aktuell GPS 4 nutzt, dann definitiv anschauen, weil man Geld sparen kann und mehr Kontext verwenden kann. Man muss wahrscheinlich seine Promps wieder ein bisschen anpassen, aber es ist definitiv ein Update für alle, die GPS 4 bisher nutzen. Ja, und das einzige, was dein Nebensitz auch noch gesagt hat, du meintest ja April 2023, ist jetzt das Trainingsdatum, da hört das Wissen von GPS 4 Turbo auf. Aber sie sagen, sie wollen es auf jeden Fall nicht noch mal so lange Zeit vergehen lassen. Bis davor war es ja September 21, wo sie sagen, okay, dasDas darf auf jeden Fall nicht noch mal passieren, dass es so lange nicht aktuell ist, das Modell. Sie haben vor, das häufiger neu zu trainieren auf aktuelleren Daten. Mal schauen, was der nächste Timeframe ist, wenn Sie das updaten. Bei GPS4 haben Sie auch gesagt, dass bald eine Feintuning API kommen soll und haben gesagt 3.5 Turbo gibt es auch die Feintuning API für das 16.000 Context Windows. Ja, was mich da interessiert, ob die GPS4 Fintuning API für GPS4 kommt oder für GPS4 Turbo? Ich könnte mir vorstellen, dass sie eventuell nur für GPS4 Turbo kommt. Der Name ist suggestiert ein bisschen, da es günstiger ist, dass es eventuell kleiner ist als GPS4, was dann natürlich auch günstiger und schneller ist zum zum Feintunen. Vielleicht könnte auch ein Kriterium gewesen sein, wieso GDP4 Feintuning noch nicht zur Verfügung war, weil es einfach zu kostenintensiv und Resource-intensiv bisher war. Und eventuell, da man jetzt GPS4 Turbo hat, welches eventuell kleiner ist, auch man jetzt schneller Feintuning von GPS4 Turbo ermöglichen kann. Ja, mit der macht ja schon aus dem Punkt Sinn, dass sie bisher auch nicht auf GPS4 gemacht haben, weil es einfach zu teuer gewesen wäre. Wie ist das Pricing? Hast du einen Vergleich von 3.5 Turbo zu 4 Turbo? Sind die ähnlich teuer für Inference? 10x. Also ich habe so eine coole Google Sheets erstellt mit allen Pricings von Open AI und Betrock und auch Open Source Provider. Und lasse mich es aufmachen. Gbt 4 Turbo kostet aktuell 1 Cent pro 1000 Tokens und GBT 3.5 Turbo hat bisher 0,15 Cent gekostet und dort haben sie auch den Preis 50 Prozent reduziert. Es kostet jetzt 0,1 Cent pro token, also GBT 3.5 ist zehnmal günstiger als GBT 4 Turbo. Ja, aber ich meine, wenn es trotzdem irgendwie auf die Größe des Modells zurückschließen lässt, dann macht es wahrscheinlich schon Sinn, dass GBT 4 Feintuning gar nicht wirklich kommen wird, sondern es direkt auf Turbo geht. Genau. Und vielleicht gerade wenn du von Größe gesprochen hast, etwas, was letzte Woche auch so ein bisschen als Leak durch Social Media kursiert ist. Microsoft hat oder eine Gruppe von Microsoft Researcher hat ein Paper publiziert, in dem sie Performance von Modellen verglichen haben. Und dort ist plötzlich eine Parameter Nummer neben GDP 3.5 Turbo aufgetaucht. Man hat ja bisher immer nie gewusst, okay, wie groß ist das Modell? Es ist so groß wie GDP F3 mit 175 Milliarden Parametern. Ist es größer, ist es kleiner? Und in dem Paper stand plötzlich, dass GDP 3.5 Turbo nur 20 Milliarden Parameter hat, was dann sehr interessant ist und zu sag ich mal Diskussionen online geführt hat, ob das ein Fehler ist. Also haben sie eine Null vergessen? Ist es wirklich ein Leak? Also ist GDP 3.5 Turbo wirklich nur 20 Milliarden Parameter groß? Was ganz interessant ist, das Paper ist nicht mehr öffentlich zugänglich. Zum Glück gibt es ganz viele Screenshots, sage ich mal davon. Aber das Paper wurde entfernt aufgrund von, ich weiß es nicht genau, aber irgendwie Fehlinformationen oder Dinge, die man noch verbessern muss. Aber es gibt doch auch, sage ich mal, Anzeichen dafür, dass es stimmen könnte mit den 20 Milliarden Parametern. Gerade da wir bei mysterial 7, wie gesehen haben, dass kleine Modelle sehr, sehr Power sein könnten und halt 20 Milliarden Parameter wirklich ausreichen, wenn du es genug lange trainierst. Und dann würde, sage ich mal, das ganze Pricing auch wieder ein bisschen mehr Sinn machen, wieso es halt oder wieso GDP 3.5 Turbo jetzt so teuer ist wie Lama 70B von Providern. Aber ich glaube, wenn es wirklich stimmt, ist es richtig cool, weil dann wissen wir okay, kleine Modelle oder mittelgroße Modelle können die Performance erreichen und dass wir im Open Source Bereich noch sehr, sehr viel zum Aufholen haben, was sehr sehr positiv ist. Ja auf jeden Fall interessant für den, was den Lead angeht. Hast du eine, was glaubst du war das, war das wirklich ein Lead oder war das, was sagt dein Gefühl? Glaubst du das könnte stimmen Ich. Glaube umso mehr man erfährt darüber und umso mehr wir sehen, wie Power Full kleinere Modelle werden können. Also es gibt jetzt auch ein Mistrile, feintuende Version, die mit JGPT wirklich auf allen Benchmarks mithalten können. Kann ich es mir wirklich vorstellen? Und wenn Sie 20 Milliarden Parameter auf 10 Millionen Tokens trainiert haben, dann kann es durchaus sein, dass es wirklich so gut ist. Interessant auf jeden Fall. Dann lass uns noch mal kurz die... Ich habe noch zwei Themen auf der Agenda für die Open AI Dev Days. Wir haben noch Whistlewer, wo wir gerade vorhin Distill Whistlewer haben. Da zeigt sich jetzt, warum das vielleicht ein bisschen obsolet ist. Was war denn der Grund? Was haben Sie gezeigt bei Wispar? Genau. Es gibt jetzt Wispar v3, was sie open sourcen, was sehr cool ist. Also Wispar v2 und V1 wurden ja auch von Open AI open sourced, also der Apache Lizenz. Wispar v3 ist jetzt auch Open Source. Wispar v3 soll besser sein in Low Resource Language, also in Sprachen mit wenig Daten, glaube ich, ist es korrekt übersetzt und es auch generell in allen Benchmarks einfach besser als Wispar v3, was sehr, sehr cool ist. Ich weiß auch gerade bei uns, dass die daran arbeiten, es möglichst schnell zu Transformers hinzuzufügen. Das heißt, wenn ihr Wispar aktuell nutzt für irgendwelche Speech Transkriptionen und nicht die API von Open AI nutzt, sondern Transformer oder selbst was gehostet haben, dann könnt ihr relativ schnell auf Wispar V3 updaten. Ja, cool auf jeden Fall Wispar V3. Das heißt, ihr macht jetzt hier Wizzper jetzt noch mal auf der V3, damit es hoffentlich auch da eine kleine Variante davon gibt oder ist das gar nicht klar? Ich weiß es nicht. Ich hoffe es. Ich meine, es würde Sinn machen und der Prozess von Wispar zu Distill Wispar ist auch eins zu eins anwendbar. Also Distill Wispar ist mehr oder weniger man hat oder wir haben selber ein Audio Datenset zusammengesucht und dann nutzt du Wispar sozusagen das große Modell und machst Inferenz auf allen sozusagen Audiodateien und währenddessen trainierst du dieses kleine Modell als ein typisches teacher student Prinzip. Und das sollte einfach übertragbar sein auf Wizzper v3. Und eventuell gibt es dann in naher Zukunft ein Distill Wispar v3 vielleicht. Ja cool. Und das heißt aber dann ist es kommt eigentlich mit Distill Wizzper ein komplett neues Modell, was wirklich nur einfach auf einem Datenset trainiert wurde, was von Wizzper erstellt wurde? Jein. Also es ist ein neues Modell, einfach ein selbes Modell, nur kleiner, also weniger Parameter. Und diesen Destillierungsprozess ist mehr oder weniger anstatt es von Scratch komplett zu trainieren, nutze ich den Output von dem größeren Modell, die Wates des kleineren Modells mehr oder weniger zu beeinflussen und upzudaten. Also man versucht nur das größere Modell zu Mimiken und zu lehren, was das größere Modell Output generieren würde, als selber zu lernen, was kann ich generieren? Okay, verstanden. Ansonsten hat OpenAI noch über ein Copyright Sheet gesprochen, das sie gesagt haben, sowohl für Enterprise als auch API Kunden würden sie sich für jegliche Schadensersatzklagen, sozusagen sie sich darum kümmern. Und es sollte eine kommen, sie sich sozusagen die die Copyright Legal Sachen darum kümmern. Das heißt, man muss sich keine Gedanken darum machen, ob man irgendwelche Copyright verletzt, wenn man Daten aus ChatGPT nutzt, weil sich OpenAI darum kümmern würde, diese Schadensersatz Klagen, was ja auf jeden Fall relativ interessant ist und auch da wieder mal mit einem Augenzwinkern gesagt hat, weiterhin jegliche Inputs und Outputs aus ChatGPT werden nicht genutzt fürs Training der Modelle, was ja durchaus auch immer ein bisschen fraglich war, oder? Ja, es ist halt fraglich, wenn man es in der Vergangenheit gemacht hat. Und es schadet definitiv nicht, dass sie es immer wieder betonen. Das ist halt wahrscheinlich so ein Statement, was sehr, sehr schwer wieder loszuwerden ist für OpenAI. Deswegen betonen sie es immer sehr eindeutig. Was ganz interessant ist, Microsoft bietet ja dieselbe Protection für ihre Open AI Services, welche es in Azure bereits zur Verfügung stehen, auch an. Eventuell ist es vielleicht dieselbe Entität im Hintergrund. Also vielleicht wird Open AI gar nicht dann die Legal Issues ausstreichen, sondern einfach nur an Microsoft übergeben. Zwei Dinge, die ich da ganz interessant finde, ist, es geht nur auf Copyright. Also sozusagen, dass wenn man irgendwie einen Text generieren lassen kann oder auch jetzt für das JGPT oder API auch ein Bild mit Dali, wenn dann sage ich mal man die API nutzt, ein Bild generiert, ein Künstler kommen würde und sagen würde Hey, das ist mein Bild, ich verklage dich auf Copyright Probleme, dann würdee die OpenAI das übernehmen und nicht wenn man irgendwie sage ich mal Missbrauch betreibt und irgendwie harmvoll irgendwie Spaming, Phishing oder irgendwie sonst was erstellt. Das ist damit nicht abgedeckt und es ist generell interessant zu sehen oder wird interessant zu sehen zu bleiben, ob das überhaupt notwendig ist. Also es gibt ja aktuell in den USA mindestens drei sogar drei Prozesse einmal mit GitHub Co Pilot, ob das sag ich mal Copyright Probleme hat oder ob das gegen Copyright geht. Dann Stabilit-AI wird auch verklagt bezüglich Stabil Diffusion wegen dem Trainingsdatensatz, das sie genutzt haben. Und Meta wird auch verklagt bezüglich Daten, die sie genutzt haben zum Trainieren von Lama. Und eventuell, wenn diese drei Prozesse ergeben, dass es gar kein, sage ich mal, dass erlaubt ist, auf gescrepten Daten zu trainieren und dass es halt nicht irgendwie gegen Copyright geht, dann ist die Copyright Shield Protection gar nicht so ganz schlimm. Und alles, was man bisher gesehen hat und gehört hat, geht es eher in die Richtung, dass man eventuell sich gar keine so großen Gedanken darüber machen muss. Es gibt auch von dem US Copyright Institute eine Aussage, dass alles, was von einem Modell generiert ist, nicht Copy-Writerable ist. Was ja, sage ich mal, schon in die Richtung geht, dass okay, wenn den Output, der generiert wird, nicht Copy-Wr-able ist, dann muss ich mir auch keine Gedanken machen, dass ich irgendwie verklagt werden kann. Ja, aber ich meine, auf jeden Fall ist es so für die, die es nutzen und vielleicht da zumindest auch nicht so einfach, vielleicht auch im Bilde sind oder zumindest nicht einfach die Sorgen machen. Es ist zumindest ein Sicherheitsnetz, was man hat, wo man denkt, okay, jetzt brauche ich mir gar keine Gedanken mehr zu machen. Und wie viel Arbeit es am Ende wirklich für Open AIs und ob da überhaupt mal ein Fall überhaupt nur zu trage kommt über dieses Copyright Schild, wird man dann sehen. Aber dass es zumindest erst mal ein Sicherheitsnetz für alle gibt, die es jetzt gerade nutzen und sich darum keine Gedanken machen müssen, dass den Effekt, den wir jetzt auf jeden Fall haben. Ja, ich würde sagen, gar keine Gedanken, ist vielleicht nicht die beste Idee. Man sollte definitiv schauen, was das genau bedeutet, ob man sich da irgendwie darauf bewerben muss oder ob man da irgendwie ein Organisation Subscription dafür haben muss. Also nicht erwarten, dass wenn ich verklagt werde, ich gehe zu denen, sondern lieber mal im Vorfeld auch, also wenn ich wirklich Bedenken dazu habe, sich einlesen, was genau das bedeutet, ob es irgendwelche Voraussetzungen gibt. Es kann ja auch sein, dass es wieder nur für die USA limitiert ist und gar nicht in der EU zum Beispiel abgedeckt ist. Aber definitiv ein sehr, sehr hilfreiches Angebot von Open AI. Definitiv. Dann Philipp, vielen Dank für deine Zeit. Euch wie immer, vielen Dank fürs Zuhören. Gibt uns Feedback an podcast@programmier. Bar oder einfach über unsere Website programmier. Bar Wir hören uns in zwei Wochen in dieser Konstellation wieder und einen schönen Tag. Bis dann. Ciao. Ciao.

OpenAI DevDays // ChatGPT4 Turbo // Whisper v3 // GPT Agents // xAI Grok // Cohere Embed v3

Shownotes

Speaker Info

Philipp Schmid