News AI #4 –

Llama 2 // Claude 2 // MDN Web Docs AI Help // Lost In The Middle // GPT-4 Architektur Leak

19.07.2023

// Podcast
// News AI #4

Shownotes

Die letzte AI News vor der Sommerpause! Big News: Meta bringt Open Source LLM Llama 2 mit Lizenz für kommerzielle Nutzung heraus. Damit schliesst sich die Lücke zwischen Open und Closed LLms immer weiter.

Die MDN Web Docs sind jetzt mit einer AI Help basierend auf Supabase als Embedding Vektor Datenbank ausgestattet. Keine unnötigen Suchen in der Doku mehr 😍

Anthropic stellt Claude 2 vor – eine Alternative zu ChatGPT mit 100K Token Kontext. Zu guter letzt unterhalten wir uns noch darüber was ein langes Context Window eigentlich mit dem Ergebnis macht. Denn das Paper "Lost In The Middle" zeigt, dass ein kürzerer Context aka. Prompt eigentlich immer besser ist!

Achja: Natürlich gab es auch mal wieder ein GPT-4 Architektur Leak 🙂

Philipp hatte noch nebenbei über das Youtube Video gesprochen, bei dem die AI Search der Supabase Dokumentation gebaut wird.

Soundtrack composed by AIVA (Artificial Intelligence Virtual Artist)

Download

/transkript/programmierbar/news-ai-4-llama-2-claude-2-mdn-web-docs-ai-help-lost-in-the-middle-gpt-4-architektur-leak

Hallo und herzlich willkommen zu der mittlerweile vierten Folge unserer AI News. Hier mal wieder dabei der Fabi und der liebe Philipp. Hi Philipp. Hallo. Philipp hat mich heute richtig früh rausgeschleuchtet. Wir treffen uns 7 Uhr morgens, weil er von geheimen News wusstet, wie es auf jeden Fall Sinn macht, erst am Release Tag aufzunehmen. Mal schauen. Wir unterhalten uns heute deswegen über LamaV2. Bin ich sehr gespannt. Viele zweier, weil auch Klo Zwei von der Tropic rauskam. Wir unterhalten uns über ein Paper, Loss in the Middle von Forschung und Standford University. Gibt mal wieder ein bisschen was zu den GPT4 Architektur. Ein paar weitere Links, mit denen wir uns letzte Woche schon drüber unterhalten haben. Und als kleines nettes Gimmick unterhalten wir uns über die MDN Web Docs. Damit fangen wir jetzt auch direkt an. Und zwar die MDN Web Docs von Mozilla sollten dem einen oder anderen, der unseren Podcast hat, durchaus bekannt sein und als Ressource genutzt werden, alle möglichen Sachen rund ums Web zu erfahren. Was mache ich wie? Wie funktioniert welche CSS Property? Und mittlerweile, früher musste man ja sehr viel rumsuchen und sie haben ein neues Tool implementiert, und zwar die AI Help, wo ich nicht mehr selbst suchen muss, wie ich ein Div Centerer auf einer Page, sondern einfach die AI Help fragen kann. Und zwar nutzen sie dafür Open AI's Chat API und wird wahrscheinlich auch noch später ein bisschen Thema sein, wenn wir uns über lost in the Middle unterhalten, nutzen eine Vector Datenbank, die gesamten Inhalte der MDN Web Docs zu speichern und die wichtigen in den Prompt zu packen, sodass man auch die sinnvolle Antwort dafür bekommt. Dafür nutzen sie SuperBase für die als Vektordatenbank, haben uns auch in der DeepDive Folge 93 mit Tor drüber unterhalten. Also wer nun mal wissen will, was SuperBase ist, schaut es euch gerne an oder hört es euch gerne an. Grundsätzlich ist es eine Postgreif Datenbank und hat eine Extension installiert, Vektoren speichern zu können. Und genau dann wird Simularity Search gemacht und geguckt, wenn je nachdem was ihr dort an fragt, werden die richtigen Docs aus der Vector Datenbank rausgesucht, in den Kontext mitgegeben und euch dann hoffentlich eine sinnvolle Antwort dafür gegeben. Ist im Moment in der Beta, ich glaube es zu nutzen, muss man einfach Mozilla Account erstellen und macht hoffentlich einiges einfacher, wenn ihr nach den richtigen Inhalten sucht. Genau. Also man hat als Free User irgendwie fünf Queries am Tag, also man kann fünf mal fragen und dann gibt es halt auch so typisch Subscription based. Okay, wenn du irgendwie 5 € oder 10 € im Monat zahlst, kriegst du dann mehr Queries. Was vielleicht ganz interessant ist, ein YouTuber namens Rappit Holt Syndrom hat ein Video, 40 Minuten langes Video gemacht darüber, wie er ein ähnliches System gebaut hat, auch auf Basis von SuperBase und dann mit OpenAI für Dokumenten Search, für die SuperBase Dokumentation. Also SuperBase hat auf ihrer Website, soweit ich es verstanden habe, die dasselbe AI Dokument, Quetsch and Ansoring Search Feature und MDN hat jetzt dasselbe eingesetzt und GitHub hat ja auch damals mit Compilot X so etwas ähnliches vorgestellt, wo man sich auf eine Warteliste schreiben konnte und dann React oder Speldokus ungefähr gleich durch durchsuchen können. Also sehr interessant, dass es das Mozilla mitmacht. Und der YouTuber hat jetzt aber wirklich die Dokumentation für Superbase gebaut, die AI Dokumentation? Genau, also das Video heißt How I Build Superbase Open AI Doc Search. Superbase hiert me to Build Clipy GPT, der Next Generation Doc Search. Und ich kann mir sehr gut vorstellen, wenn MDN sozusagen das mit SuperBase gemeinsam gemacht hat, dass die wahrscheinlich einfach mehr oder weniger, was sie für SuperBase gebaut haben, angepasst haben, die Dokumentation mitgenommen für alles mögliche und dann bei sich aufgesetzt. Ja, cool. Dann packen wir auch in die Shownotes. Das Video klingt auf jeden Fall interessant. Ich glaube, ich bin auch schon mal drüber gestolpert über das Video. Nice. Dann, lassen Sie uns mal die kleinen Themen fertig machen oder was heißt kleine Themen zumindestens, haben wir uns ja letzte Woche schon grundsätzlich drüber unterhalten. Hast du gelesen, was eigentlich noch weiter zur GPG4 Architektur geleakt wurde und kannst du zusammen ein bisschen abholen? Genau. Also es geht immer weiter, sag ich mal mit den Leaks. Was ganz interessant ist, ist jetzt, dass es ein Blogpost gab, der mehr ins Detail über die Architektur geht. Wir wissen ja jetzt, dass GPT4 eine Mix auf Expert Architektur hat und durch, sag ich mal, Gepläusche im Silicon Valley hat man halt mittlerweile ganz viele Dinge herausgefunden, wie teuer es war, ein GPS4 Modell zu trainieren. Also man weiß bisher immer noch nicht genau, wie viel Geld das Ganze gekostet hat, weil ich bin mir sicher, dass Open Air nicht nur einmal auf den Knopf gedrückt hat und dann einfach gewartet hat, was das Ergebnis war. Aber das aktuelle Modell, also von der Größe und mit dem Datenset zu trainieren, kostet ungefähr 63 Millionen US Dollar. Also wenn man wirklich alles ready hat, Daten, Set, Cluster, Scripte und einfach auf den Knopf drückt und dann, bis man das Modell oder ein ähnliches Modell hat, müsste man 63 Millionen zahlen. Das würde ungefähr 90 bis 100 Tage dauernauf 25 A100 GPUs. Man weiß, dass die BIT4 oder das Daten von GBT4 13 Millionen Token groß war, aber es sind nicht 13 Billionen Unique Token und Trillian in dem Fall amerikanische Einheit. Das dürften im Deutschen. Billionen, Trillian sind Billionen. Sie überspringen auf jeden Fall immer die Billionen. Und es kann sein, dass das Daten Set eventuell fünf Billionen Unique Tokens hat. Und dann wurden sozusagen zweieinhalb eBooks trainiert. Aber man weiß nicht genau, wie viele eBooks sozusagen GDP4 hat. Und was noch ganz interessant ist Man hat ausgerechnet nach aktuellen Cloud oder halt CPU Kosten, dass einmal ein Influencer für 1000 Token auf 128 A100 ungefähr 0,2 Cent kostet. Aber unter der Annahme von hoher Batch size und man nutzt die CPUs wirklich möglichst effizient aus. Interessant auf jeden Fall, 63 Millionen. Da versteht man mittlerweile, wir haben uns ja die letzten Folgen noch mal drüber unterhalten, was heißt mittlerweile, aber die hohen Investments, die in den Firmen getätigt werden, wenn sie natürlich Foundation und Models machen wollen und damit vergleichbar sein wollen. 63 Millionen für einen Run, die man sich leisten kann. Das passt in dem Zuge ja vielleicht dazu, dass wir uns noch mal kurz über Cloud 2 unterhalten. Das neue Laut Language Model von Entropic kam raus am 1. Juli, das ist mittlerweile eine Woche her und bisher kannten wir die Cloud 1 Version ist in der Beta in UK und USA da aber komplett frei nutzbar. Also falls ihr einen VPN Tunnel haben solltet, könnt ihr es auch einfach so benutzen. Ich habe auch mal, ich weiß nicht ob du es ausprobiert hast, Philipp mit Cloud2 schon ausprobiert hast, dann hast du wahrscheinlich deinen Zahlen Test schon durchgeführt. Dann habe ich das schon durchgeführt. Dann... Habe ich ihn für dich durchgeführt. Im ersten Run wurde einfach nur die 5 ausgelassen. Also auch mit selbstbewussten Anstoßen kamen wir nicht zum richtigen Ergebnis. Aber zumindest ist es so von denen ist es ja auch wieder im Vergleich zu Open AI, es gibtkeine genauen Zahlen darüber, was Trainings, sei es Architektur und so weiter angeht. Ich glaube, der größte Unterschied, weshalb ich auch gerade meinte, macht Sinn, sich jetzt darüber zu unterhalten, ist das Context Windows, das Clow2 hat. Und zwar, wenn ich ein Context Windows von 100.000 Tokens mitgebe, eben bei einem viel geringeren Preis pro Token. Also man redet von einem Fünftel des Preises von Open AI, GPT4. Wenn man jetzt hier die Zahlen vergleicht, die du vorhin gesagt hast, was als OpenAI selbst eine Inference kostet, kärtzt das vielleicht auch ein bisschen. Aber auf jeden Fall das viel größere Kontext Windows selbst. Ich glaube, was war aktuell GPT4, größeres Kontext Windows, 32.000 Tokens, wo die API aber auch noch nicht freigeschaltet ist für jeden, haben wir jetzt jeden Kontext, 100.000 Tokens, obwohl wir am Ende der Folge wahrscheinlich uns auch noch mal darüber unterhalten werden, in wie viel es einem was bringt, so ein großes Kontext Windows zu haben mit dem Paper, was wir am Ende vorstellen. Aber ansonsten wohl kompetitiv in den einschlägigen Tests im Vergleich zu GDP4, aber exiedert sie nicht. Ich glaube, das einzige, wo Cloud2 besser ist als GPS4, ist in diesem GRI Test im Writing Teil, das ist der amerikanisch standardisierte Test vor Universitätszusage und sowas, wo es in drei Teile aufgeteilt ist. Und es gibt diesen Writing Teil, da ist Cloud2 wohl besser, aber ansonsten kompetitiv aber exiedert GPS4 in keinem dieser Tests. Aber auf jeden Fall denke ich durchaus eine interessante Alternative, gerade auch wenn ihr große Context Windows irgendwie benötigt oder allein Pricing für euch ein wichtiger Aspekt ist. Und was ja auch das erste, was fühlt so beim Nutzen selbst aufgefallen ist, dass es sehr schnell ist, was die Influencer angeht. Also Antworten, Clou2, kommen schon sehr instant bisher bei meinen ersten Tests so. Fand ich auch noch mal, hatte mich zumindestens erst mal gewundert. Geschwindigkeit hatte ich jetzt so schnell noch nirgendwo gesehen, obwohl das vielleicht auch nicht der wichtigste Aspekt ist. Genau. Also kann man das wirklich nur in den USA und UK nutzen? Weil ich kann ohne VPN auf Cloud oder AI gehen und es mit ihm schreiben. Aber ich war auch Teil schon von der Beta und Early Access von Cloud 1. Also ich weiß nicht, ob das vielleicht eventuell damit zusammenhängt. Die schreiben es in ihrem Announcment von letzter Woche. „and you want the USA and UK can start with our Beta Chat Experience today. Und ich hatte es gestern ohne VPN getestet und da haben sie mir auch gesagt: „Sorry, only in the USA. Und habe es gestern Abend später noch mal mit dem VPN probiert. Also ich bin auf jeden Fall in die Beschränkung gelaufen und im Blogbeitrag war es auf jeden Fall so: Vielleicht hat es, weil du schon generell Beta. Access hattest … Ja, und ich bin über ein Google Konto, das über die USA läuft, sozusagen drin. Also ich weiß ja nicht, wenn du Signin mit Google machst, ob die dann irgendwie die Country Location oder irgendwie. Sowas postet. Aber das war ich auch als Gründer, weil ich habe beide Logins mit dem Google Login gemacht. Also ich habe Google Signin gestern ohne VPN gemacht und gesagt: „Nein, geht nicht. Und dann habe ich gestern Abend noch mal VPN gemacht und da dachte ich, kann ich jetzt einen Google Account wieder nutzen? Die haben ja gestern schon mit dem Account den Zutritt verwertet. Dann war es okay. Also sie gehen wohl wirklich nur auf IP, oder? Oder sie haben seit dem vier Stunden Windows, wo ich meinen ersten versus zweiten Test gemacht habe, irgendwas verändert. Ja, wahrscheinlich irgendwie zwei Wildlisten. Irgendwie du bist, wenn du da drin bist, dann passt es und dann ansonsten die IP. Aber was ich sagen kann, also ich habe es Cloud 2 oder Cloud. Ai mehr oder weniger für mich ersetzt. Also ChatGPT. Ich nutze es aktuell, wenn ich irgendwie was irgendwiekurz was zusammenfassen möchte oder irgendwie was schreiben oder einen ersten Draft für einen Post und LinkedIn, frage ich immer Cloud aktuell. Also es hat schon einen guten Fortschritt gemacht zu deren ersten Modellen und es ist halt auch echt super schnell. Man hat ja immerwenn man bei ChatGBT reingeht, oftmals das einfach, dass das zehn Sekunden gefühlt nichts passiert. Und da läuft Claude doch echt sehr schnell. Aber was man vielleicht noch kurz sagen kann, ich habe auch den Test gerade noch mal kurz gemacht mit, ob man bis zehn zählen kann und to exklusive every number,endingand with an E. Hat bei mir auch leider nicht geklappt. Bei mir wurde auch nur fünf ausgelassen. Aber was interessant war: Paul hat mir geschrieben, nachdem wir das darüber letztes Mal geredet haben, dass er eine ähnliche Frage GBT vier gestellt hat und GPST4 hat es hinbekommen. Und Paul hat damals gefragt: „How many number, because Zero and 10 and with an E? Und GPT4 hat erfolgreich gesagt: „Okay, one, two, five and 9 enden mit einem e. Und ich habe gerade die aktuelle Frage auch Clow 2 gestellt und Clow 2 bekommt es nicht hin. Clow 2 sagt Okay, 5, 6, 7, 8, 9, ending with an e, was nicht ganz richtig ist. Also das heißt, du hast in deiner Frage gefragt, exklusive e und dann in einer anderen Frage, ob die Paul gestellt hat, was eher nenne mir alle, die es haben oder was war der. Unterschied im Promptive? Genau, genau Paul hat gefragt, welche Zahlen zwischen null und zehn enden mit einem e? Und die Antwort von GBT 4 war The Numbers because Zero and 10 that end with the letter e when speld out in English are one, two, five, so there are for Numbers because Zero and 10 that end with an e. Und hattest du, GBT aber wahrscheinlich deine Exklusfrage, hattest du gestellt, oder? Ja, hat nicht geklappt. Hat auch Paul gesagt, dass er seine sozusagen, welche Zahlen zwischen null und zehn mit einem ENGT, ein GBT 3.5 oder ChatGPT nicht beantworten konnte. Interessant, weil die, also es scheint, denn dein Test scheint Anklang gefunden zu haben. Wir haben auch über Twitter ein paar Nachrichten bekommen, unter anderem von Emanuell, der es auch ChatGPT dieselbe Frage gestellt hat und dann nochmal Verständnis danach gefragt hat, was wir genau gefragt haben, aber auch da zum selben Ergebnis kam. Also dein Test scheint gut anzukommen. Auf jeden Fall, ich meine es ist auch ein einfacher Test, zumindest mal ein Gefühl dafür zu bekommen. Also irgendwie ist es witzig. Ja, vielleicht gerade passend zu dem Test. Du hast ja schon erwähnt, Lama 2 ist raus und ich habe auch auf jeden Fall die Frage auch schon gestellt. Da können wir gleich drüber reden. Ja, dann können wir das. Aber ich bin noch mal gespannt, weil du hast gestern Abend noch ein bisschen bei Lama 2 ein paar witzige Fragen. Also weil so ein bisschen, vielleicht können wir dann den Schritt zu Lama 2 machen, zumindest was Closch schreibt, dass sie sehr viele Safety Meeres auch in Place haben und einen starken Red Teaming Ansatz gehabt haben und somit herausheben, dass der Sicherheitsaspekt bei Claude 2 auf jeden Fall sehr wichtig war und auch sehr stark darauf geachtet wurde. Gibt auch ein bisschen mehrere Infos dazu in dem Blogbeitrag. Und dann lass uns doch mal auf Lama 2 gehen, weil du hast ein paar interessante Safety Dinge, die Lama 2, die die Dichet Variante davon abwehrt, gepostet. Die habe ich auch mal bei Klo 2 ausprobiert. Können wir uns vielleicht im Nachgang drüber unterhalten. Aber erzähl uns mal Lama 2, du hast uns schon zum internen Chat schon die ganze Zeit heiß gemacht, auch gestern Abend, weshalb wir uns heute sieben treffen. Genau. Lama 2, wie kam das? Genau gestern Abend 6 Uhr deutsche Zeit hat Meta AI Lama 2 vorgestellt zusammen mit Microsoft. Also auf der Microsoft Inspire hat Microsoft Lama 2 vorgestellt und außerdem hat Mark Zuckerberg 6 ungefähr darüber gepostet auf Facebook Threat und allen möglichen Meta Social Plattformen. Lama 2 ist sozusagen die nächste Version von Lama von dem bis dato besten, sag ich mal, Open Source, Launch Language Model. Und Lama 2 ist jetzt noch besser als Lama 1. Und was alle, sag ich mal, sehr positiv stimmt, das kommt mit einer Commercial freundly Lizenz. Das heißt, man kann Lama 2 jetzt wirklich für kommerzielle Produkte intern oder auch in Sass Lösungen verwenden, was so die größte Limitierung von Lama 1 war. Und die Weights, also alles was nötig ist für Influencer kann man auch mittlerweile downloaden. Das war ja auch so ein Problem bei Lama eins, dass damals nur der Access für Research war und dann wurden die Weights ja geleakt über BitTorent und über, sage ich mal, mehr so Shadies Seiten. Und für Lama zwei sind die Wates jetzt verfügbar auf Hacking Phase ganz offiziell. Und die Lizenz erlaubt auch Redistribution. Heißt, man kann rein theoretisch die Rates runterladen und dann auf seinem eigenen, keine Ahnung, Estray Bucket hosten und Leuten zur Verfügung stellen. Das heißt, da gibt es keine Einschränkungen. Das ist ja schon echt ein Riesending, dass das jetzt wirklich mit Commercial Lizenz kommt und du hast ja vorher mit dem Lead, wie du gesagt hast, ein Riesending war, jetzt einfach alles frei ist und so. Es ist schon cooles Invest von Meta. Ich meine, es kommt mit Commercial Lizenz mit einem mit einer Fußnote, sag ich mal, also die die Lizenz von Lama 2, beinhaltet Commercial Use für alle, die weniger als 700 Millionen Manfred Active User haben. 700. Millionen? Ja, das steht in der Lizenz drin. Wenn dein Unternehmen zum aktuellen Zeitpunkt des Releases mehr als 700 Millionen Active Manfred User hat, dann musst du sozusagen Meta erfragen eine Lizenz. Zum Zeitpunkt des Releases? Ja, also das heißt, wenn ich jetzt das integriere und dann über 700 Millionen kommen, dann ist es kein Problem. Ich muss nur beweisen, dass ich alles eingebaut habe, was ich nicht hatte. Soweit ich es verstanden habe, ja. Interessant. Das heißt, wir haben ein bisschen genauer in Manche komplett gucken gesagt. Genau hier machen wir den Cut. Genau, was sehr witzig ist, weil 700 Millionen ist ja schon, keine Ahnung, warum 700? Warum nicht eine Milliarde? Warum nicht 500? Und wir haben ein bisschen gestern gegoogelt und haben festgestellt, Snapchat hat vor zwei Monaten 750 Millionen Manfred Active User erreicht. Weil... Letztens als ich geschaut hat, waren sie noch irgendwie bei 600 oder so. Das wäre jetzt auch mein einziger Tipp. Der liegt aber auch direkt in den. Kopf, Snapchat. Im Februar gibt es einen Artikel von TechRunch, dass sie 750 Millionen Active User geknackt haben. Krass, ja die haben ja auch ihren AI Assistent drin und so. Wahrscheinlich nutzen sie da noch irgendeine externe API. Ich weiß gar nicht, was sie da genau als Modellen nutzen. Wahrscheinlich irgendwie auch... Typische vier nutzen. Ist es Typische vier? Ja. Und andere Unternehmen, die da runterfallen, ist halt TikTok oder BLands, dann halt Wechat, also ganz viele chinesischen Unternehmen oder auch zum Beispiel LinkedIn hat über 700 Millionen Active Monitoring User. Das heißt eigentlich alle Social Media Kompetatures. Genau. Ich wollte auch gerade sagen, bei 700 Active User bist du ja in irgendeiner Form Social Network. Also das ist jetzt gar nicht so viel. Mir würde gerade kein Beispiel in den Kopf kommen, was kein Social Network ist und ähnlich in der ähnlichen Größe ist. Ja, deswegen sollte man sich keine Gedanken machen. Ja, dann ist es jasehr kommerciel, dass jetzt, jetzt haben wir auch Commercial freundly geklärt. Aber sorry, ich habe dich gerade unterbrochen, du wolltest eigentlich nur so ein bisschen was zu Lama 2 erzählen. Genau, Lama 2 kommt in drei verschiedene Größen. Einmal 7 Milliarden Parameter, 13 Milliarden Parameter und 70 Milliarden Parameter. Im Verhältnis zu Lama 1 hat es jetzt eine Default Context Länge von 49 1996 Tokens. Facebook hat oder Meta hat sechs Modelle releast. Also wir haben drei Größen sozusagen und jeweils zwei Modelle dazu immer ein Base Model. Das bedeutet einfach nur ein Pre Train auf ganz viel Text, welches man dann für seine Use Cases finetunen kann. Und dann gibt es noch zu jeder Größe ein Chat Modell, welches Facebook und Meta mithilfe von Reinforcement Learning from Human Feedback trainiert hat, welches oder wofür sie sehr viel auf dieses auch Safety and Red Teaming geachtet haben und auch in dem Paper, welches mit Lama 2 releast wurde, geht es fast 50% darüber. Wie haben sie Reinforcement Learning benutzt? Wie haben sie Daten gesammelt? Wie haben sie sichergestellt, dass die Antworten nicht harmvoll sind oder kein Bias haben? Nicht irgendwelche Beleidigungen oder bedrohliche Texte generieren. Was noch sehr interessant ist, dass das 7TB, also das größte Modell, Grouped Query Attention nutzt, welches, sage ich mal, eine neue Art von Attention ist, welche für Inference besser geeignet ist, da man oder halt Grouped Query Attention braucht weniger Memory. Das bedeutet, dass man sozusagen gleichzeitig mehr Text generieren kann für Inference. Das ist sehr interessant. Und ja, das sind, sage ich mal so die Highlights oder die Unterschiede im Verhältnis zu Lama eins. Macht Sinn, Lama zwei irgendwie so ein bisschen auf den einschlägigen Scores irgendwie mit GDPT4 zu vergleichen? Oder hast du so eine Art ungefähr einen Score, wo wir uns da jetzt gerade bewegen? Wir haben ja schon gesagt, das war das beste Open Source Modell und ist das jetzt, muss ich kurz, ist vergleichbar jetzt schon mit soden closed Source Modellen? Also GBT4 definitiv nicht. Das Paypal, ich denke wir packen das in die Shownotes. Meta hat auf den Base Modellen auch diese Benchmarks durchgeführt, wie du schon erwähnt hast, mit MMLU oder auch andere Benchmarks mit Trivia QM einfach festzustellen okay, wie gut ist das Base Model. Und dort performt Lama 2.7 TB gleich gut wie GDPT 3.5 oder Chat GBT außer für Code. Also sozusagen auf allen Resening oder auch generell World Knowledge Evaluierungen ist Lama 7.TB auf dem Niveau von GPST 3.5 oder ChatGPT außer bei Code da ist es schlechter. Also absolut sind es hier 19 Punkte und ich denke, das müsste man einfach testen. Palm2 LARCH, also das größte PalM2 Modell, welches Google vor ein paar Monaten vorgestellt hat, ist besser. Ein bisschen. Lama2 ist aber so gut wie das erste Paar Modell und GDPT4 ist immer noch, sage ich mal, so der der King von allem. Aber es ist halt immer sehr schwierig, wie man das beurteilen kann, da man absolut nicht weiß, wie GPS4 trainiert wurde. Und es könnte theoretisch auch sein, dass eventuell Daten von den Benchmarks mit dem Trainingset zum Beispiel waren. Das ist halt super schwierig. Aber die ersten Analysen sagen oder halt auch die ersten, sagich mal, Tests von Leuten, die ein bisschen damit gespielt haben, sagen, dass das GPT4 definitiv noch so der King von allen ist. Du hast ja, was ich gerade zuvor schon so ein bisschen angesprochen habe, weil du hast ja auch schon gemeint hast, bei Human Feedback, wie nehmen wir den großen Teil des Papers ein? Gibt es noch zwei witzige Posts gestern Abend in unserem Channel geteilt, wo Fragen gestellt wurden? Ich glaube, die zwei, die ich gelesen hatte, war einerseits, gib mir mal ein Rezept für Mayonese und das andere war, wie Killer ich einen Async Prozess in JavaScript? Und wie war das Mayonese Beispiel? Ich glaube, da wird es, weil Äcks irgendwie. Harmvoll sind. Genau. Es wurde kein Rezept. Für Mayoneise ausgeliehen. Also man muss dazu sagen, dass für das Mayoneese Beispiel das 7B Modell genutzt wurde. Und ich habe die selbe Frage dem 7B Modell gestellt und dann habe ich ein Rezept für Mayoneuse bekommen und der User hat gefragt What's the Recipe of Mayonees? Und dann die Antwort war halt so Ja, hallo, ich freue mich voll, dass ich dir helfen kann, deine Frage besser zu verstehen. Aber ich kann dir leider keine Informationen zu dem Rezept geben, da es nicht sicher oder ethikel korrekt ist, da das Rezept ja Eier beinhaltet, welche Food Allergien, also man kann allergisch auf Eier reagieren, beinhalten. Und das könnte ja schädlich für den Menschen dann sein. Ja, also wie war die, dass nichts nichts Killer, auch kein Async Process in JavaScript, dass ich da auch nicht geantwortet wurde, kann ich schon eher verstehen. Aber. Zu eurer Sicherheit auch Klo 2. Ich habe es für euch getestet auch. Beantwortet diese beiden Fragen. Wenn euch Maynesorezepte und Artung Prozesse Killeren wichtig ist, dann. Ja, ich finde auch wenn man den zum Beispiel den Lack Streetband Podcast mit Mark Zuckerberg gehört hat für ein paar Wochen, da hat Mark Zuckerberg auch ganz viel darüber geredet, dass Safety und harm halt, sag ich mal, in dem Meta Kontext vielleicht noch mal ein bisschen was anderes bedeutet als in dem normalen, sage ich mal, Kontext, in dem wir uns meistens bewegen, da halt auf Plattformen wie Facebook und WhatsApp oder Instagram halt super viel Hate Speech und alles mögliche unterwegs ist, dass man dort eventuell halt übervorsichtig sein möchte und halt wirklich sicher geht okay, ich habe lieber mehr True Fals Positives als halt andersrum. Und das Gute ist halt, dass wir die Base Modelle haben. Also ich bin mir sicher, dass bis in zwei Wochen Leute die Base Modelle auf unsensert, sag ich mal Conversations trainiert haben, welche dieses As ein AI Modell I can not nicht inkluden und trotzdem gute Ergebnisse liefern. Aber es ist trotzdem sehr, sehr interessant. Vor allem Sie sagen auch in dem Paper, dass Reinforcement Learning from Human Feedback wirklich ein Key Feature oder Key Value war, diese Modelle sicher zu machen in deren Augen. Und dass es ohne Reinforcement Learning from Human Feedback wahrscheinlich nicht möglich gewesen wäre, was noch mal, sage ich mal so, die mittlerweile dritte Bestätigung ist nacheinander, dann ist das eher ein Tropic mit Cloud und Open AI mit GPS4, das halt zum Alignen von Werten für diese Language Modelle oder zum Alignen, dass diese Modelle den möglichst besten Text generieren in dem Stil, den wir Menschen erwarten. Reinfersment learning for Human Feedback halt wirklich ausschlaggebend am Ende ist, ob man nur 95 Prozent erreicht oder halt wirklich die 100 Prozent. Ich finde auch, zumindest zu wissen, ich denke auch, dass es übervorsichtig ist auf jeden Fall ein sinnvoller Ansatz und fühlt sich irgendwie gut an, dass man eher in so Probleme läuft als genau andersrum. Und deshalb war jetzt natürlich die Frage, wenn es die Base Modelle weiterhin gibt und Leute auch sie trainieren können und sie nicht so sensibelsensibel sind. Und das ist dann halt auch das, was wir dann auch als sehr effizient und effizient machen. Und da bin ich mal gespannt, wenn wir mal irgendwie ein bisschen mehr in Richtung Regulatorik dann kommen, ob das vielleicht so was dann auch eingeschränkt wird, dass Base Modelle überhaupt noch weiter so trainiert werden können, irgendwie releast werden, ob große Firmen dann dazu verpflichtet werden, irgendwie nur die finetunen und mit Haptic Measures versehenen Modelle releasen. Das finde ich mal spannend. Ja, aber ich meine, am Ende ist es ja, die Modelle sind ja eigentlich nur auf Daten trainiert, die man eh zugänglich hat. Also die Facebook schreibt in Meta schreibt in ihrem Paper okay, wir haben ein Datenset von öffentlich verfügbaren Daten genutzt. Das heißt, wenn ich jetzt in Google reingehe und frage, wie das Rezept für Mayonees ist, gibt Google mir auch Antworten und sagt nicht Ja, sorry, ich kann dir leider nichts sagen, weil du eventuell allergisch dagegen bist. Oder wenn ich irgendwie unbedingt irgendwas, sag ich mal Negatives rausfinden möchte, dann kann ich ja auch googeln. Und wir schränken ja Google auch nicht ein oder Search Engines und haben Content Filter oder irgendwas davor. Deswegen ist halt finde ich, wenn das wirklich kommt, der Ansatz ein bisschen sehr schwierig. Ich sage mal, Language Modelle machen es vielleicht einfacher an die Informationen zu gelangen oder man kann die Informationen noch ein bisschen einfacher manipulieren. Aber es ist nicht so, dass die Informationen oder dieses Negative oder der harm for Content nicht bereits irgendwie existieren würde und die Leuten den nicht irgendwie generieren könnte. Ich glaube, es ist viel wichtiger, dass man halt schaut, dass man irgendwie hinbekommt, was ist AI Generated, was ist nicht AI Generated und viel mehr Awareness schafft als Dinge einfach versuchen weg zu regulieren. Ja, das stimmt schon. Das sehe ich inhaltlich eigentlich ganz genauso. Wahrscheinlich müssen sie trotzdem in irgendeiner Form beweisen, dass das, was an Trainingsdaten da reingeht, im Endeffekt schon danach gescannt wurde, dass kein harmvoll Content mit drin ist. Genau. Ich meine, das passt jetzt vielleicht nicht ganz zum Topic, aber ich habe gelesen, dass Open AI steht ja, sage ich mal, vor einer Anklage ein bisschen in den USA. Und da fordern die, sage ich mal, diejenigen, die versuchen, dort was rauszuholen, dass Open AI mehr oder weniger veröffentlichen muss, exakt genau welche Daten verwendet werden. Und wenn, sage ich mal, das Teil der Regulierung wird, dass man genau sagen muss, welche Daten es sind und dass man eventuell in den Daten suchen kann, dann hat man ja, sage ich mal, die Lösung schon für dieses Problem. Ja, da kommt in meinem Kopf auch nicht so viel, was dagegen sprechen würde. Wir haben noch ein Thema, bevor wir unsere halbe Stunde wieder ganz grob hier voll haben. Hatten wir schon am Anfang gemeint. Es gab ein neues Paper von Standford Researchern genannt „Lost in the Middle how Language Models Use a long context. Und wo analysiert wurde, inwiefern mit länger werdendem Kontext, der bei einem Prompt mitgegeben wird, die Antworten besser oder schlechter werden in der Antwort des LLMs. Und es wurden sowohl Open Source Modelle als auch closed Source Modelle sich angeschaut, also Cloud in dem Fall eins, drei, Open AI, GPS, drei Punkte mit Turbo und wurden zwei verschiedene Arten von Tests gemacht. Das eine ist, sie nannten es Multidocument Querschnitts Antering. Da haben sie auf Basis des Natural Querschnitts Data Sets, was im Endeffekt Google Queries mit als Antwort Wikipedia Kurzartikel oder Wikipedias, die die Exerbs in einer langen und Kurzvariante sind. Und es wurden im Endeffekt immer die Fragen aus diesem Natural Questions Daten Set gestellt und dann verglichen, wenn er im Kontext beispielsweise nur ein Dokument ist, was die richtige Antwort enthält oder bis zu 30 Kurzdokumente enthalten sind, wie verändert sich die Antwort? Und haben dann die Position der richtigen Antwort verändert? Also wenn es beispielsweise bei 30 Dokumenten ist in der Mitte ist am Anfang oder am Ende die richtige Antwort und geschaut, wie hoch ist die, wie akkurat ist das Ganze? Und das gleiche auch noch mit Key Value Päs, also Json Objekten verglichen, wo man einen richtigen Value zu einem Key erfinden sollte. Und was rausgefunden wurde, ist eigentlich diese Positionierung der, also das eine große Finding ist, wenn die richtige Antwort am Anfang des Kontext steht, hat man auf jeden Fall die höchste Wahrscheinlichkeit, das Ganze richtig zu haben oder das Lungal Language Model ist richtig zu beantworten. Und je nachdem wo die Position ist, wird es eben schlechter. Die schlechteste Position ist ganz in der Mitte. Gegen Ende ist es dann wieder oder an der letzten Position ist dann die zweitbeste Alternative, aber die beste ist sozusagen die Mitte. Und es ist sogar so weit, dass wenn in der mittleren Situation, wenn das Dokument in die Mitte gepackt wird, beispielsweise bei 20 Dokumenten an zehnter Stelle die richtige Antwort der Dokumente ist, dass es sogar schlechter performt jetzt beim Beispiel GBT 3.5, als wenn man einfach closedBook machen würde. Also OpenBook heißt hier im Kontext steht irgendwo die richtige Antwort mit drin. Wenn die richtige Antwort an der zehnten Stelle ist sogar schlechter, als wenn man einfach so promoten würde, ohne die richtige Antwort im Kontext mitzugeben. Was auf jeden Fall ziemlich interessant ist, gerade auch vor dem Hintergrund, dass wir ja gerade vorhin noch gesprochen haben, Cloud 2 jetzt bei 100.000 Tokens, wo man auch durchaus noch mal sieht, es ist wichtig, wie man, also Prompt Engineering ist da durchaus sehr, sehr wichtig. Und ich glaube auch noch ein Finding war, dass selbst die Extended Context Modelle, also wenn ein Modell einen größeren Kontext haben kann, solange der komplette Prompt in das Context von beiden reinpasst, sind die, die ein längeres Context Windows haben auch nicht besser. Also performen genau gleich gut, wenn der Kontext in beide Modelle reinpasst. Schon noch mal sehr interessant, was die Positionierung der richtigen Antwort in dem Kontext ausmacht. Ja, was ich halt sehr interessant finde, ist halt, dass es wirklich ein sehr hilfreiches Paper für wirkliche Anwendungen, die man aktuell baut. Ich meine, der mit Abstand mir bekannteste typische Use Case für nicht irgendwelchen Text schreiben. Für LLMs ist halt dieses question and Cering. Und der aktuelle Approach war halt immer man hat irgendwie diese Quellen und dann packt man Informationen oder halt die die Dokumente von den Quellen in mein Prompt und dann stelle ich meine Frage dazu. Und was halt wirklich sehr interessant ist, ist, dass jetzt, wie du gemeint hast zum einen nicht nur die Position wichtig ist in diesen in diesen Prompt, sondern auch die Anzahl der Dokumente. Das heißt, wenn ich fünf Dokumente oder fünf Informationen oder Quellen in meinen Prompt packe und meine Antwort in der Mitte steht, kann sie immer noch besser sein, als wenn ich 20 Dokumente in meinen Prompt packe, aber die Antwort am Anfang steht. Das heißt, man muss genau die richtige Balance zwischen beidem finden. Und was leider jetzt nicht Teil des Papers war und wo ich auch ein bisschen denke vorsichtig sein muss und was sie auch gesagt haben, ist, sie haben immer eine richtige Antwort und dann X falsche Antworten. Das heißt, meine Quellen haben einmal exakt die Antwort geliefert und dann ganz oft einfach nicht wichtigen Kontext. Und in einem Reword Beispiel ist es normalerweise nicht der Fall, da ich meine Quellen eigentlich anhand von Simularities sozusagen hinzufüge. Und es kann sein, dass ich zum einen entweder zwei Inhalte mit der richtigen Antwort haben oder eventuell ich eine Frage gestellt habe, wo eine Quelle gar nicht ausreicht zu beantworten. Es kann ja auch ganz oft sein, wer ist der aktuelle Bundeskanzler und wann wurde der oder wann sind die nächsten Wahlen? Dann brauche ich ja eventuell mehrere Quellen darüber, dass Olaf Scholz der aktuelle Bundeskanzler ist und dann vielleicht auch eine Quelle dafür die nächsten Wahlen sind 2026 oder sowas. Das ist leider nicht Teil des Papers. Aber es ist trotzdem schon sehr interessant, dass man eventuell, wenn man so eine Anwendung hat, sich Gedanken machen sollte, okay, wie viele Quellen oder Dokumente packe ich mit in meinen Prompt und wie strukturiere ich den Prompt? Es gibt ja zusätzlich zu diesen Embedding Modellen auch Ranking Modelle. Das heißt, ich kann versuchen, nachdem ich meine ganzen Quellen retweafed habe, die einfach zu ranken. Okay, was ist die wichtigste Information? Und darüber kann ich eventuell schon meine Performance für meine meine Anwendung boosten. Aber das ist generell die Erkenntnis ist, je weniger Dokumente, desto besser. Und es wird immer wieder interessant, wenn ihr euch bisher mit Vektordatenbanken noch nicht beschäftigt habt. Ich meine, es ist ja so oder so das Problem. Ab einer gewissen Größe kannst du ja eh nicht mehr alles in den Kontext packen. Aber selbst dann, wenn ich sozusagen eine Vektordatenbank habe, im Endeffekt sich damit zu beschäftigen, was jetzt genau in den Kontext kommt, auf jeden Fall ein super wichtiger Aspekt dafür da ist. Selbst. Dass ich dann nicht einfach sage, ich reize das komplette Kontextwissen einfach aus. Selbst wenn das Kontextwissen möglich macht, wenn ich jetzt Clou2 mit 100000 Tokens mache, ich einfach sage okay, ich nutze einfach alle und rank es irgendwie gar nicht mehr und packe es da rein. Definitiv nicht der richtige Ansatz. Ja, aber was noch ganz interessant ist. Also Sie haben in dem Paper hauptsächlich die Modelle von dir genannt evaluiert, aber sie haben auch Tests für GDP4 durchgeführt an einem Beispiel, aber haben nicht mehr gemacht, weil es viel zu teuer geworden wäre. Was daran ganz interessant ist, GPS4 hat auch diese U Shave, also dass sie, wenn die Antwort an erster Stelle steht in den ganzen Quellen, dann performt es am besten und dann wird es immer sozusagen schlechter in der Mitte und gegen Ende wieder ein bisschen besser. Was allerdings ganz interessant ist, dass GPS4 zum Beispiel besser performt als GDPT 3.5, wenn der Prompt unterschiedlich ist. Also die haben getestet, GPST4 hat den Prompt mit 20 Quellen und die Antwort steht an zehnter Stelle. Dann hat GDP4 noch die Frage richtig beantwortet, aber GPST 3.5 nicht mehr, aber GPST 3.5 hat die Frage richtig beantwortet, als die Antwort an erster Stelle steht. Heißt, man kann durch das Optimieren des Promps, welche Quellen ich in meinem Prompt habe, wie das Ranking ist, sehr viel beeinflussen, wie gut die Performance von meinem LLM am Ende ist. Das heißt, nur wenn man darüber nachdenkt, ich glaube, GDP 3.5 ist irgendwie zehnmal oder noch mal günstiger als GDP 4. Das heißt, wenn ich die Kosten, die ich darüber reduzieren könnte, das Zehnfache, nur wenn ich sozusagen einen besseren Prompt erstelle, ist halt auch schon, sage ich mal, eine sehr große Erkenntnis. Und klar, man kann irgendwie Proof of Concept vielleicht mit GDP4 starten, zu sehen, okay, macht es Sinn für mich als mein Unternehmen so eine Art Talk to your Data Anwendung zu bauen, wenn ich einen Erfolg sehe, dass ich dann sozusagen wirklich auch die Möglichkeit habe, okay, ich kann das optimieren und Kosten sparen, indem ich mir mehr Gedanken darüber mache, welche Informationen ich in meinen Kontext packe. Ja, da wieder die Erkenntnis, je weniger, je weniger, desto besser. Ich meine jetzt ein Dokument nur zu haben, das heißt, so geht das eine richtig, indem die Informationen irgendwie drin ist. Wenn ich das mit der Vektordaten mal hinbekomme, dann muss ich vielleicht auch gar keine LLM mehr fragen. Dann kann ich einfach das Dokument ausgeben. Aber zumindest den Sweet Spot irgendwie rauszufinden, auf jeden Fall durchaus guter Input. Philipp, vielen Dank für deine Zeit. Wir haben es wieder einige Themen. Wir sind jetzt ein bisschen in der Sommerpause. Wir sind jetzt sechs Wochen im Sommer nicht mehr da. Danach geht's wieder los mit allen programmierbar Formaten, die ihr so kennt. Wir haben nächste Woche noch unsere Programmierbar News nochmal. Also ab August sind wir in der Sommerpause. Das heißt auch Philipp und ich. Philipp, vielen Dank. Es hat sehr Spaß gemacht, unsere vierte Folge hier. Ich weiß gar nicht mehr, wie viele Folgen man dann anstößt. Müssen wir nochmal definieren. Bis dann. Macht's gut. Ciao.

Llama 2 // Claude 2 // MDN Web Docs AI Help // Lost In The Middle // GPT-4 Architektur Leak

Shownotes

Speaker Info

Philipp Schmid