News AI #7 –

Cloudflare AI - Serverless Workers, AI Gateway, Vector DB // Meta AI // LeoLM // Mistral AI 7B // LocalPilo

11.10.2023

// Podcast
// News AI #7

Shownotes

Cloudflare feiert 13. Geburtstag. Philipp und Fabi unterhalten sich über die neuen AI Features, die zu diesem Anlass released wurden. Sie sind einer der ersten Anbieter für Serverless GPU in der Cloud, bieten ein AI Gateway zum Monitoring von AI Services an und haben eine Vektor-Datenbank released.

Meta hat neue AI Features vorgestellt: AI Stickers, neue Bildbearbeitungsmöglichkeiten mit AI, sowie die Meta AI, eine in allen Chat-Features von Meta integrierte AI. Etwas hitziger wurde die Diskussion dann bei den neuen AI Instagram- & Facebook-Profilen, die Meta erstellt hat.

Mit LocalPilot gibt es jetzt eine Möglichkeit, Open Source Coding Assistants lokal auf dem Mac auszuführen. Amazon hat Bedrock nun in General Availability und somit kann es von allen genutzt werden. Philipp hat dazu einen nützlichen Preisvergleich zu bspw. GPT-4 aufgestellt.

Die Welt der Open Source LLMs schläft nach wie vor nicht: Mistral AI hat ihr 7B-Model released und es gibt ein für deutsche Sprache trainiertes LLM – LeoLM auf Basis von Llama 2.

Download

/transkript/programmierbar/news-ai-7-cloudflare-ai-serverless-workers-ai-gateway-vector-db-meta-ai-leolm-mistral-ai-7b-localpilo

Hallo und herzlich willkommen zu einer weiteren Folge der Programmierbar AI News, mittlerweile die Nummer sieben. Ich bin der Fabi Heyer und mit mir dabei ist wie immer unser AI-Guru der Philipp von Hackingface. Hi Philipp. Hi. Heute unterhalten wir uns über ein Haufen Themen. Cloudflare hat einiges rund AIs gemacht. Es gibt endlich ein deutsches Dutch Language Model, Leo LM. Amazon hat Badrock rausgebracht, Misstrill AI, das Pariser AI Startup hat auch was rausgebracht, den Local Pilot, Github Co Pilot jetzt auch lokale Computer und Meta hat viele Dinge rund AI rausgebracht. Philipp, lass uns mal einsteigen mit Cloudflare, mal wieder irgendwas. Also gibt es eigentlich eine Firma mittlerweile, mit der Hacking Phase nicht kooperiert so? Gefühlt alles, wenn ich AI höre, ist im gleichen Atemzug auch immer Collaboration mit Hackingphase. Ja, ich glaube, es sind noch ein paar offen, aber wir arbeiten stark daran, dass wir, sage ich mal, die Lücke voll schließen. Und ja, Cloudflare hatte letzte Woche ihre Diversity Week. Also Cloudflare wurde letzte Woche vor X Jahren, sage ich mal, gegründet und jedes Jahr veranstalten die eine Diversity Week, wo sie neue Services für ihre Cloud Plattform oder Edge Plattform mehr oder weniger vorstellen. Und dieses Jahr war das Thema wie bei jedem AI und vor allem Serverless oder Edge AI, was sehr sehr cool ist, was bisher sage ich mal noch immer ein bisschen zu kurz gekommen ist. Und Cloudflare hat einen neuen Service gelauncht, der nennt sich Worker AI und ist sozusagen eine Extensions zu ihrem bisherigen Worker Service für die, die Worker nicht kennen oder Cloud Flair nicht kennen. Workers ist ein Serverless Compute Service, so ähnlich wie AWS Lambda oder Google Cloud Run oder Deno zum Beispiel, wo man einfach Serverless Functions und ja, Apps mehr oder weniger laufen lassen kann. Aktuell unterstützen sie JavaScript und Web Assembly soweit ich weiß und Workers AI schließt nahtlos in ihr Workers Environment über und supportet CPUs. Und Workers AI wird durch eine SDK sozusagen in das Workers Environment eingebunden. Also man hat nun zum einen in dem Workers Environment die Möglichkeit die Workers AI SDK zu nutzen und dann super easy Machine Learning Modelle zu nutzen auf CPU und CPU. Auf CPU können kleinere Modelle laufen, die dann direkt in dem, sag ich mal, Edge CPU laufen. Aber zusätzlich hat Cloudflare noch ihr Edge CPU Network vorgestellt, bei dem sie CPUs in Edge Locations bringen und dadurch dann die Möglichkeit haben, LLMs auf den, sage ich mal, Edge Nodes laufen zu lassen. Und dann kann man von seinem Workers Environment direkt auf ein LLM wie Lama zum Beispiel zugreifen und hat alles Serverless. Das bedeutet, man zahlt wirklich nur für die Compute Time. Das heißt, wenn ich irgendwie einen Request bekomme mit irgendwie schreib mir eine Geschichte über München, dann wird die Zeit, die benötigt wird, den Text zu generieren, in Rechnung gestellt und nicht die Zeit, wenn du das sozusagen nicht nutzt. Und das ist, sage ich mal, sehr, sehr interessant für Kunden, da man halt nicht diese IDAL Cost hat für für Open Source Modelle und passt so ein bisschen in das Pricing Modell, das man kennt von Open AI oder KURIER und anderen rein. Ist ja auch ansonsten wäre Serverless, also on the Edge auch ein bisschen, wenn ich irgendwie an jeder Edge am Ende noch meine iDle CPU bezahlen müsste, dann lohnt sich Edge nicht mehr so sehr. Obwohl ich mich frage, ich meine, ist nicht Inference Time der gefühlt größere Bottom-Nack als jetzt, dass das Ganze on the Edge läuft. Na gut, dann bist du wirklich wahrscheinlich High Performance Use Case, aber es braucht ja eh seine Zeit. Nee, also ich glaube zum einen, das ist so der erste offizielle wirkliche Serverless-GPU Service von den großen Providern. Also es gibt schon viele Startups, die sag ich mal versuchen, Serverless-GPUs zur Verfügung zu stellen. Banana Dev ist zum Beispiel eins, was mir da spontan einfällt, aber das ist der erste wirklich große Provider und Serverless-GPUs ist, sage ich mal, sehr viel schwieriger als Serverless-CPUs, wie wir kennen. Da der große Unterschied ja ist bei einem CPU, ich kann den ja Virtualisieren nicht nur auf einzelne Cores, sondern auch auf Sub-Cores. Ich kann ja zum Beispiel eine Lambda Funktion 0,5 wie CPUs oder irgendwie sowas haben und das funktioniert ja bei CPUs nicht. Das heißt, ich habe immer einen ganzen CPU sozusagen mehr oder weniger für meine Execution. Das heißt, ich brauche zum einen viel mehr CPUs, dass ich sozusagen die Last abbilden kann. Und zum anderen dauert es ja auch sehr lange für das Modell zum Laden. Also der größte, sage ich mal, oder mit eines der größten negativen Aspekte von Serverless Computing ist ja oft mal dieser Cold Start, dass es eine gewisse Zeit dauert, bis meine Function oder mein Code geladen ist, bis er gestartet wurde und dann bis es ausgeführt wird. Und es kann halt bis zu einer Minute fast dauern, bis ich so ein LLM wirklich lade oder auch eventuell die Node starten muss und dann erst mal das ausführt. Deswegen ist es richtig cool zu sehen, dass Cloud vielleicht hier was macht. Und für …. Aber wenn das die Probleme sind, hast du irgendwas dazu gelesen, was man da so in Experience Time, so Cold Start, das man nicht so erwarten hat? Weißt du davon irgendwas? Also gelesen jetzt nicht. Was ich weiß und was ich sagen kann, ist, dass es am Anfang nicht so sein wird, dass man jedes mögliche Modell nutzen kann. Also wir arbeiten zum einen zusammen mit Cloudflake, die populären und die trending, sag ich mal, Open Source Modelle zur Verfügung zu stellen. Cloudflare hat auch eigene Modelle, die sie zur Verfügung stellen. Man wird eine Auswahl von einigen Modellen haben am Anfang. Die müssen dann nicht sofort so direkt geladen werden, sondern die sind dann eher schon verfügbar und es muss nur der Code, der von mir geschrieben wird, dann geladen werden. Genau das ist ja das eine, dass man sozusagen in dem CPU Environment die SCP aufruft, die dann sozusagen das Serverless CPU aufruft. Also ich programmiere nicht sozusagen etwas, was in dem Serverless CPU aktuell ausgeführt wird, sondern ich rufe nur Modelle auf, die auf Serverless CPUs mehr oder weniger laufen. Und deswegen auch am Anfang die Limitierung, dass nicht jedes Modell genutzt werden kann. Weil du hast halt wirklich dieses Problem, welches Modell hat wie viel Last und wann muss ich die Modelle austauschen oder hoch und runter skalieren? Und umso mehr Modelle ich supporte, umso schwieriger wird es natürlich und umso unterschiedlicher. Ist ja die Last. Gut, ich meine, im Endeffekt machen sie dann so was wie es halt auch im Endeffekt OpenAI ja auch tut. Also sie stellen halt nur eine Reihe von Modellen bereit, die man nutzen kann, die ja wahrscheinlich durchgehend auch den CPUs verfügbar sind und einfach nur Requests annehmen von den Serverless CPU Instanzen, oder? Ich glaube ganz so ist es nicht, weil der Plan ist wirklich, dass man eigene Modelle mitbringen kann. Und zum einen gibt es, ich habe es gelesen, so verschiedene Pricing Modelle. Also es gibt irgendwie die Möglichkeit, einfach zum nächsten Edge Location sozusagen zu gehen oder zu einer Edge Location, wo aktuell Traffic oder halt Kapazität verfügbar ist. Das heißt, es existiert irgendeine Art Dynamic Routing, based on was man sozusagen in seiner StK mit aufruft, ob ich möglichst nah und dann eventuell mehr bezahlen muss, also eine höhere Priorität habe oder irgendwo hingehe und dadurch einen höheren Network Overhead habe. Ja, cool. Dann haben wir noch einiges weiteres auch an uns. Ai Gateway passt ja vielleicht da gerade so ein bisschen rein, was die Möglichkeit ist, wenn ich eben nicht jetzt Serverless eines der Modelle von Cloudflare nutze, sondern beispielsweise Open AI, Chat, GBT irgendwie angehen will, dass ich das AI Gateway von Cloudflare nutze, alle Calls darin zu rappen. Das ist ein Gateway, den ich dann, also es gibt für die großen Modelle da draußen, die großen Anbieter dann direkt eine Cloudflare URL, die ich sozusagen eins zu eins ersetzen kann anstatt API. Openai. Com könnte ich das Gateway AI. Cloudflare. Com angehen. Dann gibt es die OpenAI Variante oder ähnliche Anbieter. Und was sozusagen der Vorteil davon ist, ist, dass ich Monitoring in meine API Aufrufe gegen die LLMs bekomme. Weil aktuell ist ja wirklich da Insights zu bekommen. Erstens schwierig und zweitens hat man keinerlei Möglichkeit irgendwie für Caching oder irgendwie gerade auch für größere Firmen durchaus auch interessant, auch einfach zu schauen, was geht denn da über die Leitung und sie geben einem sozusagen wirklich ein Monitoring darüber als auch ein Caching. Wobei ich da, also der Caching Part hat mich super interessiert, weil ich so dachte, auf welcher Ebene cacht man denn Requests gegen einen LLM? Weil es ist ja, da muss ja wirklich der Prompt eins zu eins der gleiche sein. Und selbst dann muss ja nicht heißen, dass der gleiche Output rauskommt. Also wo, auf welcher Ebene da Caching funktioniert, weiß nicht, ob du da mehr Insights hast. Fand ich auf jeden Fall noch mal ziemlich interessant, wie sie da eigentlich oder was sie genau da cachen. Also ich habe es mir jetzt noch nicht angeguckt, selber damit rumgespielt. Aber ich habe auch gesehen, dass du sozusagen die dieses Gateway Customizen kannst durch Code, der dann einfach mit ausgeführt wird. Und Caching, wie wir es bisher kennen, ist wirklich dieses okay, ich habe einen Prompt, das ist exakt gleich und ich speichere einfach den Output. Klar, also man wie gesagt, wie du es richtig gemeint hast, der Output könnte bei einer anderen Anfrage unterschiedlich sein. Aber es geht einfach darum, dass ich trotzdem die Last sage ich mal reduziere. Und wenn jetzt sage ich mal zwei Wörter anders sind beim Cache, dann ob es dann wichtig ist, dass ich den Request noch mal ausführe oder nicht, ist dann denke ich mal die andere Frage. Und was ich noch sehr interessant fand, ist, dass man auch gewisse Budgets darüber abbilden kann. Also Cloudflake oder das AI Gateway trackt nicht nur die Anzahl der Requests, sondern auch wie viele Tokens und dadurch wie viele Kosten entstanden sind und dass ich darüber auch steuern kann, wenn es halt zu viel wird, was halt durchaus interessant sein kann, wenn ich das irgendwie, sage ich mal, jetzt mehr öffentlich zugänglich mache. Also wenn ich irgendeine Anwendung schreibe mit einem Public Interface und jemand nutzt eine gehackte Kreditkarte und spamt mein System, dann muss ich ja trotzdem nachher Open AI bezahlen. Aber der Kunde oder Nutzer bezahlt eventuell mich nicht. Und darüber hat man halt noch so eine Art Monitoring Analytics und Gard-Rales, die man halt mit einbauen kann. Gerade auch auf den Enterprise Use Case. Also das ist jetzt einerseits extern, aber auch intern, wenn ich irgendwie ein großes Enterprise habe und am Ende gar keine wirkliches Monitoring darüber habe, wie viel jetzt wirklich von einzelnen Usern gemacht wird und so. Und da gibt es auch die Möglichkeit, jetzt wohl auf User Ebene zu entscheiden, beispielsweise dieses Budgeting einzustellen. Und ganz interessant fand ich auch noch so ein bisschen, dass sie auch Fallback Handling für LLM-Provider zur Verfügung stellen, dass man zum Beispiel sagt okay, man kann diesen Gateway Präferenzen mitgeben und kann sagen okay, geht zuerst gegen Open AI, irgendwie GPS 3.5 und wenn das down ist, dann nutzen die Hacking-Phase Modellen, nutzt halt GPS 2 und da auch noch Konfigurationsmöglichkeiten hat, aber auf jeden Fall ein cooles Tool. Genau. Und dann noch zum letzten. Immer noch Thema AI, immer noch Thema Serverless, aber dieses Mal Vektordatenbanken. Das ist, glaube ich, das nächstgrößte Buzzword, wenn man von LLMs aktuell spricht und auch in den letzten neun Monaten, glaube ich, drei neue Start-ups, die über 10 Millionen jeweils geraised haben für eine neue Vektordatenbank. Und Cloudflare hat jetzt auch eine Vektordatenbank namens Vectorize, welche komplett serverless ist und man bezahlt sozusagen für die Anzahl der Vektoren oder Embeddings, die man speichert, was ich ein sehr, sehr cooles Konzept finde, da aktuell andere Anbieter wie Elastic Search oder Open Search auf Amazon oder Azure nicht diesen Ansatz haben, wo man immer diese Grundkosten hat, gewisse Compute bereitzustellen. Und Vectorize von Cloudflare gehthier diesen anderen Ansatz, dass man wirklich per Embeddings sozusagen oder Dimension berechnet wird. Und man kann sich das so vorstellen, wenn ich einen Textinput habe und ich ein Embedding erstelle, erzeuge ich mehr oder weniger einen Vektor mit x DimensionenDimensionen. Ein Open Source Modell wie ein Mini LM hat zum Beispiel 384 Dimensionen, Open Air hat 1536 Dimensionen. Und diese Größe vom Vektor bestimmt natürlich auch, wie viel Speicher ich benötige und auch wie lange es dauert, verschiedene Vektoren zu vergleichen. Also umso größere Dimensionen ich in dem Vektor habe, umso höher ist der Computeraufwand, wenn ich zwei Vektoren vergleichen möchte, wie ähnlich die sind. Und sie haben sie sozusagen das zu nutzen gemacht, dass man die Kosten berechnet, indem man die Dimensionen plus die Anzahl der gesteuerten Dokumente mal dem Preis nimmt. Also wenn ich, ich habe hier ein Beispiel ausgerechnet, wenn ich eine Million Dokumente speichere, 100.000 Anfragen mache mit MinialM, welches 384 Dimensionen hat, würde das 16,80 € kosten. Wenn ich dasselbe mit OpenAI mache, dann würde das, ich glaube viermal so viel dürfte es sein. Einfach nur darüber, weil OpenAI 1536 Dimensionen hat und MinialM nur 384 Dimensionen. Weil du jetzt gerade Anfragen gesagt hast, es geht nicht nur das Speichern, sondern es ist schon dann irgendwie ein gewisser Betrag, der dann aber auf die Suchanfragen ankommt. Das heißt, ich habe so und so viele Dokumente und eine Suchanfrage, die Kosten für eine Suchanfrage hängen von Menge der Dokumente plus Dimensionen ab. Jein. Also jede Suchanfrage ist wie das Hinzufügen von einem neuen Dokument. Also die genaue Formel ist total Vector Dimension Queries plus Stort multiplied by Dimensions per Vector multiplied by price. Also Hinzufügen und Suchen ist einfach eine ist eine Operations. Genau. Genau. Wenn ich eine Million Dokumente gestoert habe und eine Million Abfragen ausführe, habe ich sozusagen 2 Millionen von diesen Stoart Dokumenten. Und dann muss ich die 2 Millionen mit der Anzahl der Dimensionen multiplizieren, mit dem Preis. Und es gibt auch wieder ein Free Tier. Also ich glaube irgendwie bis keine Ahnung eine Million Dokumente oder irgendwie sowas oder ein Abfragen ist kostenlos. Und dann sind es 0,04 Dollar pro eine Million Abfragen. Also relativ kostengünstig, sage ich mal. Die könnten noch weiter ins Detail fragen. Aber wir sind ja in der Newsfolge und nicht in der DeepDive-Folge. Aber ja, du hast recht, wie viele Vektordaten/ Ich habe ich jetzt auch mit Timestale DB beschäftigt, die haben zum Beispiel auch jetzt gerade wieder eine Vektordatenbank rausgebracht. Also die poppen wirklich, egal wo man hinguckt, aus dem Boden heraus. Ich glaube an sich ist eine Vektordatenbank ja eigentlich nur eine Datenbank mit einem neuen Datentyp. Also es ist ja eigentlich nur dieses mehrdimensionale Array, welches ich zur Verfügung stelle und dann noch ganz viele Utility Functions außenrum, dass ich schneller und besser die richtigen, sage ich mal, Vektoren extrahieren kann oder möglichst ähnliche Vektoren finden kann zu dem Vektor, den ich bei meiner Anfrage mit dabei habe. Ich glaube, so, deswegen geht es auch so schnell. Ich weiß, dass du auf dem Timestake basiert auf Postgreif und die nutzen dann auch noch irgendwie so eine, es gibt eine Extension für Postgreif, PG. Rector oder sowas. Genau. Ja, ich meine, Redis hat es, Elastic Search, Open Search. Es gibt VWAide, Pinecon, Quadrant, Chromadb. Also ich glaube. Es gibt mittlerweile zehn verschiedene. Das packen wir nicht nicht schon. Das sucht selbst aus, wenn ihr es wissen wollt. Okay, ja. Das ist cool. Cloudflare. Ja, ich glaube, was vielleicht noch abschließend ganz kurz zu sagen ist, ist richtig cool. Also ich finde Cloudflare eine sehr coole Company und normalerweise was die auch, sage ich mal, immer zur Verfügung stellen, ist sehr beeindruckend. Versaell läuft zum Beispiel unter the Hut ganz viel auf Cloudflare und ich meine das halbe Internet geht ja irgendwie durch irgendwelche Cloudflare Proxys oder die Webseiten sind. Alle mit dem Cloudflare. Und es ist wirklich interessant, dass sie, sage ich mal, diesen Fokus auf Serverless beibehalten für GPS und für Vector Datenbanken. Was definitiv sehr interessant ist, vor allem für Startups oder Individuen, weil ich kann einfach mit wenig anfangen und zahle nur das, was ich nutze. Also ich muss nicht erst mal irgendwie für 1.000 € eine Instanz laufen lassen, damit ich mein Modell nutzen kann, kann trotzdem Open Source nutzen und bin ich, sage ich mal, auf Open Air angewiesen. Was mich ein bisschen gewundert hat, wir haben ja gefühlt ganz viel über Corporates uns unterhalten, die die CPUs irgendwie horten und irgendwie super viel davon kaufen. Bei Cloudflat haben wir davon ja nicht wirklich was gehört oder hatten die vorher schon eine Infrastruktur, die es möglich macht? Oder wie kriegen die es jetzt selber, dass Infrastruktur mit CPUs bereitzustellen, ohne dass sie es nicht haben? Ich glaube, das ist relativ neu, sage ich mal. Das gab es noch nicht und ist aktuell im Aufbau. Und es sind auch jetzt nicht irgendwie die größten und besten CPUs. Also es sind schon die neuen CPUs, soweit ich weiß. Aber es ist jetzt nicht so, dass da 10.000 H100, die aktuell genutzt werden. Ich glaube, man geht eher in das eine Level darunter. Also jetzt haben wir uns ganz schön verquatscht bei Cloudflare. So, du musst jetzt mal hier aufs Gaspedal drücken. Aber lass mal als nächstes Meta AI machen. Nämlich Meta hat ja einiges. Gehen wir ein bisschen – jetzt waren wir im Technikbereich, jetzt gehen wir ein bisschen End-User-Produkt. Meta hat ja einiges an neuen AI-End-User-Tools irgendwie rausgebracht und da können wir mal ein paar so ein bisschen super gehen. Ich glaube, keine davon kann man jetzt schon direkt zumindest in Europa testen. Ich habe schon probiert, mit einem der AI Chatbots zu chatten, über die wir uns gleich unterhalten, aber dazu gleich mehr. Sie bringen AI Stickers raus. Also grundsätzlich alles irgendwie auf Basis von Lama 2 als auch ihr Image Generation Model, das hatte ich vorher gar nicht auf dem Schirm. Das ist auch ganz neu. Also das haben sie mit dort vorgestellt? Ja, ich habe mit dort vorgestellt, weil ich wollte gerade sagen, der hat mir gar nichts vorher gesagt. Und genau es werden AI Sticker sozusagen generiert auf Basis von Textinput, kriegt ihr Sticker generiert. Es wird Image Editing mit AI geben, was sich wahrscheinlich zum Großteil auf Instagram oder auch alle möglichen Story Features für Facebook bezieht. Also rund Image ist relativ viel irgendwie Backlog Changes, also Hintergrund ersetzen, aber auch ganz viele Filter und Bearbeitungsmöglichkeiten darüber. Aber interessant, glaube ich, sind auf jeden Fall die Möglichkeiten mit den LLMs zu interagieren. Es gibt einmal die Meta AI, einen Chatbot / Conversational LLM, mit der man eigentlich aus allen möglichen Chats von Meta heraus interagieren kann. Also sie haben Beispiel aus der Messenger-App, aus WhatsApp, aus Instagram und einfach durch das Taggen von Meta AI kann man in einem Chat Meta AI Dinge fragen. Diese Dinge können sich einerseits auf die Konversation selbst beziehen, jedoch kennt die AI nur Dinge, die auch für die AI getaggt wurden. Also kann ich einfach die komplette private Konversation durchsuchen und kann dann verschiedene Dinge damit machen. Und sie haben so ein bisschen, es vielleicht einsteigerfreundlicher zu machen oder experimentierbar zu machen, haben sie 28 AI Characters erzeugt, mit denen man auf verschiedenen auf Facebook als auch Instagram chatten kann. Also ein paar Beispiele. Es gibt Leute wie zum Beispiel den Namen Empaar, das war Paris Hildon, wurde als Beispiel genommen, ist ein Detective Partner for Soldwing Hut Units, was auch immer Hut Units sind, keine Ahnung. Aber auf jeden Fall gibt es da verschiedene Beispiele. Zum Beispiel Dwaine The Rock Johnson wurde als Inspiration genommen und ich habe es mal probiert. Man kann auf diese Profile gehen. Also ich habe einer der ersten Profile mal genommen, war ein Weltraum-Dood, mit dem man sich unterhalten kann und man kann einfach, sie sind dann alle getaggt innerhalb von Instagram, weil das ist eine AI. Wenn du auf den Chat gehst, steht da hier, du sprichst mit einer AI und man kann mit ihnen chatten und hat ein Art Language Model, was sich so verhält, wie dieser Charakter wirken soll. Auf jeden Fall ganz witzig. Ich bin mal gespannt. Glaube, es macht so ein bisschen den Einstieg für viele, die bisher vielleicht noch nicht so viel mit zu tun hatten, irgendwie ganz unterhaltsam. Aber ich hatte leider, heute Morgen habe ich probiert reinzugehen, da hieß es noch erst, ich konnte erst noch was eingeben und chatten. Dann stand da AI Chat blockiert und jetzt, wenn ich auf den Chat gehe, werde ich direkt immer wieder rausgeworfen. Also irgendwie Europa hat noch keinen keinen Zugriff leider. Aber ihr könnt euch die Instagram-Profile auf jeden Fall mal anschauen. Aber auch ganz interessant, dass Sie in dem Zuge darüber gesprochen haben, wie sie die AI mit welchen Informationen sie trainiert haben und so ein bisschen den Privacy Teil auch hinten dran erklärt haben. Und zumindestens, also sie sagen, dass natürlich keine Privatnachrichten, keine Privatposts genutzt wurden, aber der Content, der öffentlich irgendwie gepostet wurde auf Facebook, Instagram, wie auch immer, dass der komplett genutzt wurde, die AI zu trainieren als auch und da haben sie irgendwie mal probiert, relativ Feinfühliges zu kommunizieren – alles mögliche, was an Sticker Searches gemacht wurde und da auch in privaten Kontexten. Also wenn man nach irgendeinem Sticker gesucht hatte, diese Suchanfragen sind ins Training gelaufen, wahrscheinlich für diese Sticker AI. Und genau, aber ich bin mal gespannt. Also noch keinen Zugriff zu diesem AI Chatbot gehabt oder ähnlichem. Ja, ich habe mir auch die Instagram Profile angeschaut und ich finde es ein bisschen beängstigend. Also man hat wirklich ein richtiges Bild von einem Menschen drin. Alle haben auch, sage ich mal, irgendwelche Instagram Bilder oder Reels, haben eine Beschreibung. Es gibt einen kleinen, eine kleine Notiz, wo dran steht AI Managed bei Meta. Alle haben diesen blauen Verified Haken. Und ich weiß nicht, man kann halt, also Meta ist ja das, sage ich mal, die testen das so. Aber ich bin mir sicher, es wird ganz, ganz, ganz, ganz viele Nachahmer geben und du weißt dann irgendwann nicht mehr, ob ein Influencer eventuell echt ist oder nur eine AI ist. Und chattest du dann irgendwann wirklich mit einer Person, weil du die irgendwie anschreibst und eine Frage hast? Oder chattest du dann mit einer AI? Und ich bin mal gespannt, was da noch passiert. Ich meine, darüber haben sie ja in dem Privacy Detail auch gesprochen. Ich finde auch, wenn man auf das Profil geht, da ist es ja super. Da steht es ja eigentlich nur in der Beschreibung. Also in der Notiz. Und dann oben drüber AI Managed bei Meta. Da finde ich es auch relativ. Also da kann man es finde ich super super leicht übersehen. Ich fand in dem Message Bereich weiß es gar nicht, ob ich da ich kann noch mal kurz probieren da noch mal reinzukommen. Was ich zum Beispiel ganz krass finde. Also ich schaue mir ab und an zu Reels an, wenn du da durchscrollst und wenn du die Reels sozusagen, wenn du durch ein AI, durch ein Reel von einem AI Fake Charakter gehst, da ist nichts mit AI. Das heißt in dem Moment, wo du das Reel dir anschaust von ich habe hier Hima, Himamal lief, ist einfach ein blauer Haken, ein normales Bild, eine normale Beschreibung. Du weißt nicht, dass das keine Person ist. Und ja, es bleibt spannend. Ich glaube, es gibt generell schon Anträge und Überlegungen, ob man AI Generatorsated Content und Personen, sage ich mal, auszeichnen muss, dass der Gegenüber weiß, dass hier ein Mensch mit mir spricht. Und ich denke, das ist definitiv etwas, was man befürworten sollte, weil es kann zum einen zu sehr großen Verwirrungen führen oder auch zu sehr interessanten Beziehungen, die sich eventuell entwickeln könnten. Ja, auf jeden Fall. Also ich finde im Messenger finde ich, wenn ich das, wenn ich die Messenger-Seite aufmache, kriege ich an vier Stellen gesagt, das ist eine AI direkt unter dem Namen, dann noch mal unter dem Profilbild, dann großes Messages, das ist eigentlich bei AI. Okay, und KI ist nicht mehr verfügbar. Das wird wahrscheinlich dann nicht mehr da stehen, wenn man mit dir chatten kann. Da finde ich ging es. Aber du hast recht, beim Profil und ich habe jetzt noch keine Story angeguckt. Da ist es auf jeden Fall gerade mit diesem Verified Haken und so was. Das wäre schon komisch, wenn die Grenze da zu stark verschwimmt. Es sollte schon sehr explizit irgendwie sein. Aber das schreiben Sie ja auch in dem Privacy Teil, dass Sie darüber irgendwie viel nachdenken. Mal gucken. Sie haben es zumindest noch nicht sehr extrem gemacht, dass man erkennt, es ist eine AI. Ich meine, was auf jeden Fall interessant ist, finde ich, ist, ich würde mich als Influencer würde ich mir Gedanken machen, weil eventuell, ich meine, wenn eine Marketingagentur oder ein Startup viel Zeit investiert, dann brauchst du eventuell keine echte Person mehr, die irgendwie nach Dubai reist und Bilder am Strand postet und dann Werbung für dein Shampoo oder so was macht, weil dann buchst du halt einfach den AI Avatar, der fünf Millionen Follower hat oder so was, dein Produkt vorzustellen. Und der ist, wäre eventuell einfacher mit ihm zu arbeiten als vielleicht. Ich meine den ganzen Aspekt mit der Werbung fand ich auch noch mal interessant bei dem Privacy Part, dass wir geschrieben haben. Alles was mit der AI Konversation passiert, also wenn du auch mit diesen AI Bots und so was chattest, all das ist natürlich privat. Außer bestimmte Dinge, die du irgendwie sagst, würden sie an Werbepartner weitergeben. Also das ist im Endeffekt das, was du da, also damit du personalisierte Werbung bekommst. Ich meine, das ist ja schon noch mal krass. Ich meine, damit hat ja Facebook ein Riesenproblem, so personalisierte Werbung auszuspielen. Aber wenn du natürlich am Ende für deine User diesen ganzen Content, also da wirklich im Endeffekt AI Chat-Konversationen nutzen kannst, personalisierte Werbung zu machen und irgendwie unterhältst du dich über privateste Dinge mit diesen AIs. Das ist... Ich meine zum Beispiel ein Profil, das ich auch gesehen habe, es nennt sich Cook with Max, der hat auch so Reels und Bilder von irgendwelchen Rezepten. Und stell dir mal vor, du fragst den irgendwie in den Kommentaren unter einem Reel oder generell so Hey, wie kann ich das machen? Und dann schreibt er dir das Rezept dazu und empfiehlt dir, genau den Reis von Onkel Benz zu kaufen. So. Das ist ja, das ist. Ja. Erinnere mich ein bisschen, da habe ich heute mit meinem Arbeitskollegen über die App Kitchen Storys unterhalten, ist ja auch so eine Apple gefeatured App über das Kochen und die ja auch komplett damit ihr Geld verdienen, dass sie einfach in den Rezepten, die machen super schöne Bilder und da Product Placement in den Bildern drin und das ist ihr komplettes Businessmodell. Und ich meine, wenn du am Ende wirklich eine AI kannst du ja für alle Nischen schön abbilden, dass duUnd es ist ja so oder so auch gerade so die Influencer, die irgendwelche Nischen abbilden und die verdienen ja eigentlich das meiste Geld auch mit ihrer Werbung, weil so getargeted wie du irgendwie bei Influencern Werbung schalten kannst, die wirklich eine Nische bedienen. Da ist manchmal jemand, der irgendwie 2 Millionen hat und in die Breite geht, verdient nicht so viel Kohle damit mit einem Zehntel der Follower und dafür super nischig. Das ist jetzt hier mit den AIs noch mal ein ganz anderes Niveau. Ja, vielleicht noch ein kurzer Kommentar zu den AI Stickern. Ich weiß nicht, ob du das mitbekommen hast, aber Venture-Beat hat einen sehr interessanten Artikel darübergeredet. Also wie du erzählt hast, man kann jetzt so Stickers auf Instagram oder Messenger erstellen über einen Text-Prompt. Und da gibt es, sage ich mal, interessante Möglichkeiten. Also hier das Beispiel einfach, die haben Valoïci Reife eingegeben und du kriegst halt einen Valoïci von Super Mario, der eine Pistole in der Hand hat. Und es gibt aktuell scheinbar keine, sage ich mal, Gartrails oder Limitierungen, was du darüber stellen kannst. Es gibt auch Beispiele von hier, ein Child Solder, wo du danndu wirklich ein Kind hast mit einem Gewehr oder Karl Marks, Larch Press, und du kriegst so einen Sticker mit Karl Marks in so einem Art Weihnachtsmann Kostüm, der dann riesen Brüste hat, ist eventuell nicht wirklich hilfreich, weil man auch durch, sage ich mal, einen starken Bias darin sehen kann. Oder hier hat einer irgendwie Human Cacing Dog und dann kriegst du halt wirklich einen Mensch, der einen Hund küsst. Aberalso es ist. Sehr viel. Aber interessant, dass sie da gar keine gar keine gar keine Gar-Rates dafür haben. Weil wie kann es sein bei den Stickern? Also gehen Sie davon aus, dass die Leute es dort nicht schreiben oder warum lassen sie es dazu? Wird ja hoffentlich eher nur ein. Anpassung gewesen sein. Ja, oder man hat einfach nicht drüber nachgedacht und musste also Zeitdruck. Ich meine alles wurde auf der Meta Connect vorgestellt, also deren jährliche Konferenz, glaube ich. Vielleicht weil sie dachten, es ist eh nicht fotorealistisch und so. Vielleicht wird deswegen nicht so ganz drauf geschaut und so, weil es ja schon eher die Comic-haften Sticker sind und deswegen so ein bisschen lässig, fairer damit umgegangen wurde. Aber ich meine, das wird ihnen ja auf die Füße fallen, hoffentlich. Ja, mal schauen. Wir lassen es mal so stehen. Probiere es aus. Ich habe die Eisdecker noch gar nicht selbst ausprobiert. Aber sind die... Also ist es, ich dachte, dass das auch nicht EU wäre, aber... Oder habe ichIch glaube, ich gehe mal stark davon aus, dass das auch nicht in der EU ist. Ach, in der EU leben. Hat andere Vorteile. Ja, wir haben mit den Themen wirklich angefangen, indem wir uns verquatschen können. Den Rest müssen wir in Kürze abhandeln. Lass uns mal neue Lerche Language Models machen. Wir haben Leo LM und wir haben Mistual AI. Willst du einen Satz zu was erzählen? Genau. Also Leo LM ist ein sehr, sehr interessantes Modell für alle Zuhörer, da es Deutsch spricht. Leo LM wurde trainiert in einer Zusammenarbeit von Piaun Plüster, Christoph Schumann mit Leon und dem Hessen AI Team. Piaun und Christoph sind an der Uni in Hamburg tätig. Ich weiß nicht genau welche Uni und Leon ist ja, sage ich mal so ein gemeinnütziger Verein, der sehr, sehr viel im Open Source AI Bereich macht, der auch in Deutschland, sage ich mal, zu Hause ist. Und Hessien AI ist eine neue oder relativ neue Organisation, die zusammen mit der Uni Darmstadt einen Supercomputer gebaut, gekauft, ich weiß nicht ganz genau, hat. Und gemeinsam haben sie Lama 2, 7 und 13 B auf Deutschem Text weiter trainiert, sodass es besser in Deutsch ist. Also sie haben das existierende Lama Modell von Meta genommen, 65 Milliarden deutsche Tokens genommen und das Modell auf 128 A100 trainiert. Das Base Modell. Außerdem haben sie noch ein Chat Modell erstellt, welches man auf Hacking Faces auch testen kann. Ich glaube wir können bestimmt die Demo in die Shownotes packen. Und zusätzlich haben sie noch englische Benchmarks versucht ins Deutsche zu übersetzen, einfach, dass man auch deutsche LLMs evaluieren kann, was ich sehr, sehr, sehr cool fand. Und ich habe dann auch mal vorher noch kurz getestet, ob ich Daniel 13b fragen kann, was es denn genau so über den über den Podcast Programmierbar mir erzählen kann. Und ich habe eine relativ interessante Antwort bekommen. Spannend. Ja, der Podcast Programmierbar ist ein wöchentlicher Podcast, der von dem Team hinter der Website HTTTP-Programmierbar. De -das ist leider schon mal falsch -produziert wird. Die Website ist eine Plattform für Programmier Tutorials und Artikel, die sich hauptsächlich auf Webentwicklung konzentrieren. Der Podcast behandelt ähnliche Themen, diskutiert jedoch die Themen auf eine freundliche und zugängliche Art und Weise. Jetzt kommt das Beste. Nicht nicht entsetzt sein. Der Podcast wird von drei Moderatoren geleitet Martin, René und Juliane. Die drei sprechen über aktuelle Ereignisse und Entwicklungen in der Technologie, teilen ihre Gedanken zu neuen Tools und Frameworks und unterhalten sich mit interessanten Gästen aus der Entwickler-Community. Und da geht. Es noch ein bisschen weiter. Immerhin, ein Fall finde ich ganz falsch. Martin war in den ersten... Wir haben ja die ersten 20 Folgen, sind die einzigen Folgen, die wir von der Programmierbar offline genommen haben. Damals hießen wir auch noch Mobilfunk. Da war ein Martin mit dabei. Aber ja, aber es ist schon sehr viel Halluziniert. Leider. Ich denke, da muss man noch ein bisschen an der Reichweite von der Programmierbar arbeiten. Vielleicht schafft es dann ins nächste Modell, sage ich mal. Ja, wir müssen einfach eins feintunen, nur damit es auf jeden Fall die Informationen über Programmierbar kann. Aber es ist, sage ich mal sehr sehr cool, vor allem für die deutsche Community. Ich habe auch mit Pion gesprochen. Sie wollen weiter Zeit und Ressourcen investieren. Sie schauen, ob sie Lama 70B trainieren können und wollen definitiv auf besseren und mehr Daten noch trainieren. Also können wir da definitiv noch bessere Modelle erwarten. Und das Coole wie bei allen Lama Modellen ist, dass ich die feintunen kann auf meinen eigenen Daten. Das heißt, selbst wenn es aktuell haluziniert, ich kann es auf meinen Use Case feintunen und sollte bessere Ergebnisse bekommen als sag ich mal bisherigen LLMs. Sehr cool. Dann packen wir auch in die Shownotes. Auch Link gibt auch einen Hacking-Phase Playground dafür. Mit Leo M. Packen wir auch in die Shownotes. Mistual AI hatten wir auch noch gar nicht drüber gesprochen, hat auch ein neues Modell rausgebracht. Hast du ein paar Facts zu Mistual AI? Ja, super kurz. Mister AI Startup aus Paris oder Gründer, ehemalige, sag ich mal, Erschaffer von Lama 1 und von Deep Mind haben jetzt das erste Modell vorgestelltDas ist ein 7 Milliarden Parameter Modell. Apache 2.0 Lizenz ist scheinbar besser als Lama 7B, also das zweite Lama 7B und oftmals besser als Lama 2.13B. Also ein sehr, sehr gutes Modell. Es soll gut auch beim Programmieren sein. Man weiß nichts über die Trainingsdaten, man weiß nichts, welches Datensatz benutzt wurde und man weiß nicht, ob, sage ich mal, Dekontaminierungsprozesse durchgeführt wurden für die Evaluierung. Man weiß nicht, ob sie aktiv die Benchmarks aus den Trainingsdaten herausgefiltert haben oder nicht. Da die Schwierigkeit immer ist, wenn ich auf meinen Benchmark trainiere, dann bin ich natürlich gut. Und da man halt leider gar nichts darüber weiß, ist es so ein bisschen so ein großes Fragezeichen. Man hat schon der, sage ich mal, Open Source Community probiert, die Dinge wirklich zu evaluieren und rauszufinden, ob das true ist oder nicht. Und scheinbar ist es wirklich ein sehr, sehr, sehr gutes Modell nach dem aktuellen Stand. Okay, aber weiß man was dazu, warum sie darüber gar nichts teilen? Ich meine, wenn es ein Open Source Modell am Ende ist, warum sie denn darüber das. Nicht so viel … Nein, keine Ahnung. Gut, es sind noch ein paar Leute, die Geld investiert haben. Vielleicht sind es auch ein paar Anforderungen an das Geld gewesen. Ja, cool. Weil du gerade gemeint hast, das ist gut im Coding. Vielleicht dazu kurz noch als kleine Sidenote: Es gibt ein To Local Pilot geschrieben von Daniel Groß oder Daniel Groß. Ich weiß gar nicht, ob er zumindest in San Francisco-Methoden, dass ihr euch auf dem Mac laden könnt und Open Source Modelle ausprobieren könnt zum Ersatz für GitHub Co Pilot beispielsweise ein VS Code. Also er hat dazu geschrieben, man kann in VS Code sozusagen seine GitHub Co Pilot Konfiguration überschreiben und damit dann die Modelle nutzen, die man lokal auf seinem Mac laufen lässt. Also er hat in seinem Beispiel was mit dem Apple M2 Max, also wenn ihr einen der großen habt, probiert es mal aus. Die Performance zumindest mit einigen der Modellen scheint auf jeden Fall ziemlich gut in seinem Beispiel. Irgendwie waren es CodeLarma, Mistual 7B war schon auch direkt mit drin in seinem Beispiel, also CodeLama 7B und 34B. Und man kann natürlich weiterhin einfach auf GitHub Cloud setzen, sozusagen switchen zwischen lokal als auch in der Cloud. Und ich meine, einerseits ist es natürlich einfach cool, das Ganze lokal zu machen. Beispielsweise Use Case auch so, kennt der eine oder andere bestimmt Programmieren im Flieger oder ähnlichem, also irgendwo, wo man nicht die Möglichkeit hat, mit einer Internetverbindung das Ganze zu machen. Auf jeden Fall cool, dass mit einer Performance, die adäquat ist, weil ich meine, wenn man am Ende zu lange darauf warten muss, bringt es ja nicht mehr so viel, lokal laufen zu lassen. Auf jeden Fall cooles Tool, check es mal aus. Cool, dann zum Abschluss noch Amazon Badrock. Hat Badrock rausgebracht? Was ist Badrock? Ja, Badrock ist schon länger bekannt gewesen. Badrock ist die Antwort von AWS zu der Partnerschaft zwischen Open AI und Microsoft. Und Badrock ist sozusagen ein Full Managed Service zum Arbeiten mit Foundation Models. Und man hat sozusagen über Badrock die Möglichkeit, LLMs zu nutzen und zahlt per Token. Und die LLM Providern gehören aktuell an Tropik mit ihren Cloud Modellen, KURIER mit ihren Modellen, Stability AI mit Stability Fusion, also man kann auch Bilder generieren. Man hat AI 21, also ein israelisches Startup mit mit LLMs und dann hat Amazon selber noch zwei Modelle, die man zur Verfügung hat und es ist letzte Woche G. A. Gegangen. Das heißt jeder, der einen Amazon Account hat oder einen AWS Account hat, kann auf Bedrocks nutzen. Allerdings man muss sich freischalten lassen. Also man kann den Bedrockservice aufmachen. Man hat dann aber keinen Zugang zu irgendeinem Modell und muss sozusagen erst anfragen, ob man Zugang bekommt. Bei mir ging das relativ schnell. Ich weiß nicht, ob das vielleicht Glück war, weil ich gleich am Anfang auf Request oder Request Access geklickt habe. Was noch ganz interessant ist, was man vielleicht teilen kann. Im Zuge dessen habe ich mir die Preise angeschaut, wie sage ich mal die Preise von Betrox sind im Verhältnis zu Azure Open AI, zu Open AI an sich oder auch zu Open Source Providern, die Lama zur Verfügung stellen und eine ganz coole Tabelle erstellt. Ich glaube, die können wir auch mit reinpacken. Ja, dann packen wir die ShownotesUnd würdest du sagen, also Use Case für so was wäre dann in erster Linie einfach, wenn ich sozusagen meine Daten wirklich bei mir in meiner Cloud haben will und das NLM einfach nicht wirklich on-premise ausführen will und nicht aus der Cloud nutzen will. Was wäre der Vorteil von einem bestehenden Modell selbst zu hosten oder wäre Pricing wirklich ein Vorteil davon? Also Pricing ist definitiv ein Vorteil am Anfang, weil ich wirklich nur zahle für das, was ich nutze. Der Vorteil ist gegenüber, sage ich mal, Open AI ist, dass ich es in meinem Amazon-Account habe. Also wenn ich AWS nutze, kann ich über PrivateLink sicherstellen, dass meine Daten nicht das AWS Netzwerk verlassen und nicht ins Public Internet rausgehen, sozusagen. Man hat Zugriff auf Modelle wie Cloud, die sonst in Europa aktuell nicht zugänglich sind. Also die API von Cloud oder von Anthropic kann man jetzt in Deutschland über Badrock nutzen. Und dann natürlich, es gibt halt Models, die nicht Open Source sind. Also Cloud und Co hier und auch die von Amazon sind alle nicht Open Source und man zahlt halt per Token. Das heißt, man kann super gut anfangen, Dinge ausprobieren und hat nicht diese Investitionskosten von ein paar tausend Euro. Was halt immer sehr cool ist, definitiv zum Evaluieren. Und man kann, ich habe mir die, sage ich mal, die die Terms of Service ein bisschen angeschaut, die Daten gehören nicht dem Provider. Das heißt, wenn ich sozusagen den Output generiere mit einem Input, dann hat der Provider keinen Anspruch auf diese Daten. Das heißt, ich kann es auch rein theoretisch nutzen, Evaluierung durchzuführen, synthetisch Daten zu erstellen, wo ich dann kleinere Modelle feintunen kann, also dass ich sozusagen den Vorteil der großen Modelle nutzen, synthetisch Daten zu generieren und das Wissen in so ein kleineres Modell packen und das dann produktiv zu nutzen. Nice, dann einmal zum Badrock Pro jetzt aus. Vielleicht habt ihr genauso viel Glück wie Philipp, da reinzukommen. Dann haben wir es doch noch geschafft in nur zehn Minuten drüber. Philipp, vielen Dank für deine Zeit mal wieder. Wir haben ja vor uns über mysterial AI unterhalten, die in Paris sitzen. Für dich geht es jetzt auch nach Paris. Wir haben jetzt nämlich freitags, mittwochs bringen wir es raus. Normalerweise sind wir immer super zeitnah an dem Release. Also falls innerhalb von Freitag bis zum Release am Mittwoch irgendwelche neuen AI News kommen, die so heiß sind, Warum habt ihr nicht diskutiert? Seht es uns nach. Wir sind ein bisschen vor der Zeit, diesmal. Dann Philipp, viel Spaß in Paris und wir hören uns in zwei Wochen wieder. Dankeschön. Wie immer Feedback an podcast@programmier. Bar. Ciao, Ciao. Ciao.

Cloudflare AI - Serverless Workers, AI Gateway, Vector DB // Meta AI // LeoLM // Mistral AI 7B // LocalPilo

Shownotes

Speaker Info

Philipp Schmid

Verwandte Podcasts

News 16/25: Firebase Studio // Zod 4 // CVE-Ende // AI Code Interviews

Deep Dive 173 – Prompt Injection mit Georg Dresler

News 06/25: Apples neue App // JavaScript Temporal // Web AI Acceleration Fund // Angular Dokumentation // Ross Ulbricht // Bitcoins in El Salvador

News AI 05/25: Deepseek r1 & Markt // OpenAI Tasks // OpenAI Operator / UI-TARS / browser-use // Trae // Gemini 2.0 Flash Thinking

News 04/25: 21st.dev // Evo // Apple Intelligence // Stargate // TikTok

News AI 03/25: Nvidia Digits & Cosmos // Sky-T1 // Codestral 25.01 // vdr-2b-multi-v1 // moondream

Rückblick auf 2024

News 48/24: Tate ohne Security // Google ohne Chrome // JavaScript ohne Trademark // App Store mit Awards // CSS mit Logo

News 46/24: Oasis // Arc 2.0 // M4 MacBook Pro // DORA Report

News 40/24: OpenAI Dev Day und mehr // Wordpress und Open Source // Meta Connect 2024 // Deno 2.0