Deep Dive 191 –

Text-to-Speech mit Thorsten Müller

16.09.2025

// Podcast
// Deep Dive 191

Shownotes

Immer mehr Geräte um uns herum sprechen mit uns. Was mit Screenreadern und Navigationssystemen begann, findet heute in unseren Wohnzimmern und Hosentaschen mit Alexa und Siri statt. Doch wie lernen Computer eigentlich zu sprechen? Und lässt sich sogar die eigene Stimme klonen?

Darüber sprechen wir mit Thorsten Müller, dem Macher und der Stimme hinter Thorsten-Voice. Die Besonderheit an dem Open-Source-Projekt: Sprachausgabe wird hier lokal erzeugt, komplett ohne Cloud-Dienste. Es ist auf Grundlage Thorstens eigener Stimme trainiert und damit frei von rechtlich problematischen Trainingsdaten.

Thorsten erzählt, was er beim Aufbau des Projekts gelernt hat und gibt Tipps für alle, die selbst mit Sprachsynthese experimentieren wollen. Gemeinsam werfen wir einen Blick auf die rasante Entwicklung der künstlichen Sprachausgabe. Neben Podcasting gibt es spannende Anwendungsfälle quer durch den Alltag.

Download

/transkript/programmierbar/deep-dive-191-text-to-speech-mit-thorsten-mueller

Jan: Hallo und herzlich willkommen zu 1 neuen Deep Dive Folge hier in der programmier.bar. Wir sprechen über ein Thema, das ihr alle schon mal hättet hören können, wenn ihr bei uns auf dem Meetup wart.
Garrelt: Wieso guckst Du jetzt mich an?
Jan: Wir hatten vor, oh Gott, ist schon einige Wochen jetzt her, Thorsten zu Gast, über Text zu Text zu reden, schwieriges Thema. Wir sagen einfach nur noch TTS. Wir haben gedacht, das war so interessant und spannend, das wollen wir euch da draußen nicht vorenthalten. Deshalb darf ich zuallererst zurück begrüßen, den Thorsten. Hallo Thorsten.
Thorsten: Gute Morgen.
Jan: Und den Garit natürlich auch, der jetzt initial zum allerersten Mal sich mit dem Thema hier beschäftigt bei uns.
Garrelt: Ja, das ist
Jan: Live in der programmier.bar on air.
Garrelt: Deswegen bin ich auch sehr happy, in diesem Podcast mit dabei zu sein.
Thorsten: Das freut mich.
Garrelt: Und ich kann jetzt noch die richtig dummen Fragen stellen, die die kannst Du jetzt schon nicht mehr stellen.
Jan: Also man jetzt noch dumme Fragen als ich schon stelle.
Garrelt: Ich probier's. Das klingt so
Jan: als wär das richtig schwer noch dumme Fragen zu stellen.
Thorsten: Oh, jetzt merke ich aber schon den Erwartungsdruck, wenn Du jetzt ankündigst, ich stell nur die ganz einfachen dummen Fragen und ich nachher stolpere und die Frage nicht beantworten kann. Das lässt mich halt echt schlecht aussehen.
Jan: Also Das schneiden wir dann raus.
Thorsten: Ja, das find ich sehr gut. Das find ich
Garrelt: sehr gut. Das find ich nicht, was für Fragen das sind, die werden kinderleicht.
Thorsten: Ja, alles gut. Cool.
Jan: Thorsten, vielleicht bevor wir über das richtig Eingemachte sprechen, vielleicht willst Du uns einmal kurz erklären, wie Du überhaupt zu diesem Text to Speech Thema gekommen bist und warum das dich so begeistert, weil das ja auch der Grund, warum wir dich gefunden haben am Ende.
Thorsten: Ja, tatsächlich ist ja, also Tax to Speech TTS ja 'n sehr nischiges Thema. Das hat mich aber schon, ich sag mal, das Thema Sprachsteuerung und Sprachtechnologie im Allgemeinen hat mich schon sehr früh fasziniert. So so, ich sag mal, Kindheits- oder Jugendzeiten, da waren das immer noch Hollywood Science Fiction, da waren das so Serien wie Star Trek oder Knight Rider, wo's normal war, dass eben Menschen per Sprache mit Technologie interagiert haben. So, ich hab auch als Jugendlicher versucht, das irgendwie mal hemdsärmelig nachzubauen, bin grandios gescheitert jetzt
Jan: Ohne ohne es zu unbequem zu machen für dich, aber wenn Du sagst als Jugendlicher, wir müssen das zeitlich son bisschen einordnen, damit die Leute wissen, was da so der technische Rahmen damals war.
Thorsten: Also das heißt, Du meinst jetzt sagen, dass ich hier der Älteste im Saal bin? Also ich geh auf die 47 zu, also meine Jugendzeit liegt 'n bisschen länger zurück als eure, wenn ich mich so umgucke bei euch.
Jan: Ja, ganz marginal. Ja.
Thorsten: Nein, also das war natürlich, ich sag mal so, ohne jetzt auf auf die Details da einzugehen, aber ich sag mal so natürlich Anfang der Neunziger rum, wo ich dann auch die Technische versucht hatte, das son bisschen zu programmieren und dann irgendwie versucht hab, mit irgendwelchen Mikrofonen so Aufnahmen zu machen und Audiokurven und da noch auch primär versucht, diesen Spracherkennungsaspekt. Wie gesagt, ich bin dann halt auch grandios gescheitert, a, hatt ich das Wissen nicht, b, war die Technologie natürlich auch damals noch weit nicht da, wo sie jetzt Stand heute ist. Und hab das dann auch verworfen, das Thema. Also die Faszination war zwar immer da, aber das Thema an sich hat dann keinen keinen Stellenwert mehr bei mir gehabt. Kam dann erst wieder auf, als ich glaub, Apple waren die Ersten, die mit ihrem ja, auf ihrem iPhone. Ich will jetzt das den Namen nicht unbedingt nennen, weil sonst triggern vielleicht das ein oder andere Gerät. Aber da gab's ja auch diesen Frauennamen, der quasi die KI von Apple getriggert hat. Und da ist mir zum ersten Mal wieder bewusst geworden, wow, was vor einigen Jahrzehnten dann Fiktion war, Hollywoodfiktion, Das hat das Potenzial jetzt zu funktionieren. Und dann kam ja auch Amazon mit ihrem ganz, ja, bekannten
Jan: Anderen Frauennamen.
Thorsten: Anderen Frauennamen, genau. Und die haben mir wirklich gezeigt, oh, die Technologie hat diesen Sprung jetzt geschafft, dass wir nicht mehr von Hollywood Fiktion reden. Und da hat mich das gepackt, das heißt, das will ich jetzt noch mal selber auch ausprobieren.
Jan: Weißt Du, ob das son reines Computing Power Problem war oder ob's da irgendwelche wissenschaftlichen Durchsprüche gab, die einfach Spracherkennung so viel einfacher gemacht haben?
Thorsten: Na ja, gut, also ich mein das Thema, also ich spiel jetzt keinen hab jetzt keinen wissenschaftlichen Background, deswegen man möge mir verzeihen, wenn ich da jetzt nicht die Details habe, aber das Thema neuronale Netze auf der Theoriegrundlage ist ja jetzt nicht so wirklich neu. Ja, genau. Was halt gefehlt hat, wie Du sagst, so schön war natürlich Comput Power und was gefehlt hat, waren auch die Trainingsdaten. Mhm. Ne, also als dann irgendwie Mitte des letzten Jahrhunderts gefühlt das zwar theoretisch bekannt war das Konzept, waren natürlich noch lange nicht diese vielen Trainingsdaten, die wir heute durch Internet und durch viel Content und so weiter haben. Das hat natürlich gut geholfen, dass man eben diese Trainingsdaten hat.
Garrelt: Waren das dann hauptsächlich auch Trainingsdaten von zum Beispiel Siri und Alexa?
Jan: Oh Gott, jetzt
Thorsten: Jetzt klingelt's über einen, ja.
Jan: Beschwerden bitte an.
Garrelt: Ach so, weil das dann zu Hause ist. Ich dachte, Du meinst hier im Raum.
Jan: Nein. Zu Hause.
Garrelt: Okay, das tut mir leid.
Thorsten: Okay. Gut, das kann natürlich sein, dass es, also ich hoffe, es hören doch mehr, als wir heute in dem Raum hier da sind. Also insofern, ja. Ja. Na Du, wenn Du's jetzt angesprochen hast, also das war natürlich, also ob das jetzt Alexa oder Siri, das war das, was mich wieder getriggert hat sozusagen. Ich dachte, wow, früher Fiktion, heute Realität. Mhm.
Jan: Und
Thorsten: da hatt ich aber auch nicht das Wissen, was jetzt die technologische Grundlage war. Also wie gesagt, neuronale Netze und Trainingsmaterial und KI und und diese technologischen Frameworks, die kamen, ja. Mich hat's technologisch gepackt, aber ich hatte son bisschen zu Beginn diese Datenschutzbedenken. Ich hatte, ich find's vom Engineering total toll. Aber mich hat's gestört, dass halt alle Sprachverarbeitung, also sowohl die Erkennungsseite, also die Eingangsseite als auch die die Ausgabeseite, dass das alles cloudbasiert war. Und ich wollte gerne sozusagen gerne 'n Sprachassistenten haben, den ich zu Hause lokal betreiben kann, aber wo die Daten im Prinzip auch lokal bei mir in der eigenen, im eigenen Netzwerk oder im eigenen Dach bleiben. Und da wurde das dann schon schwierig. Und dann hatte ich damals, das muss ich aufpassen, weil wenn ich dazu erzähle, dann neige ich zu etwas auszuufern. Insofern wirkt mich bitte ab, wenn ich da ausufere. Damals gab's 'n Projekt von 'ner US Firma namens Minecraft. Die hatten sonen Open Source Ansatz für den Sprachassistenten gehabt, wo auch hieß, dass die Privatsphäre ist ganz groß. Und ich hab das dann versucht und das war auf Deutsch eine Katastrophe. Also auf Deutsch hat das überhaupt nicht funktioniert. Auf Englisch war's okay, auf Deutsch war's ganz schlimm. Hab dabei gesehen, grade bei diesem Text to Speech, bei dem TTS Aspekt, man kann seine eigene Stimme sozusagen digitalisieren oder klonen, wie man's auch immer nennen will, und kann die als Stimme des eigenen Sprachassistenten verwenden. Und das hat den Geek in mir so was von angesprochen, dass ich dachte, warum? Ob ich natürlich im Alltag will, dass man Sprachassistent klingt wie ich, ist eine andere Frage. Aber von der Idee her fand ich's total schön und spannend als Projekt. Und hab das aber massiv unterschätzt und dachte, na ja, da wirst Du 2, 3 Sätze aufnehmen. Dann wirst Du eine tolle, ausgereifte Software haben, eine schöne Oberfläche. Da drückst Du zweimal weiter weiter fertigstellen, holst dir 'n Tee und dann hast 'n tolles KI Sprachmodell. Und das war überhaupt nicht der Fall. Also ich hab da komplett danebengelegen. Ja, und da war sozusagen die Faszination war gesetzt, aber es war durchaus eine herausfordernde Weg, muss ich sagen.
Garrelt: Du redest aber davon, dass Du diese Software, die Du grad beschrieben hast, selber bauen wolltest, also dass Du das ermöglicht, dass man seine Stimme als Assistent haben kann?
Thorsten: Also ich wollte sie nicht selber bauen. Dafür reichen meine Programmierskills auch wahrscheinlich gar nicht aus. Aber ich hab natürlich gesehen, es gibt Open Source Projekte, die eben diese Technologie, das war damals, also 20 19 hab ich mit dem Thema son bisschen intensiv begonnen. Da war's so, dass damals von Google ein Framework Open Source gestellt wurde für Machine Learning, das hieß Taggetron. Erst in der Version 1, also für Text to Speech, dann in der Version 2. Und dieses Projekt und diese Firma Microsoft, die haben eben dieses Taggetron Framework in ihre Open Source Komponente eingebaut, Mhm. Sodass ich als, ich sag mal, aus Anwenderperspektive damit arbeiten konnte. Mhm. Aber ich hab halt unterschätzt, weil ich dachte, ich bin da wirklich der reine Anwender, der da jetzt im Prinzip einfach das nutzt. Aber wie das wie das bei Open Source auch manchmal halt ist, ist es dann schon grad in den früheren Stadien auch sehr viel noch mit Trinerror verbunden. Mhm. Ja.
Jan: Wer sind denn so diese großen Namen in diesem Text zu speech game? Also natürlich sind bestimmt da Amazon, Google, Apple, also alle, die so Sprachassistenten irgendwie machen, ja, dann wahrscheinlich alle, die irgendwie Navigationssoftware bauen, vielleicht gibt's das ja auch häufig, aber wen gibt's da denn vielleicht noch, an dem man vielleicht nicht so nicht so denkt?
Thorsten: Also es gibt natürlich auf also neben den großen US, meistens US Cloud Anbietern, Microsoft hat ja auch KI Stimmen, Apple, Amazon. Was auch oft genutzt und genommen wird, ist Eleven Labs, was auch eine cloudbasierte Firma ist, die aber ihre Technologie, soweit ich weiß, nicht Open Source gestellt hat. Nee. Aber den Namen hört man ja auch relativ häufig, wenn's Text to Speech geht jenseits der US Cloud Anbieter. Ansonsten gibt's natürlich sehr viele kleine Open Source Projekte, beispielsweise Pipere Text to Speech wird auch mittlerweile in Home Assistant, also diese Smarthome Software verwendet. Ja, also da gibt's unglaublich viele Projekte und es ist auch momentan tatsächlich eine so schnelllebige Zeit. Also wenn heute, also ich find's ja fast schon anstrengend, ich hör ja so oft State of the Art oder 'n Wort, was ich kaum noch hören kann, ist Gamechanger. Ich weiß schon gar nicht mehr, welches Spiel wir eigentlich gespielt haben. Haben. Also es ist unglaublich schnelllebig die Zeit, dass sehr schnell auch in diesem Texas Beat Umfeld neue Frameworks kommen, neue Projekte kommen, verschwinden teilweise auch sehr schnell wieder oder ja, das ist ein sehr schnelllebiges Geschäft momentan.
Jan: Ich meinte meine Frage eher son bisschen darauf abgezielt als so aus Anwendersicht. Also wer wer braucht denn Text to Speed da draußen? Überhaupt, wer hat denn son Interesse daran, das quasi weiterzuentwickeln?
Thorsten: Ja, okay, dann hast Du natürlich genau richtig gesagt, zum Beispiel klassisch Navigationssysteme, die eine Sprachausgabe haben, Sprachassistenten, also Nutzende von diesen Technologien. Smarthome ist auch 'n großes Thema, dass man künstliche Sprachausgabe hat, klassisch zum Beispiel Sprachaussage, wenn ich sag, ich hab Lautsprecher im Wohnzimmer und da kommt dann die Ansage, Achtung, es fängt an zu regnen, bitte schließ im Badezimmer das Fenster. Also das ist so Anwendungsfälle. Da kann man jetzt natürlich sagen, das ist alles nice to have. Das sind auch vielleicht schöne, ich würd's jetzt klein machen, Spielereien an vielen Stellen natürlich. Aber 'n ganz wichtiger Aspekt ist natürlich auch das Thema Barrierefreiheit, ja? Weil da reden wir nicht nur von nice to have, da reden wir wirklich von Lebensqualität und Komfort. Grade so Screenreading ist natürlich 'n wichtiges Thema. Und wenn ich da gucke, wie sehr roboterhaft teilweise diese Screenreader, weil dann natürlich auch die Performance eine ganz große Rolle spielt, ne, das ist immer dieser Kompromiss. Nicht jeder, der drauf angewiesen ist aufm Screenreader, hat zu Hause 'n riesen Rechenzentrum, was Grafikleistung und KI Rechenleistung bereitstellt. Es muss halt auch aufm kleinen Laptop schnell funktionieren und das hat dann sehr schnell auch Kompromisse an die Qualität. Und ich hatte auch schon mich mit Menschen ausgetauscht, die eben Beeinträchtigungen im Sehen haben, die blind sind. Und wenn die mir teilweise ihre Stimmen davorspielen, dann find ich's schon schwierig. Also natürlich ist es teilweise alternativlos in dem Fall, aber die Qualität ist schon sehr anstrengend. Mhm. Also ich
Garrelt: Da ist das Zuhören dann allein schon anstrengend. Ja. Ja.
Thorsten: Also wenn man dann überlegt, dass diese roboterhafte Stimme, wie sie vielleicht vor einigen Jahrzehnten noch State of the Art, das Wort jetzt noch mal noch zu prägen, war, dass man die heute, wo man eigentlich andere Stimmqualitäten gewohnt ist, noch über viele Stunden vielleicht hört, das ist schon mitunter anstrengend.
Garrelt: Ist das immer noch so? Also hat sich da noch nicht so viel getan, dass Screenreader da mal bessere Stimmen zur Verfügung stellen?
Thorsten: Ja, jein. Also es ist tatsächlich noch so, dass viele Screenreader noch die alten, klassischen Stimmen haben, ja. Ich weiß, dass dieses Projekt, was 'n Open Source Text- und Speed Projekt ist, dass das auch funktioniert in der sogenannten NVDA, das ist die Non Visual Desktop Access. Also Also das ist so eine eine Technologie oder eine ein Framing für eben Barrierefreiheit, dass das da die Stimmen integriert sind. Und die sind halt deutlich besser in der Qualität, aber auch ein bisschen rechenaufwendiger, aber immer noch in 'nem Rahmen. Also es ist immer noch verhältnismäßig okay.
Garrelt: Cool. Eine Anwendung, die mich damals auch extrem begeistert hat, war, Google hat das mal vorgestellt, dass Du so automatische Anrufassistenten hast, die, wenn Du angerufen wirst und nicht drangehen, dann zum Beispiel sagen, hey okay, die Person kann grad nicht drangehen. Oder auch Anrufe für dich tätigen. Das fand ich son Bereich, den ich extrem spannend finde. Und wir haben zum Beispiel auch gerade unsere Telefonanlage oder experimentieren damit, unsere Telefonanlage umzustellen, dass wenn Leute anrufen, sie erst mal son Assistenten bekommen. Und das finde ich schon
Jan: Also zu Hause?
Garrelt: Nee hier, bei der
Jan: Ja so, ja okay, das weiß ich, dachte brauchst Du zu Hause an der Telefonnummer?
Garrelt: Ja, wir kriegen so viele Anrufe. Ja. Nee, aber das finde ich, das finde ich eine spannende Anwendung. Also irgendwie 'n Spannen zwischen, es funktioniert so gut und es fühlt sich irgendwie auch echt an, aber irgendwie auch, okay, es ist halt keine echte Person und das ist so immer son bisschen, wann wird's so echt, dass ich mich fragen muss, ob ich jetzt noch mit 'ner echten Person spreche, ne? Und möchte man das überhaupt irgendwann? Das ist so für mich immer eine Frage, die in diesem Thema mit drinhängt.
Thorsten: Ja. Ja, das ist tatsächlich auch 'n 'n 'n spannender Punkt. Ich glaub, ich hatte auch mal sone Keynote von Google gesehen, da haben sie das so vorgestellt, wo dann, glaub ich, der Mensch gesagt hat, hey, reservier doch mal irgendwie 'n Tisch in 'nem Restaurant. Und dann hat dieser Assistent sozusagen da angerufen und hat dann mit dem Menschen am im Restaurant 'n Termin ausgemacht und gesprochen. Das war sehr beeindruckend, was ich dann spannend fand. Und ich glaub, das war auch sone kleine Diskussion im Nachgang, diese künstliche Stimme hat auch geräuspert oder hat auch mal ein eingebaut. Ja. Wo die Frage war, möchte man das eigentlich? Warum kann sich die KI nicht einfach wie eine KI verhalten? Warum muss die die menschlichen Eigenarten so konkret nachahmen? Und das ist auch tatsächlich 'n spannender Punkt, den Du ansprichst, weil Du früher war klar, wenn Du mit soner Bandansage gesprochen hast, mit soner KI Stimme, wusstest Du, das ist 'n Roboter, das ist eine Maschine und so. Die Zeiten sind ja, muss man jetzt ja sagen, bis 20 25, die Zeiten sind rum. Also richtig gut gemachte KI Stimmen kannst Du nur noch sehr, sehr schwer unterscheiden von echten Stimmen.
Garrelt: Mhm.
Thorsten: Und auch jetzt durch diese durch diese Integration von diesen Lunch Language Modellen und von diesen ganzen Chat Bots und alles in dieser Kombination, dass Du dich wirklich auch auf Dialogebene mit soner KI unterhalten kannst, das macht's natürlich schon herausfordernd. Wenn ich jetzt irgendwo anrufe und nicht weiß, ist mein Gegenüber ein Mensch oder eine Maschine? Standardmäßig würd ich sagen, es ist immer ein Mensch und die Maschine sollte sich sagen, Achtung, Sie sprechen jetzt mit 1 KI, ja. Vielleicht ist es aber auch irgendwie in kurzer Zeit so, dass der Standard ist, wie jetzt vielleicht bei eurer Telefonanlage der Standard ist, erst sprichst Du mit 1 Maschine und wenn die Maschine dann entscheidet oder wenn dann sich abzeichnet, dass man 'n Mensch dazuschalten will, dann kommt eben der Mensch dazu. Also das ist schon spannend, ja. Wie kennzeichnet man eigentlich, pass auf, Du redest grad mit 'ner Maschine oder Du redest mit 'nem Mensch.
Jan: Ja, aber jetzt hast Du ja schon gesagt, ne, da da sind so 2 Sachen, die da eigentlich zusammenspielen. Also zum einen werden die die Audiomodelle sozusagen immer besser und klingen immer natürlicher und zum anderen sind da halt irgendwie Sprachmodelle auf der anderen Seite, die halt den den zu erzeugenden Text halt immer immer menschlicher erscheinen lassen, so mit son bisschen Räuspern einbauen oder hier mal son r oder irgendwie überlegen, wann man mal eine längere Pause machen kann oder so. Aber das ist ja per se keine Funktion von dem Sprachmodell, also von dem Audiomodell sozusagen, ne, sondern das das wird ja dann im im Text, im Mark-up sozusagen schon vorgegeben, dass das passieren soll.
Garrelt: Ach so, ist das so? Ich dachte, das könnte son Sprachmodell würde das mit einbauen.
Thorsten: Beides. Also Du kannst natürlich, also der der Text, der erst mal gesprochen wird, kann natürlich son Large Language Modell erst mal als Text generieren, damit Du diesen Dialogeffekt hast. Aber auch so räuspern oder auch mal Lachen, also dies das ist schon Teil des KI Text to Speech Modells. Also das Ja. Ja zum Beispiel jetzt das Aktuelle, was ich jetzt für für das nächste Release, wenn man's so nennen will, für die nächsten Tests von Thorsten Vois probiere, ist das Orfeus TTS, ist auch 'n Open Source Projekt, was auf Lama als LLM im Hintergrund basiert. Und da kannst Du genau über sone Art XML Tags, also mit kleiner Zeichen irgendwie lachen oder Räuspern einbauen. Also das wird schon teilweise in den Trainingsdaten mit mit reingeflechtet oder geflochten und wird dann auch im TTS Modell verwendet.
Jan: Jetzt hast Du grad schon Thorsten Vois angesprochen. Das haben wir noch gar nicht angerissen.
Thorsten: Wir sind schon nämlich
Jan: ja 20 Minuten am Start. Erklär uns doch mal, was es ist und wie Du dazu gekommen bist und warum Du das so machst.
Thorsten: Ja, also Thorsten Voyce ist ein Herzensprojekt von mir und es ist im Prinzip eine Stimmspender, ein ein Geschenk sozusagen. Jetzt weiß ich natürlich, wie meine Stimme klingt. Ich bin kein professioneller Sprecher und ja, es gibt auch attraktivere Stimmen als meine, das weiß ich wohl. Mhm. Aber ich hab gesagt, als ich ich da 20 19 angefangen hab, mich mit dem Thema zu beschäftigen mit Open Source Sprachassistenten. Und dann hab ich gesagt oder gesehen, dass die verfügbaren 20 19 KI oder künstlichen Stimmen jetzt keine Qualität hatten, die mir wirklich gut gefallen hat. So, und dann hab ich gesagt, na ja, ich hab erst mal angefangen, meine Stimme für mich zu trainieren als KI Modell und hatte da ganz viele Fehler auch gemacht. Also ich musste hab ja einiges falsch gemacht am Anfang und hatte dann in dieser damals Minecraft Community nachgefragt und gesagt, hey, was ihr mir Tipps geben? Was hab ich falsch gemacht? Warum klingt das nicht so gut, wie ich eigentlich erhofft hätte? Und dann gab's a natürlich sehr hilfreiche Tipps, wie das immer ist, in 'ner guten Community natürlich netterweise. Und da haben Leute gesagt, hey, planst Du das eigentlich zu veröffentlichen? Und zu diesem Zeitpunkt, muss ich sagen, war ich noch gar nicht an dem Punkt, weil eigentlich war's für mich eine Geek Baustelle, 'n schönes Projekt, was ich zwar über Monate gezogen hatte. Aber ich war nicht an dem Punkt, wo ich dachte, dass jemand Interesse haben könnte an meine Stimme. Und dann hatt ich tatsächlich viel Zuspruch bekommen. Und dann hab ich für mich mal überlegt, möchte ich eigentlich wirklich meine Stimme, die ja doch was sehr Persönliches ist, möcht ich die als Open Source unter eine sehr, sehr Freigiebigen, also ich hab's am Endeffekt unter der c c 0 Lizenz freigegeben. Das bedeutet also nicht, dass KI Modell, was ich trainiert habe, sondern auch die original Stimmaufnahmen. Das sind mittlerweile über 30000 Waved Dateien, die ich in vielen, vielen Monaten privater Freizeit aufgenommen hab. Die stehen also auch zur Verfügung. Das heißt, selbst wenn sich die Technologie der KI KI Trainings Frameworks natürlich rasant entwickelt, kann man immer noch dank der CC0 Lizenz die Originalaufnahmen nehmen und neue mit neuen Technologien, die halt rauskommen, trainieren. So, Young, guckt so, als bereut er die Frage schon.
Jan: Ja, ja, nein.
Thorsten: Ich ufere 'n bisschen aus. Also Carsten Vois ist im Prinzip meine Stimme als Open Source CC 0 sowohl die Aufnahmen als auch einige von mir trainierte KI Modelle, die man eben frei verwenden kann, ohne mich zu fragen.
Garrelt: Das find ich irgendwie mutig auch. Also hast Du da keine Angst vor Missbrauch irgendwie?
Thorsten: Angst nicht. Ich hab gesunden Respekt davor, dass natürlich die Stimme auch verwendet wird, weil die Lizenz eben nicht Also man muss mich weder fragen, noch muss man schon mal gar nicht Erlaubnis bitten. Man muss mich auch nicht informieren, man muss nicht nicht verlinken. Ich freu mich natürlich, wenn mich jemand anschreibt und sagt, hey, ich benutz deine Stimme in dem Projekt oder so. Das freut mich natürlich, muss man aber nicht. Ich muss sagen, als ich dann aus dieser Community damals gehört hab, ey, planst Du, den Schmidt zu veröffentlichen? Und dann hab ich ja drüber nachgedacht, was bedeutet das, ne? Wie Du sagst, ist es was Persönliches? Hat man Angst vor Missbrauch? Und ja, natürlich sind das Argumente. Und ich hab halt für mich dann irgendwann gesagt, ja, ich glaube, dass die Art, wie Menschen mit Technologie interagieren, immer mehr sprachbasiert wird. Und ich nehme mir natürlich auch Möglichkeiten. Also das heißt, wenn irgendwann mal eine smarte Haustür existiert, die man mit der eigenen Stimme öffnen kann, das ist etwas, was ich mir jetzt genommen hab, die Möglichkeit.
Garrelt: Mhm.
Thorsten: Ja? Oder auch wenn jetzt irgend eine auf einmal irgend eine Bank sagt, hey, Du kannst dich bei uns im Onlinebanking per Stimmaktivierung einloggen, wäre das eine Funktion, die ich natürlich nicht aktivieren kann, weil ich weiß, meine Stimme ist nicht privat, sondern meine Stimme ist nun mal öffentliches Gut. Ja. Und hab dann trotz all dem gesagt, das klingt jetzt son bisschen, also durch meine meine Einstellung. Ich hab gehört, ich glaub wirklich, dass wir als Spezies eine Gutes sind. Wir können Gutes erreichen, wenn wir uns gegenseitig vertrauen und ich will einfach mit diesem positiven Mindset unterwegs sein. Ja, bestimmt gibt's auch mal missbräuchliche Verwendung oder Verwendungen im Kontext, der mir persönlich missfällt. Aber ich glaub an das große Ganze und das Gute und deswegen hab ich aus voller Überzeugung und auch jetzt, wie gesagt, das ist jetzt über 5 Jahre her, glaub ich immer noch dran, auch wenn und die Frage, falls sie kommt, ich greif schon mal vorweg, vielleicht kommt sie auch nicht,
Garrelt: dann erzähl
Thorsten: ich's trotzdem. Ich hatte zum Beispiel auch mal eine Mail bekommen von jemandem, der sagte, ich hab 'n Video gemacht mit deiner Thorsten Voice Stimme. Und da war ich natürlich erst mal froh, der glaubt, schön, dass es Verwendung findet, dass es was bringt. Hab halt reingeguckt und dann war das 'n Video. Ich sag mal was, ich hab's auch nicht zu Ende geguckt, weil das überhaupt nichts ist, was mir gefallen hat, wo jemand aus dem Dunstkreis Reichsbürgertum kritisiert hat, die Rechtmäßigkeit der Bundesrepublik Deutschland. Und wenn Du da natürlich irgendwelche Inhalte präsentiert bekommst bei Youtube, die mit deiner KI Stimme gesprochen wurden, die halt so gar nicht, also die dem eigenen komplett konträr gehen, das war schon son Moment, wo ich mal schlucken muss, ne. Ich dacht da, mhm, war das wirklich schlau? Gut, ich hab jetzt letztens mal geguckt, auch in Vorbereitung auf den tatsächlich auf das Meet-up hier vorn paar Wochen, wie Jan gesagt hat, ob das Video noch da ist, aber das Video wurde mittlerweile gelöscht. Mhm. Ja. Weiß nicht, ob's der Autor selber gelöscht ist oder ob's irgendwas anderen Gründen gelöscht wurde. Aber trotz alledem, das sind so mal so son kleiner Moment, wo man das noch mal infrage stellt, aber eigentlich würd ich's genauso wieder machen und ich hör auch viel Positives, ne. Man muss ja auch mal was Positives sehen. Ja. Mich hat beispielsweise 'n Informatiklehrheim aus Berlin angeschrieben und hat gesagt, er ist halt an der Schule und Schule und Cloud Dienste, das ist immer son bisschen schwierig. Und er hat als Informatiklehrer, wollte er sone Art, hatten schon für Telefon, son Telefoncomputer machen, wo Du halt anrufst, dann würd die Schüler was programmieren. Dann tippst Du halt, drück dir 1, dann wird das gesagt, trip die 2, dann wird das gesagt. Das waren halt entweder sehr roboterhafte Stimmen oder es waren nur statisch aufgenommene Texte. Und der sagt, dank Thorsten Vois hab ich jetzt auf meinem Schulserver sozusagen, da können wir auch was machen, liest mir die aktuelle Uhrzeit vor oder den Wetterbericht von Berlin. Also generiere eben dynamische Inhalte oder auch 'n Projekt namens Lernstick aus der Schweiz, das ist sone USB Linux Distribution, also eine Linux Distribution, die man sehr leicht aufm eigenen kleinen Laptop betreiben kann per USB Boot, wo man zum Beispiel eine einheitliche Lernumgebung und Plattform hat für Schülerinnen und Schüler, die vielleicht kein Geld haben für eigene Lizenzen oder die jetzt kein Equipment großartig haben, dass man eben auf auch auf ältere Hardware einfach mal schnell per USB 'n System hochziehen kann und hat eine einheitliche Lernumgebung. Und da spricht Thorsten Vois auch im Falle von Barrierefreiheit, die Volllesefunktion. Das sind natürlich die, das das fühlt sich natürlich dann gut an und das ist auch, deswegen, ich würd's heute noch genauso machen wie damals.
Jan: Und was ist denn die Arbeit, die da reingeflossen ist? Also Du hast eben so in 'nem Nebensatz erwähnt, na ja, Du hast halt son paar Tausende Wave Dateien irgendwie aufgenommen, aber das ist ja mehr als im stillen Kämmerlein sitzen und irgendwie vor sich hin aufnehmen. Also a, ist es vielleicht auch 'n besonderes stilles Kämmerlein, damit die Audioqualität irgendwie in Ordnung ist, aber das ist anderes Thema vielleicht, aber auch so, wie wie kommt man denn dazu, diese Sachen aufzunehmen, ne? Also ich weiß nicht, sitzt Du dann da und liest so den Duden vor, damit einfach jedes Wort irgendwie drin ist oder sind das irgendwie bestimmte Sätze, damit auch, ne, Satzzeichen, Lesepausen, bla bla, so alles mit drin ist. Wie kommt man denn überhaupt erst mal an diesen Korpus, bevor man mit 'ner Aufnahme überhaupt anfängt?
Thorsten: Das ist eine gute Frage tatsächlich. Also dieser Korpus an sich, also sprich die Texte, die dann gesprochen werden, ja, also den Duden vorlesen, das ist ja ähnlich spannend wie Telefonbuch, also das macht jetzt nicht wirklich Lust. Tatsächlich hab ich den Korpus damals aus dieser Minecraft Community, die hatten einige schon bereitgestellt, einige 1000 Sätze. Und aus Mozilla Comment Voise, das ist ja auch 'n relativ bekanntes Sprachprojekt. Schwerpunkt ist es da mit der Spracherkennung Gedanken hintendran. Aber die hatten auch unter diese CC0 Lizenz sozusagen Texte veröffentlicht, die, und jetzt kommt's noch mal drauf an, die eine phonetische Ausgeglichenheit haben. Also das ist auch wichtig, weil diese KI Modelle lernen nicht, wie man ein ganzes Wort ausspricht als solches, sondern die lernen, wie man einzelne Phoneme, also diese kleinsten oder kleinen Lauteinheiten, ich bin jetzt kein kein Linguist, aber diese kleinen Lauteinheiten, wie man die ausspricht. Und wenn ich natürlich jetzt irgend irgend 'n blöden Zufall nur Sätze aufnehme, wo ein Phonehmen oder ein paar Phonehme gar nichts drin vorkommen, dann wird die KI später keine Texte synthetisieren können, die oder wo Wörter drin sind, die aus diesen Phonehmen bestehen. Spannend.
Garrelt: Und ist das so wahrscheinlich, dass man, wenn man, also Du hast ja 30000 Aufnahmen gemacht. Hättest es sein können, dass da 'n Phonehmen nicht mit drin ist? Sind das so spezielle Sachen?
Thorsten: Also bei 30000 ist die Chance, glaub ich, relativ gering. Da also da wird schon alles dabei sein. Mhm. Ich hab mir das auch mal dann, da kann man ja so, wie das so klassisch im ist, so Datenanalysen, da gibt's dann Möglichkeiten auch, sich mit irgendwelchen Python Skripten was zu bauen, dass man schon sieht, dass die ganzen Vorlieben abgedeckt sind. Also das das hat schon gepasst. Also, ja.
Jan: Wie ist das denn mit der mit der Tonalität? Also jetzt hast Du erst mal nur Texte auf, also hast Du jetzt so eine Vorgabe von Texten und jetzt kannst Du ja ein und denselben Text in zig verschiedenen Arten einsprechen. So, ja, Du kannst son bisschen langsamer und monotoner oder Du kannst son bisschen aufgeregter reden, so, ja, das sind ja alles so so Unterschiede, die da drin sein können und im Prinzip müssen das ja doch auch irgendwie Unterschiede sein, die son Modell am Ende beherrschen sollte, oder? Weil je nachdem, wie der Satz oder der Text, den ich dann am Ende irgendwie erzeugen will, aufgebaut ist, desto unterschiedlicher muss so eine Stimme ja vielleicht auch sprechen können. Also sie muss ja alles können, so. Von monoton über aufgeregt über bisschen leiser, über 'n bisschen schneller, über 'n bisschen langsamer. Heißt das, Du nimmst diesen Korpus und liest ihn auf 100 verschiedene Arten und Weisen einmal ein oder gibt's da so, dass man jede Aufnahme son bisschen annotiert im Sinne von, dieser Satz war jetzt besonders emotional oder der hier war besonders monoton oder hier waren wir besonders aufgeregt oder wie wie lernt son Modell so was?
Thorsten: Also da muss ich sagen, da hat sich jetzt auch in den letzten Zeiten natürlich durch dieses Alarch Language Modelle und so weiter, durch dieses Textverständnis, wenn man's mal son bisschen senden will, bisschen was geändert. Als ich angefangen hatte, war das noch so, dann war's klar, nutze oder lies neutral, ja. Also ich mein, ich hatt's beim Meet-up kurz angeteasert. Das war also auch eine der Fehler, die ich gemacht hab. Da stand dabei, nützt die gleiche Sprechgeschwindigkeit. Und ich hatte da auch von von Minecraft eine eine kleine Software, das einzulesen. Die hat auch gesagt, diese Aufnahme hast Du mit deiner durchschnittlichen Sprechgeschwindigkeit gesprochen. Also die hat auch gesagt, es ist rot, Du warst zu schnell, Du warst zu langsam. Dann hab ich die neu aufgenommen, dass die dass die Sprachgeschwindigkeit immer gleich geblieben ist. Das war damals halt noch wichtig. Heute, wie gesagt, ist die Varianz eher gefragt. Damals war die Konstanz eher gefragt.
Jan: Mhm.
Garrelt: Und
Thorsten: da war's genauso nicht, wie Du's gesagt hast. Also da da musst ich Sätze, die vielleicht vom Inhalt her jetzt lustig oder traurig oder sonst irgendwie waren, neutral lesen.
Jan: Aber das heißt auch, dass ein so trainiertes Modell auch immer nur neutral sprechen kann, oder?
Thorsten: Genau. Das ist
Garrelt: so
Thorsten: dieses typische, also jetzt Nachricht 'n Sprechersyndrom, so wie ich das Veraltier gesagt habe, Moment bringt jede Nachricht im Prinzip neutral rüber. Ich hab dann ja auch im Rahmen von von Thorsten Voismer experimentiert mit Emotionalitäten und hab da, wie Du sagst, auch mehrere Sätze, also die gleichen Sätze in unterschiedlichen Betonungen aufgenommen, was bisschen bisschen irritierend ist, weil natürlich nicht immer der Kontext des Satzes zur Emotion passt. Also und jetzt bin ich wie gesagt ja kein professioneller Sprecher. Und wenn Du dann irgendwelche Sätze hast, wie heute scheint die Sonne, ja, das ist jetzt im Prinzip jetzt nichts sonderlich Emotionales und Du willst das eben auf, keine Ahnung, angewidert sprechen, ja. Und dann hab ich halt wirklich, das son bisschen, jetzt wird wahrscheinlich jeder Frau seine Sprecher mich auslachen, aber ja, ich hatte, wusste nicht alles zu helfen. Ich hab mir halt überlegt, wie wird sich mein Körper anfühlen, wenn ich irgendwas sage, was wirklich eklig ist, ja. Und hab dann vorm Spiegel gestanden, also hab mich wirklich versucht, hab ich gemerkt, okay, der Bauch krampft 'n bisschen zusammen und ich mach mich son bisschen klein und hab mich im Spiegel beobachtet und hab versucht, diese Körperreaktion, wenn ich an was wirklich, sag ich mal, ekliges denke, ja. Hab versucht, die zu reproduzieren und hab dann da gesagt, ja, heute scheint die Sonne. Also das war dann halt natürlich einfach versucht, das son bisschen auf neutrale Texte zu münzen.
Jan: Aber wenn Du dein Modell dann so trainierst, dann hast Du ja wiederum auch nur ein Modell, was nur angewidert reden kann.
Thorsten: Also es gibt dann sogar also nicht ein Modell, also das sind dann sogar nur Multi Speaker Modelle. Also ja, das geht vom Prinzip her ja, es sind dann schon definierte Nuancen 1 Modells. Also ich kann jetzt nicht einfach per Anmoderation sagen, jetzt möcht ich dieses Wort in angewidert und dieses
Jan: Genau so, das alles, was Du erzeugt, ist entweder komplett neutral oder komplett angewiedert oder so, genau. Das heißt, dieses dieser dieser modernere Ansatz, wo so mit annotierten Texten und sowas gearbeitet wird und sagen, okay, dieser Satz kommt jetzt 'n bisschen freundlicher rüber, dieser hier 'n bisschen monotoner und so was. Wie wie entsteht so was?
Thorsten: Da bin ich ja selber erst noch am am am Lernen, muss ich zugeben. Also dieses diese neueren Text Modelle, die die neuen State of the Art Gamechanger Modelle, ja, die alle 12 Minuten gefühlt entstehen. Ich hab da mal bisher erst mal rudimentäre Tests machen können. Aber da ist es zum Beispiel so, wenn ich jetzt einen Text nehme und sag, heute ist der schlimmste Tag meines Lebens. So. Den gleichen Text synthisiere ich mit, heute ist der schönste Tag meines Lebens. Ich mach keine andere Station rein, ist einfach nur der reine Text und hab das mal in so ein Large Language Modell, also nicht in ein Text to Speech Modell, was auf Basis 1 Large Language Modells erzeugt wurde, reingegeben. Und wär jetzt im Klasse in der klassischen Erwartungshaltung, dass eigentlich fast jedes Wort gleich betont wird, weil wie gesagt, heute ist der schönste oder der schlechteste Teil meines Lebens, ist ja weitestgehend gleich bis auf ein Wort, was unterschiedlich ist. Und trotzdem ist es so, wenn ich mir dann das anhöre und den die auch die die die Waveform, also nicht die Waveform oder die die sogenannten dazu angucke, siehst Du auch, dass der Anfang des Satzes anders betont wird, ja. Wie das im Detail funktioniert, muss ich sagen, hab ich jetzt noch nicht durchdrungen, ja. Da fehlt mir vielleicht auch noch 'n bisschen der wissenschaftliche Hintergrund. Aber das ist momentan so, dass offensichtlich diese Einbindung dieser Large Language Modelle, wie auch immer es unter der Haube funktioniert, wie grad, weiß ich noch nicht, dass das tatsächlich Einfluss hat, weil der Kontext erkannt wird, wie das dann technisch anders da generiert wird. Musst muss ich mir noch anschauen. Aber ja, da geht der Trend hin.
Jan: Okay. Kommen wir noch mal zurück zu deinem eigenen Trainingsansatz. Also Du hast jetzt den den Korpus und jetzt versuchst Du das erst mal einzusprechen, aufzunehmen. Wir haben schon gehört, irgendwie immer dasselbe Audio Setup, immer die einigermaßen selbe Vorlesegeschwindigkeit, immer möglichst gute Qualität in der Aufnahme, ja, wie das so ist bei KI Projekten, schlecht rein, schlecht raus, also irgendwie Aber in ganz Qualität.
Garrelt: Hattest Du nicht gesagt, dass das der alte Ansatz war und der neue
Thorsten: Genau, also das waren die das waren diese Sprachdaten, dass ich mich sehr aufgenommen hab.
Jan: Okay.
Thorsten: Ja. Jetzt die Neuen, da reden wir ja auch immer von, also die werden neu trainiert, auch auf ganz vielen Stimmmaterialien. Und heutzutage trainiert man ja selten from Scratch irgendwas, weil eben diese Grundmodell, diese Basismodelle sind schon da und Du redest oft von Feintuning. Mhm. Das heißt, die Basismodelle, die auf ganz vielen, wahrscheinlich auch annotierten, ne, was ist jetzt hier emotional, die schon da sind, auf deren Arbeit kann man heute aufbauen und ja.
Garrelt: Ah, okay. Das heißt, Du brauchst auch viel, viel weniger Aufnahmen als damals, das heute zu feintunen. Ja, da
Thorsten: gibt's auch also ganz unterschiedliche Ansätze. Also ich hab jetzt 30000 Aufnahmen. Mittlerweile, da wird ja auch oft geworben mit so Zero Shot Voice Cloning. Das heißt, eigentlich wird damit geworben, Du hast ein Riesenbasusmodell, was ganz viele verschiedene Sprechende inkludiert. Und Du nimmst vielleicht 30 Sekunden eine Minute Audio auf und das System versucht anhand deiner Stimmparameter und dem großen vielfältigen Modell, was drunter liegt, deine Stimme zu reproduzieren. Da hab ich manchmal das Gefühl, da ist viel Marketing auch dabei. Also im englischsprachigen Raum, muss ich sagen, funktioniert's tatsächlich gut mit meinem stark deutschen Akzent, wenn ich das probiere, da funktioniert's aber relativ gut. Die Zero Shot Voice Clonings auf Deutsch, die ich probiert habe, Also ich hab mal so, sie waren okay. Man kann eine einen Ähnlichkeit zu der Originalstimme raushören, aber ich glaube, Freunde und Familie wirst Du damit noch nicht in die Irre führen können.
Jan: Ja. Bevor wir da draufkommen. Ja. Ich wollte nämlich erst einmal zurück auf dieses basale trainieren, alles gucken. Wie lange brauchst Du denn, son Modell zu trainieren? Du hast halt, okay, heutzutage macht man eigentlich eher so Feintuning von bestehenden Modellen, aber wenn Du jetzt dein Modell vom Scratch gebaut hast und Du hast da 30000 Sample,
Garrelt: wie
Jan: wie lange rechnest Du denn daran, bis da son Modell rausfällt?
Thorsten: Also tatsächlich das erste, also das erste Brauchbare, wofür man sich ja jetzt nicht schämen musste, 1000 Vice Modell, ich hab das trainiert, weil ich hatte halt keine keine Riesengpu. Ich hab jetzt keine NVIDIA Grafikkarte, keine höhere gehabt, mit der ich groß trainieren konnte. Ich hatte mir damals son, das war von NVIDIA Jetssen, son kleines Gerätchen, sone Embedded Einheit, die jetzt nicht hoch performant war, aber die hatte 'n guten Kompromiss zwischen Stromverbrauch und zwischen zwischen Rechenleistung. Das beantwortet man ja keine Frage oder Gegenfrage, aber hättest oder hättet ihr 'n Tipp, wie lange, 7 mal 24, diese kleine Box gerechnet hat, son erstes Thorsten Wolf KI Sprachmodell.
Jan: Einen Tag? Ich sag mehr. Ich sag so zwischen 3 und 5 Tagen.
Garrelt: Welches Jahr war das?
Thorsten: Okay, aber 20 19 hab ich angefangen. Das war so 20 20, ja, 20 20 20 21 so. Darum.
Garrelt: Jetzt bleib beiden Tag.
Jan: Bleibt's deinem Tag? Ich bleib bei so, was hab ich gesagt, 3 bis 5 oder so was, 2 bis 4, keine Ahnung, so die Größenordnung.
Garrelt: Gut,
Thorsten: Jan hat jetzt natürlich, er hat jetzt einfach gehabt, also Jan liegt näher dran tatsächlich, aber auch noch weit weg. Also das System lief bei mir dann 7 mal 24 und hat 3 Monate ungefähr gebraucht. Ah, 3 Monate? 3 Monate, ja.
Garrelt: Okay. Okay, das find ich grad crazy.
Thorsten: Also ich hab natürlich regelmäßig Probe gehört und geguckt, ob das auch diverse Dashboards und Diagramme, also bei Machine Learning, also son Data Analyst, die lieben ja Diagramme und dann nicht, dass ich die alle verstanden hätte, aber ich wusste die 2 Diagramme, die ich verstanden hab, die hab ich schon regelmäßig beobachtet, geguckt, entwickelt sich's Training noch?
Jan: Ich wollt grad sagen, das ist ja son Trainingsproblem in Anführungszeichen, das heißt, Du kannst ja jederzeit quasi Pause machen oder den aktuellen Stand quasi auch schon verwenden, ne. Du musst ja nicht 3 Monate warten, bis es fertig ist und dann kannst Du im Prinzip nach 3 Minuten das schon benutzen. Es ist halt nur bescheiden, ja, und das wird halt immer besser. Genau. Das heißt, irgendwann war ja dann wahrscheinlich auch so nach 3 Monaten oder so, der der Zeitpunkt reicht, okay, es plateau halt son bisschen, ne. Du rechnest immer weiter, aber der der der Benefit wird halt immer weniger für jede Computerzeit, die Du reinsteckst oder wie hast Du da das Ende gefunden?
Thorsten: Also es wird auch irgendwann schlechter. Also irgendwann ist aber dieses, wenn sich das wenn sich das Modell sozusagen in sich selber in den Details verliert, ja. Also 'n Maschinenexperte würde das jetzt wahrscheinlich genau im Detail erklären können, aber im Endeffekt, man muss schon beobachten, ob dieser Lernerfolg in diesem entsprechenden Diagramm, ob der noch in die richtige Richtung geht, ne. Oder sonst läuft eben dieses sogenannte Overfitting und dann hast Du den Begriff erreicht, dieses Plateau, wie Du sagst, Jan, wo Du sagst, jetzt muss ich auf jeden Fall stoppen. Und ich hab natürlich auch regelmäßig gehört, weil die Neugierde ist ja da. Ist jetzt nicht so, dass ich sag, ich drück jetzt bei Start, dann mach ich 3 Monate, tue ich so, jetzt wüsst ich voll nix und dann, also, ne. Aber bei dieser kleinen Rechenleistung, die ich damals eben zur Verfügung hatte, war's schon so, dass Du jetzt auch hier nicht, ich sag mal, wenn ich da zweimal am Tag reingehört hab, da hast Du halt kaum Unterschiede gehört, weil dann hast Du schon
Jan: Und Du bist ja bei paar Monaten ist ein Tag ist ist 'n ist son Prozent, ne. Also wenn man jetzt mal 'n linearen Verlauf annimmt, der ja auch nicht ganz richtig ist, aber also da musst Du ja einmal die Woche reinhören oder so, da was zu merken.
Thorsten: Ja, natürlich irgendwann, ich bin ja auch 'n neugieriger Mensch. Also natürlich hört man öfters rein und ist immer 'n bissel enttäuscht, weil sich halt eben nicht so viel ändert. Aber ja klar, also das war wirklich, bis es dann soweit war, dass ich hatte dann auch oder hab dann auch jemanden kennengelernt in der Minecraft Community, den Dominic Kreutz. Das ist ein Audioexperte, der mir auch wirklich gut geholfen hat. Und wir haben's regelmäßig auch ausgetauscht, haben uns Testbeispiele hab ich dann geschickt und hab gemeint, hörst Du den Unterschied oder was meinst Du? Und das ist dann immer mal son bisschen, haben wir uns son bisschen ausgetauscht. Und er war auch jemand, der, ich bin mir auch sehr dankbar für, der mich unterstützt hat mit Autoexpertise, weil das war tatsächlich so, ich hab am Anfang, ich bin das bisschen leichtgläubig rangegangen, ne, wie das immer ist, weil euphorisch bist, son Geek Thema, oh, das machst Du jetzt mal schnell, ja. Und ich hab natürlich die Tipps gelesen, wie eben, nutz gutes Mikrofon, nutz gute Sprechgeschwindigkeit. Bau dir ein ruhiges Set-up auf, weil ne, Jan hat's gesagt, die KI gibt halt auch die Qualität wieder, die sie reingegeben bekommt, ne. Das klassische, Mist rein, Mist raus. Da war's so, ich hab das versucht, alles ernst zu nehmen, aber dann war doch die Euphorie so stark, dass ich dann doch irgend 'n altes USB Headset genommen hab, was ich noch hatte. Und ich dachte, das wäre gut. Und hab dann halt 10000 Aufnahmen gemacht, was ja durchaus viele Wochen und Monate an sich schon, ja. Du kannst ja jetzt auch nicht 8 Stunden am Tag aufnehmen, die Stimme wird müde. Du nimmst ja auch zu vergleichbaren Zeiten auf, weil morgens klingt die Stimme anders als abends und so weiter und so fort. Und hab ich dann irgendwann 10000 Aufnahmen gehabt und hab dann so den ersten Schwung mal probiert, 'n KI Modell zu trainieren. Und das war, also die Stimme war erkennbar, aber es hat gerauscht, es hat gepfiffen im Hintergrund. Es war keine gute Qualität. So und ich wusste jetzt zu dem Zeitpunkt nicht, muss ich einfach mehr Training machen? Wird's besser? Und hab dann eben, wie wir dann mit dieser Minecraft Community gefragt und gesagt, Dominik hat sich dann gemeldet und hat gesagt, ja, schick doch mal son paar Aufnahmen, die Du gemacht hast. Und ich war so sicher und ich war so überzeugt davon, dass das die besten Audioaufnahmen sind, die jemals die Menschheit erzeugt hat. Weil ich hab mir die auch alle angehört, was ja auch an sich schon 'n bisschen gewöhnungsbedürftig ist, wenn Du zehntausendmal deine eigene Stimme mit dir anhörst.
Jan: Ja.
Thorsten: Mittlerweile hab ich mich dran gewöhnt, aber es ist immer natürlich am Anfang schon 'n bisschen gewöhnungsbedürftig. Und dann hab ich diese Auszug dabei, 'n paar Dateien dem Dominik geschickt. Und ich war so sicher, dass der sagt, ey astreine Qualität. Und dann kam der einfach zurück und sagt, also 'n Paar kann man vielleicht noch retten, denn das meiste kannst Du wegschmeißen. Und das hat mich so runtergezogen, weil wenn Du wenn Du weißt, dass Du über Wochen und Monate dann eine Freizeit investiert hast und dann kommt da dieser Typ aus dem Internet und sagt er, da wart war eigentlich Schrott. Und da hab ich, das kann nicht sehr ernst sein. Und dann sagt er, ja, hast Du die Aufnahme auf maximaler Qualität gehört, Maximale auf maximale Lautstärke? Sag ich, nee, das nicht. Ja, ist ja creepy genug, die eigene Stimme zehntausendmal zu hören. Da muss ich jetzt nicht auch aufm Kopfhörer auf maximale Lautstärke hören. Hab ich dann gemacht. Und dann hab ich tatsächlich im Hintergrund Rauschen, Pfeifen, was halt in diesem schlechten USB Headset geschuldet war, gehört. Oder auch Echo, weil ich dann teilweise, ne, teilweise stehst Du halt irgendwo im im Flur, weil Du was aufnimmst. Da hast Du mehr Volumen. Da war jetzt auch nicht, dass ich dieses typische Audio, ne, diese Eierschale oder diese dieses dieses, ne, gibt da so Dämpfmaterial. Ja. So Absorber hatt ich natürlich alles nicht. Und dann hab ich's mir versucht, noch schön zu lügen, weil ich dacht, na ja gut, dieses leichte Rauschen, dieses leichte Pfeifen, das hörst Du ja nur ganz dezent im Hintergrund. Aber ja, im Endeffekt, die KI nimmt alles ernst, ne. Und wenn die in den Trainingsdaten Rauschen und pfeifen drin hat, dann synthetisiert sie natürlich auch später, Rauschten und Pfeifen, weil sie ja nicht wissen kann, dass das eben nicht erwünscht ist. Ja, das war echt, das war das war hart. Und die hat Dominika dann auch 'n bisschen was optimiert. Plus, ich hab noch den Fehler gemacht, ich hab das mit dem Headset nicht ernst genug genommen, hab aber andere Dinge zu ernst genommen, weil zum Beispiel nuschelnig betont klar und deutlich, ne, gute Aussprache, Da wollt ich richtig gut punkten und hab da übertrieben, muss ich zugeben und hab dann zum Beispiel Satz, wie heute scheint die Sonne. Nicht so wie eben ausgesprochen, sondern so wie, heute scheint die Sonne. Mhm. Das war zwar jedes Wort an sich, toll besprochen und toll betont wegen mir, aber natürlich kein Satzfluss. Also der Sprachfluss war halt weg. Und genauso schlecht lang's auch. Und das kannst Du mit keiner, also 'n schlechten Sprachfluss kannst Du auch in dem in der Nachbearbeitung nicht retten, ja.
Garrelt: Da hast son hartes und langes Learning gehabt irgendwie nach dem Das war und viel Aufwand.
Thorsten: Das war tatsächlich dann, dann hab ich auch
Jan: Das lernt man ja meistens am besten.
Thorsten: Ja, richtig. Ja. Also ich hab dann auch, das war doch der Punkt, wo ich halt, okay, jetzt hab ich mir auch sone kleine Aufnahmekabine gebaut, hab mir dann diese Schallabsorber gekauft, hab mir 'n eigenes sone rote Podcaster damals Mikrofon gekauft mit 'ner Popschutz. Also dann hab ich mich vorhin auch mit Dominik Hitz son bisschen informiert und hab dann ja, bei 0 angefangen und hab gesagt, okay, jetzt machst Du's noch mal in in schön.
Garrelt: Ja, aber krass, dass Du dann weitergemacht hast. Also ich glaube, das kann auch sehr ernüchternd sein an soner Stelle und dass Du dann all in gegangen bist, find ich sehr cool. Sehr cool.
Thorsten: Ja, aber tatsächlich hab ich auch nie in Erwägung gezogen, aufzufallen. Es war, ich wollte das ich wollte das haben und ich hatte auch diese positive Bestätigung, das ist ja auch so aus der Community, wenn Du da son bisschen gepusht wirst und dann hörst, da da ist Interesse und die Leute fragen, gibt's was Neues, gibt's neue Trainingsstände? Ja. Ist ja auch, wie Jan sagte, Du machst ja nicht 3 Monate am Stück und hörst nichts, sondern da gibt's ja diese sogenannten Checkpoints. Das heißt, das Modelltraining schreibt ja regelmäßig irgendwelche Checkpunkte, Ja. Die Du a nutzen kannst, um's zu synthetisieren und b auch, zu hören, ja, geht's noch nicht nur für den Diagrammen? Das ist ja ein Punkt, aber Du willst ja auch hören, ob's auch akustisch in eine gute Richtung geht. Und wir
Jan: haben Vielleicht der gute Zeitpunkt, mal reinzuhören.
Garrelt: Ich wollt grad sagen, wir haben jetzt auch schon 14 Minuten Podcast gehört und noch nicht reingehört. Also ich finde, wir sollten mal hören, wie's jetzt am Ende
Jan: geworden ist, oder? Nach 30000 Aufnahmen und monatelweise Trainingszeit, ich hab hier mal auf deiner Webseite auf Thorsten minus Voice Punkt d e, kann man das ja einfach mal ausprobieren. Richtig. So. Und dich im Prinzip sagen lassen, was man möchte. Und ich hab hier einfach nur mal ganz unschuldig willkommen bei der programmier.bar eingegeben. Sind Satzzeichen wichtig?
Thorsten: Also Punkt zum Beispiel und Komma wird vom KI Modell gelernt und auch entsprechend gehandhabt. Das ist aber jetzt will ich hier wirklich gar nicht, will jetzt nicht die Zuhörenden noch länger auf die Folter spannen. Ja. Aber vom Prinzip her ist es, ja, Satzzeichen werden berücksichtigt. Das ist auch 'n Punkt, warum man zum Beispiel sozusagen das Textlinien vorher macht. Das heißt, wenn ich zum Beispiel sage, Doktor und die Abkürzung d r Punkt Punkt lernt die KI meistens als Sassende und wird eine Pause machen. Oh. Deswegen würde man sogenanntes Textkliniken machen, dass eben die Abkürzung d r Punkt vorher
Jan: Ja, ich war ich war schlau und hab programmier.bar ohne Punkt schon geschrieben, damit das hoffentlich richtig vorgelesen wird. Meine Frage war eher darauf operiert, wenn ich da jetzt 'n Ausrufezeichen ans Ende mach, ist das, kommt es dann mehr so rüber als willkommen bei der programmier.bar, weil das ist son bisschen betonter oder ist das als Satzzeichen nicht wichtig?
Thorsten: Das ist als Satzzeichen tatsächlich nicht wichtig.
Jan: Okay, das hab ich alles richtig gemacht. Ich hab's nämlich gar nicht reingeschrieben.
Garrelt: Aber wir können gleich mal ausprobieren, wie's dann klingt mit Punkt, aber jetzt spielen wir erst mal Dat Up.
Jan: Okay, willkommen bei der programmier.bar.
Thorsten: Willkommen bei der programmier.bar.
Jan: Das ist jetzt ohne Punkt und jetzt kann ich mal mit Punkt bei Programmierpunkt bar sozusagen hier eingeben, willkommen bei der Programmier bar.
Thorsten: Willkommen bei der Programmier bar.
Garrelt: Ist ähnlich.
Jan: Ist so eine kleine Pause ist schon drin.
Thorsten: Ja, vielleicht kann man noch 'n Leerzeichen dahinter machen, ich weiß es jetzt nicht. Stimmt, das
Garrelt: ist ja
Jan: jetzt mit 'nem Import. Okay, wir wir learning by Doing, wir reden hier live und ich mach jetzt willkommen bei der Programmier Punkt frei bar, Achtung.
Thorsten: Willkommen bei der Programmier bar. Ja, klingt immer noch gut.
Jan: Klingt noch okay, ja. Wär jetzt nicht, also ich hatte schon andere, mit anderen Voicemodellen gespielt, die das dann tatsächlich auch vorlesen, die dann sagen, ne, wir kommen bei der Programmierpunkt bar. Das war 'n
Garrelt: bisschen schwierig. Okay, interessant.
Jan: Da geht der Wortwitz kaputt. Aber wir haben ja vorhin auch schon gesagt, dass Du so verschiedene nicht nicht Stimmen, sondern wie wie ist da der Fachbegriff für?
Thorsten: Verschiedene Multispeaker würde man das nennen. Also ein Modell, wo Du quasi sagen kannst, ich hab mehrere Nuancen in eine Modell gepackt und kann dann sagen, synthisiere bitte mit Speaker 1 2 3.
Jan: Genau. Und jetzt haben wir ein ein flüsterndes, haben wir ja auch noch vorbereitet.
Thorsten: Willkommen bei der programmier.bar.
Garrelt: Das das
Jan: ist eigentlich 'n geiles Intro. Das ist eine ASMRI Intro für Super. Podcast. Das können wir machen. Und wir haben natürlich hier noch die hessische Variante, das ist auch mega Feier, dass Du überhaupt am Start ist. Die können wir uns
Thorsten: auch noch anhören. Willkommen bei dir programmier.bar.
Jan: 'N bisschen zu schnell meiner Meinung nach, aber sofort als Hessisch erkennbar. Ist vielleicht
Garrelt: nicht auch der beste Satz, Hessisch Okay. Okay, bitte,
Jan: das ist der beste Satz vom Hesseisch. Okay, das ist süß.
Garrelt: Ich hab
Thorsten: da, ich hab da so viele Sätze schon eingegeben, also da könnt ihr euch gerne austoben oder jeder, der das hört, kann das gerne, wie gesagt, Jan hat's gesagt, auf der Webseite ausprobieren.
Garrelt: Sehr cool. Ja. Ich find's krass. Ist 'n Superergebnis. Also ich find, man erkennt dich darin sehr gut. Es ich, man erkennt find es trotzdem immer noch, dass es generiert es an 'n paar Stellen. Mhm. Aber die Stimme und so ist extrem gut rübergekommen.
Jan: Also wir experimentieren hier ja auch regelmäßig mit so Stimmenklonen für Podcast und Produktion und so. Und ich muss auch sagen, diese diese Zero Shot oder One Shot Cloning so im Prinzip, da hört man uns schon raus, also wenn ich das jetzt von mir mach und das jemandem vorspielen würde, da würde er schon sagen, ja, das das ist irgendwie der Jan, aber es klingt halt so, als hätte er 100 Baldrian auf einmal eingenommen, weil halt so jegliche Tonalität irgendwie fehlt und diese erzeugte Stimme, die spricht halt überhaupt gar nicht so wie ich, die klingt zwar so wie ich, aber der Sprecher ist halt quasi komplett anders und das ist so das, warum es für uns halt gerade irgendwie noch nicht so gut funktioniert. Ja. Aber trotzdem ist natürlich cool zu sehen, dass es überhaupt irgendwie möglich ist und wir haben natürlich auch im Podcast den Vorteil, dass wir, wenn wir solche Modelle irgendwie probieren, wir nicht so dieses, ne, was man, wie Du schon gesagt hast, in der Werbung dann häufig so sieht von diesen Anbietern, so, hier 30 Sekunden und dann können wir deine ganze Stimme klonen, sondern wir haben ja aus den Podcasts so hunderte Stunden Sample Material, so. Ja, und da hab ich auch, bin ich zu Carlo hin, hab gesagt, kannst Du mir mal 'n paar Stunden reines Jan Audio geben? So, und haben wir das dann genommen zum Trainieren und da merkt man schon, dass es 'n Unterschied macht zu diesem nur 'n paar Minuten hochladen, aber es ist trotzdem noch nicht noch nicht so, als dass ich das jemandem beim Podcast hören irgendwie eine Stunde lang zumuten wollen würde.
Thorsten: Ja, das stimmt, das ist aber auch generell, weil Du sagst, nee, von von euch jetzt als Podcaster ist das natürlich verfügbar. Das ist natürlich auch, ich sag mal, aus gesellschaftlichem Grund, wenn ich ein bisschen besser wird es ein Problem. Also ich hab aber bewusst entschieden, meine Stimme zu spenden. Ja. Ja, das haben ja jetzt nicht jeder Podcaster oder jeder Radiosprechende oder jeder, der im Fernsehen oder Schauspielende ist das ja nicht. Da ist ja auch teilweise das eigene Kapital. Und die Verfügbarkeit von eben Audiomaterial, auch von gutem und hochwertigem Audiomaterial plus, dass die Technologie eben besser und mit weniger Daten auskommt, das ist tatsächlich auch 'n gesellschaftliches Problem,
Jan: Da finde ich, klein klein Randnotiz, Du hast ja vorhin schon mal Eleven Labs irgendwie als einen von diesen Playern erwähnt, die mit denen probieren wir auch irgendwie regelmäßig, wenn die neue Modelle vorstellen und neue Features und die machen was ganz cooles beim VoiceClowning. Du kannst, wenn Du dein Sample da hochgeladen hast und dir dieses Modell quasi erzeugen für dich, musst Du quasi noch mal beweisen, dass Du der echte Sprecher, die echte Sprecherin bist und die erzeugen dir dann einen random Satz, mit dem Du 3 Minuten Zeit hast live einzulesen quasi am Mikrofon, quasi zu beweisen, ich hab jetzt hier nicht nur irgendwie stundenlange Aufnahmen und lade die hoch, sondern ich bin diese Person, ich kann mit dieser Stimme jeglichen Satz erzeugen, den Du quasi von mir haben willst. Das ist son bisschen der der Identityproof, den sie dann noch reinmachen damit, ne, wie Du jetzt gesagt hast, nicht irgendwie, weiß ich nicht, mir 50 Stunden Obama reden, runterlade oder so und dann meinen Obama Voiceclown wach damit, sondern schon irgendwie beweisen muss, das ist meine Stimme.
Garrelt: Finde ich cool, dass sie's machen, fänd dann natürlich nicht, dass es trotzdem irgendwie geht, ne, wenn man das auch zu Hause macht.
Jan: Ja, also das das das 'n reines ist eine reine Featursperre, ne. Das ist überhaupt kein Zeit sehen, das bauen sie so auf ihrer Plattform, aber das Modell hintendran können sie natürlich trotzdem trainieren, wie sie wollen. So ist halt nur die Frage, stellen sie's dir zur Verfügung oder halt nicht,
Thorsten: so. Ja. Aber Vigga, Du kannst das auch oder wie Du grade gesagt hast, selbst wenn jetzt bei Levelapps, die diese diese Maßnahme etabliert haben, aber die Technologie kannst Du ja auch lokal betreiben. Du kannst ja mit eigenen Frameworks, mit eigenen Open Source Tools das machen, wo Du eben diese Sperren oder diese, ja, diese Hürde, nenn es mal vielleicht nicht drin hast. Also der Umgang mit welche Stimme ist authentisch? Und das ist schon noch 'n Thema, glaub ich, das wird uns noch beschäftigen.
Garrelt: Mhm. Ich denke
Thorsten: auch. Es gibt ja dann auch diese, also generell auch, wenn's ums Thema Authentizität geht, viele Modelle haben ja auch mit Wasserzeichen. Also das heißt, Du kannst ja auch Wasserzeichen rein generieren, ja. Teilweise wird das auch aus den also Wasserzeichen im Sinne von, Du kannst in den Originaltrainingsdaten sozusagen da drauf ein ein nicht hörbares, eine Signatur legen. Ah. Und wie gesagt, das menschliche Ohr nicht wahrnehmbar.
Jan: Mhm. Leicht was für unsere Podcasts. Hast Du jetzt schon mal Wasserzeichen erhalten? Wer weiß, was in 10 Jahren damit passiert? Ja,
Thorsten: genau. Dann hast Du im Prinzip Wasserzeichen. Das heißt, Du kannst aber dann nicht nur die Original Audioaufnahmen, also wenn ich jetzt von euch eine Aufnahme nehme, könnt ihr mal das Wasserzeichen, was soll ich mal, da rauslesen, ja. Also auch die KI generiert ja auch dieses Wasserzeichen sozusagen dann nachher wieder mit. Und dann kannst Du das potenziell auch raushören. Das ist aber natürlich nur machbar, wenn Du auch Zugriff auf die Audiodaten als solches hast. Aber wenn Du jetzt mal, keine Ahnung, son Enkeltrick oder irgendwas hast und Du bist am Telefon und dann vielleicht auch die Emotion noch 'n bisschen mit reinspielt, jetzt sagst Du ja nicht irgendwann, wenn Du eine vertraute Person am Telefon hast, die sagt, ich steh hier irgendwo am Flughafen und ich brauch mal Geld von dir. Sagst ja nicht, schick mir eine Wave Datei, gib mir 2 Tage Zeit, ich analysier die kurz und dann meld ich mich. Das ist ja nicht die Realität.
Garrelt: Aber das würde auch nicht gehen zum Beispiel, dass man, wenn man die Trainingsdaten zum Beispiel immer beginnt mit 'nem bestimmten Satz, würde so was funktionieren?
Jan: Nee, ich glaub nicht.
Thorsten: Nee. Diffonema im Endeffekt, also Du hast die Phonema aus diesem Trainingssatz, aus diesem ersten Satz, die sind halt dann sehr ausgeprägt, aber es ist ja nicht so, dass das Modell dann immer diesen Satz generiert zu beginnen.
Jan: Na ja, klar. Aber das ist ja 'n Problem, dass es für Bilder schon sehr lange gibt, was heißt also sehr lange. In in Bezug auf dieses ganze AI Phänomen sehr lange, ne. Damit hat ja viel angefangen angefangen so mit diesen Diffusion Modellen und dann konnten wir auf einmal coole Bildchen von Katzen irgendwie selber generieren und so was alles und da gibt's ja mittlerweile auch Ansätze, zu sagen, nicht nur irgendwie Wasserzeichen in die Bilder reinzubringen, sondern auch unterliegende Signaturen, die quasi dein Trainingsdatenset vergiften, ja, und im Prinzip dafür sorgen, dass wenn Du dieses Bild einliest und auf Pixelebene auseinandernimmst, dass halt nur noch Schrott rauskommt, so fürs menschliche Auge nicht sichtbar so, ja, aber im Prinzip als Trainingsdatensatz unbrauchbar. Gibt es so was auch schon für Stimmen oder für für Ton generell?
Thorsten: Das wär mir jetzt so nicht bewusst. Ja, es mag sein, dass es das gibt. Momentan die Zeit ist so schnelllebig, also da gibt's jeden Tag neue Erkenntnisse und neue Möglichkeiten, aber ich kenn's jetzt so erst mal nicht. Okay. Okay.
Jan: Vielleicht noch eine Marklücke da draußen. Falls Du da dann
Garrelt: Reicht es nicht schon, dass wenn die Audi Qualität einfach schlecht genug ist, dass es dann auch nicht das Ergebnis von dem Modell einfach nicht so gut wird, dass es brauchbar ist? Oder wird, na ja, das wird's wahrscheinlich auch einfach optimieren und verbessern, ne, dass
Thorsten: Ja gut, also klar, je je schlechter die das die Qualität ist, desto leichter ist es natürlich zu intern als als Fake.
Garrelt: Ja. Ne,
Thorsten: aber wie gesagt, die Technologie ist so weit mittlerweile, dass es wirklich schwierig ist. Also Du kannst vielleicht, also ich find, noch sind die Emotionen noch 'n bisschen eine Herausforderung.
Garrelt: Mhm.
Thorsten: Mein Jan hat's gesagt, mal 'n Ausrufezeichen hinten dran machen, endet das was? Mhm. Ja? Also wenn Du jetzt irgendwie 'n Anruf bekommst, wo halt mit der ganzen neutralen Nachrichtensprecher aber als Inhalt gesagt wird, ich werd hier grade irgendwie erpresst, das fällt auf, ja, weil das natürlich nicht zum zum Inhalt passt. Aber wie gesagt, die Modelle werden so oder sind teilweise schon so gut, dass das, ja, nicht mehr rauszuhören.
Garrelt: Ja, okay. Bist Und Du hast grad eben mal von deinem nächsten Release gesprochen. Ja. Was was ist da geplant? Was was ist da in der Pipeline?
Thorsten: Na, also dieses, also die 1000 Voice Modelle, die ich bisher trainiert hab, das war auf Basis der Technologie Koky und Piper. Das waren 2 Open Source Projekte beziehungsweise Koky war sogar 'n Start-up aus Berlin. Gibt's leider nicht mehr. Die haben dabei sehr Pioniersarbeit, ganz tolle Pionierarbeit geleistet. Also das heißt, die Thorsten Moswood, die jetzt auch Jan Jahr mal vorgespielt hat, das waren die auf Basis von Piper. Das ist noch 'n Projekt, was aktuell noch entwickelt wird. Und jetzt gibt es ja, wie gesagt, jeden Tag gibt's hier neue Nachrichten, was es Neues gibt. Da ist zum Beispiel Orpheus TTS ein Open Source Projekt, was auch eben Stimm Klonen anbietet, aber jetzt nicht diesen kurzen Weg mit Zero Shot irgendwas, ne, 30 Sekunden, sondern und da bin ich grad dran zu trainieren. Momentan trainier ich auch auf Google Co Lab, das ist ja auch sone von Google bereitgestellte Cloud Lösung. Da trainier ich auch drauf, weil wie gesagt, der Rechner von 20 20, 20 21, der der ist in den verdienten Ruhestand mittlerweile gegangen. Ja. Und ja, da kann man ja auch mit soner Google Co Lab Pro für überschaubares Geld son bisschen Rechenleistung kriegen, ja, wo son bisschen schneller geht.
Jan: Und was macht OFFehouse jetzt anders oder warum ist das für dich interessant?
Thorsten: Weil es auch 1 der, also zu seiner ersten Gehversuche sozusagen, was ein was dieses LAMA LLM im Hintergrund hat in diesem Basismodell. Das heißt, das Basismodell hat das definiert, da gibt's auch diese Notation mit zum Beispiel GEGL oder oder so was. Also da gibt's schon Dinge, die man auch einbauen kann. Und das ist jetzt momentan einfach das für mich das also der der der gesunde Spieltrieb mal rauszufinden, wo unterscheidet sich denn jetzt ein, sag ich mal, Cokee oder Piper ohne Large Language im im Hintergrund mit diesem Orpheus, was wie gesagt, da gibt's auch andere die Large Language Modelle mittlerweile haben, aber ich hab da, die Qualität fand ich ganz gut, die hat mir gefallen. Und ja, da läuft, während wir hier so gemütlich zusammensitzen, läuft grad das Training.
Garrelt: Wie lang läuft das schon?
Thorsten: Tatsächlich erst seit 2 Tagen.
Garrelt: Okay.
Thorsten: Das heißt, das hab ich erst kürzlich begonnen. Aber dafür hab ich auch die Hoffnung, dass ich jetzt in der Google Co App, in der Google Cloud läuft, das Training, dass wir keine 3 Monate warten müssen, bis wir die ersten Ecke bekommen.
Garrelt: Ja, stimmt.
Jan: Oder 3 Monate warten müssen mit 'nem deutlich besseren Ergebnis als zu Hause so, ne. Wenn man mehrsprachig unterwegs ist und Du Du trainierst ja dein Sprachmodell auf Deutsch, weil Du liest ja wahrscheinlich deutsche Texte vor mit 'ner, 1 deutschen Stimme so, aber am Ende hast Du ja gesagt, es ist ja sehr auf phonetischer Ebene dieses Training eigentlich, ne.
Thorsten: Mhm.
Jan: Und ne. Jetzt stell ich mir als Laie ja so vor, na ja gut, wenn dieses Modell alle oder das ganze phonetische Alphabet quasi einmal beherrscht, dann kann das ja auch jede andere Sprache sprechen, weil am Ende ist ja ein Wort in 1 englischen Sprache auch nur eine andere Verwendung von phonetischen Lauten, als wir sie auf Deutsch so anwenden würden, ja? Ist das so? Also wenn Du jetzt ein deutsches Modell trainiert hast, kann ich dem englischen Text hinwerfen und der der macht das dann?
Thorsten: Also der macht es dann, aber es klingt halt komplett falsch. Also die Idee ist gut und die die Annahme ist auch berechtigt. Das ist ja eigentlich dieses dieses IPA, dieses International vonatic Alphabet, dass das sozusagen funktioniert. Wie gesagt, ich bin kein Linguist, aber wenn Du jetzt da irgendwas eingibst, was Und die deutsche Sprache ist ja auch durchaus mit englischsprachigen Begriffen durchaus durch durch durchzogen. Grade im technischen Umfeld kommt man ja den englischen Begriffen kaum vorbei. Das klingt schnellermäßig nicht gut. Das klingt eher, als würd es ein Deutscher oder Englischkenntnisse aussprechen. Mhm. Mhm. Weil es da schon auf dieser Phonehme umgelegt wird, aber nicht, und jetzt wie gesagt, ich bin kein Linguist. Ich weiß nicht, ob es für die englische Sprache eigene Phonehme gibt, die zwar Teil des großen Alphabets sind.
Jan: Die Aber nicht
Thorsten: die meisten Folgen und
Jan: so sind quasi. Ah, okay. Also wenn
Thorsten: ich jetzt natürlich, also da gibt es einen sogenannten Phonimenizer, also heißt der. Das ist auch eine relativ lange erprobte Software schon. Die macht zum Beispiel genau das, die nimmt diese diese Eingangstexte. Dann sagst Du aber, welche Sprache ist das? Also Du sagst in diesem Text, das ist ein deutscher Text. Und dann wird das auf deutsche Phonehme sozusagen umgemünzt und dann eben in diese ganzen Texte zu Speech Verarbeitung reingegeben.
Jan: Das das wär der Punkt, wo ich vielleicht ansetzen müsste und dann sagen müsste, ich nehm hier 'n englischen Text und sag aber dem dem Tool sozusagen, okay, das ist auch Englisch und mach da englische von dem Moment raus und dann müsste man das mal gegen dein Sprachmodell werfen und gucken, ob's dann besser funktioniert.
Thorsten: Das wäre noch 'n Versuch wert. Also das tatsächlich ist aber auch, also mir ist ja schon oft aufgefallen, weil's ja auch wirklich manchmal störend ist, weil eben grad viele englischsprachige Begriffe auch durchaus in vielen Texten drin sind. Was ich schon mal getestet habe, aber das ist jetzt eher 'n Workaround, das ist auch keine sehr schöne Lösung, Man kann dieses dieses quasi umsetzt von Wort, Infonemer verändern. Das heißt, ich kann das, wenn ich jetzt sag, mir gefällt die Aussprache von diesem Wort nicht, kann ich sagen, ich möchte gerne in Lautschrift sozusagen sone Art Mapping, ne, da gibt's original geschriebene Wort rein. Ja. Und die phonemische oder phonetische Repräsentanz, das kann ich selber steuern. Aber jetzt will ich natürlich nicht jedes englische Wort da 1 zu 1 umsetzen. Also da gibt's bestimmt bessere Möglichkeiten. Ich hab bisher noch keine gefunden. Muss aber auch sagen, ich hatte bisher noch nicht die Zeit intensiv zu suchen, aber ich hoffe, dass es da was Besseres gibt.
Jan: Also es gibt Tools, wie gesagt, wir experimentieren da ja auch son bisschen damit, da kann ich im in dieser Transkript Stage sozusagen, bevor dann die Spracherzeugung passiert, kann ich einzelne Wörter noch mal nehmen und quasi eine eigene Lautschrift dazu hinzufügen sozusagen, ne. Die machen das dann mit 'nem, in dem Fall war das mit 'nem lateinischen Alphabet, weil's wahrscheinlich einfach anwenderfreundlicher ist als Phonilkrieg Alphabet irgendwie dann zu schreiben, aber das hab ich auch schon mal gesehen, aber das ist tatsächlich super-, superviel Arbeit.
Thorsten: Ja, also das macht so, also es geht ja auch son bisschen, vielleicht geht's auch in diese Richtung, was es früher schon länger gibt, das sogenannte SSML, das waren solche Speech Synthese, Mark up Language, also XML Notationen.
Jan: Das wahrscheinlich das, was wir im Hintergrund machen, dann, ne? Genau, wo
Thorsten: Du halt irgendwelche XML Tags reinmachst. Wie gesagt, ist auch 'n bisschen schon was Älteres in der für der Technologie. Da konntest Du aber auch so vielleicht ähnlich einzelne Wörter in so XML Tags setzen und da die Aussprache, vielleicht auch nur was sind, was die Höhe oder was auch vielleicht die Sprache angeht, son bisschen abgrenzen.
Garrelt: Aber ist Lautschrift vergleichbar mit diesen, ich hab's schon wieder vergessen, Phonem?
Thorsten: Boah, da fragst Du jetzt den Nichtlinguisten. Das kann ich dir gar nicht sagen. Also ich ich weiß nur, wie gesagt, man kann das relativ leicht auf testen. Also wenn er sich e-speak installiert, kann das relativ leicht ausprobieren. Okay. Okay. Und Jan tippt schon. Ich weiß jetzt gar nicht, ob der im Hintergrund schon grad hier googeln. Aber ja, vom Prinzip her kann man das dann machen und dann siehst Du auch diese phonetische Repräsentanz. Mhm.
Garrelt: Ja,
Thorsten: ob das, das ist was als Lautsprecher, ob das jetzt quasi Alliassen sind für das Gleiche. Mhm.
Garrelt: Das kann ich
Thorsten: dir so nicht sagen.
Garrelt: Also das
Jan: hat man das Internet gefragt. Richtig. Und wenns im Internet steht, das ist ja meistens richtig. Also, lautschrift ist ein, sondern andersrum. Das IPA, also das International Finatic Alphabet, was Thorsten grade angesprochen hat, ist eine Lautschrift. So, was quasi eine Art ist, darzustellen, wie Du Okay. Wörter ausspricht. Es gibt nebenbei da quasi auch noch andere, aber es ist quasi nicht dasselbe, sondern das eine ist übergeordnet zu dem anderen zu verstehen.
Garrelt: Okay, gecheckt. Aber ich kann mir schon, also ich geh eigentlich stark davon aus, dass andere Sprachen andere Vorname haben als in Deutsch, weil es gibt ja andere Sprachen, die bestimmte Klänge haben, die wir gar nicht haben.
Jan: Genau, aber es würde ja trotzdem heißen, dass ein mehrsprachiges Modell zu trainieren, ich nicht komplett bei 0 mit 'ner anderen Sprache anfangen muss, sondern ich müsste eigentlich nur mein Sample so weit ergänzen, dass diese, von dem ich die fehlen, irgendwie mit drin sind. Das wär ja schon eine deutliche Arbeitsersparnis, als noch mal bei 3000 anzufangen.
Thorsten: Das stimmt, also wenn Du zum Beispiel sagst, ich möchte Englisch, also jetzt Das fehlt
Jan: vielleicht so das th, so sage ich mal so ganz stupide, ja, dann suchst Du halt noch 'n paar Sample da dazu, aber Du musst halt nicht ein deine ganzen Grundvokale und sowas irgendwie noch mal noch
Garrelt: mal noch
Jan: mal anfangen, maybe. Ja, spannend, spannend auf jeden Fall. Ich warte immer noch auf den Tag, wo wir sone AI Podcastfolge erzeugen können. Wir haben's ja zuletzt probiert und es hat einfach nicht funktioniert.
Thorsten: Wobei erzeugen könnte bestimmt schon, ob sie jemand hören will, ist die Frage.
Jan: Ja, also wir hatten, es gibt so 2 Use Cases, die ich mir immer wieder angucke. Das eine ist, wir haben mal vor 'n paar Monaten mit sonem Kurzformat experimentiert, das ging nur so 2, 3 Minuten, einen Speaker oder 2 vielleicht, nur 'n Thema sehr knapp vorstellen.
Garrelt: So.
Jan: Das geht mittlerweile tatsächlich einigermaßen brauchbar. Der viel schwierigere Use Case war aber der, und ich weiß nicht, ob das bis diese Folge raus ist, auch schon raus ist, aber wir haben eine Folge auf Englisch aufgenommen, Gerald und Dennis waren auf der Wear Developers Conference und haben damit jemandem auf Englisch gesprochen, weil die Person eben kein Deutsch sprechen konnte oder ihr hättet schnell Schwedisch lernen müssen.
Garrelt: Wär auch nicht besser gewesen.
Jan: Ja, wir wären vielleicht nicht besser gewesen. Und dann war so unsere unser Wunschtraum war im Prinzip, wir nehmen diese Folge auf Englisch auf und machen dann eine maschinelle Übersetzung davon mit aber 'nem Boycedown. Das heißt, wir hören eine deutsche Version mit denselben Stimmen desselben Gespräches und das funktioniert auch sehr gut in 2 bis 3 Minuten Abschnitten, aber es ist so, dass dieses erzeugte Audio im Prinzip alle paar Minuten sich so komplett verändert und einfach über über lange Audiostrecken quasi keine Konsistenz so wirklich gewährleistet werden kann. Ich weiß ehrlicherweise nicht so ganz warum, aber was ich machen müsste, ist halt im Prinzip das Audio selber so zu zerhacken und dafür sorgen, dass halt nie ein Sample länger ist als 5 Minuten, weil dann das im Prinzip immer so umkippt, so und dann müsste das alles wieder zusammenfinden, dann müsste saubere Schnittmarken, also es ist superviel Arbeit, so, ja. Und deshalb haben wir uns da jetzt erst mal dagegen entschieden und die Folge wird auf Englisch veröffentlicht oder ist vielleicht schon veröffentlicht, bis ihr das hier hört. Und jetzt habt ihr noch 'n bisschen Backgroundwissen dazu bekommen. Aber das wär im Prinzip unser Traum, weil es wär natürlich cool, wenn wir noch mehr Leute interviewen können, noch mehr Leute ins Studio holen können, auch wenn sie nicht unbedingt Deutsch sprechen und wir es aber trotzdem deutschsprachig irgendwie anbieten können. Youtube macht das ja für seine Untertitel und für andere Sprachen schon ganz gut, aber, und auch da habe ich mit 'n paar Leuten gesprochen, die das schon länger nutzen für YouTube Content, auch da eigentlich nur gut, wenn nur ein Speaker, eine Speakerin und auch 'n relativ kurzes Video. Und wir haben halt 3 Leute random zusammengeschmissen, ja. Das Transkript dazu, Du weißt ja selber, ne, der der Text muss halt auch gut sein, der dazukommt. Diese automatischen Transkripts von unserem Podcastfolgen sind halt auch nicht hundertprozent clean, weil wir schmeißen halt deutsche und englische Begriffe durcheinander, wir fallen uns manchmal ins Wort so, ja, dann ist halt da auch die Ausgangslage schon einfach nicht nicht ganz so gut. Und ich bin mir sicher, es würde deutlich mehr gehen, wenn ich seit 2 Wochen Arbeit reinsteck für eine Podcastfolge, aber das ist halt, also das können wir uns nicht leisten so am Ende des Tages, ne.
Garrelt: Und wenn das aber irgendwann mal geht, bin ich immer noch gespannt, wie viele Speaker da bereit werden, das zu machen. Also ob dann auch viele sagen würden so, oh nee.
Jan: Gut, also in dem Fall haben wir ja vorher explizit angefragt. Ja. Haben gesagt so, wir nehmen das hier auf Englisch auf, aber unser Plan ist schon, das auf Deutsch zu veröffentlichen. Ja. Und ja, kann natürlich sein, dass es dann trotzdem nicht Leute machen wollen. Ja. Aber Emil, Du bist zumindest am Start.
Garrelt: Du willst es machen.
Thorsten: Ich bin am Start, entschuldige, klar. Also für so was bin ich immer zu halten.
Jan: Was man natürlich auch mal versuchen kann, ist eine rein deutsche Folge aufzunehmen, also so wie wir's quasi immer machen und die dann ins Englisch zu übersetzen, ob das quasi besser funktioniert, weil dann quasi die Übersetzung andersrum ist und das Ausgangstranskript 'n bisschen sauberer ist und so was alles, das haben wir jetzt noch nicht probiert, weil wir dafür den den Use Case so nicht haben. Also ist jetzt nicht unser Anliegen, morgen die Programmierer auf Englisch irgendwie zu publishen, aber ja. Wär wär mal interessant, einfach nur der des Versuchswillens, ob das so rum besser funktioniert.
Thorsten: Das Lustige ist, ich hab jetzt auch grad gestern oder heute, ich weiß es gar nicht mehr, hab ich die Mail nämlich von Youtube bekommen, dass das jetzt für den 1000 Was kann dann auch zur Verfügung steht? Mhm.
Garrelt: Oder jetzt,
Thorsten: weil das würde, glaub ich, etappenweise freigeschaltet, dieses automatische übersetzende Synchronische Wir sind
Jan: ja auch auf Youtube. Da können wir's dann mal testen, wenn wir da reinkommen.
Thorsten: Genau. Vielleicht ist das jetzt mal einfach mal son nächste spannende spannender Test, einfach mal zu gucken, wie's wie's da funktioniert. Aber das Und Du hast
Garrelt: es bei denen noch nicht getestet?
Thorsten: Nee, ich hab jetzt grade ganz frisch kam die Mail rein, dass das jetzt, ich weiß nicht, ob's schon jetzt zur Verfügung steht oder ob's jetzt zeitnah freigeschrieben ist.
Jan: Du bist ja auch immer allein in deinen Videos, ne?
Thorsten: Ich bin tatsächlich allein in meinen Videos. Ja. Na, wobei das stimmt. Ich hatte schon auch 1, zweimal einen Gesprächspartner in 'nem Interview, unter anderem auch den den Schöpfer sozusagen von Piperttext to Speech, also der da son bisschen Einblicke gegeben hat. Sehr cool.
Garrelt: Aber wie Youtube das macht, weißt Du wahrscheinlich nicht oder was die für eine Tätowierte?
Thorsten: Nee, das kann ich dir jetzt nicht sagen, aber die
Jan: Da gab's auf der Cloudnext eine Session zu. Also wer das mal anschauen will, kann mal irgendwo im Cloudnext Archiv nachschauen. Dieses oder letztes Jahr war das. Okay. Cool. Dann haben wir, glaub ich, alle meine Fragen zumindest zu dem Text to Speech Thema abgearbeitet. Gerhard, wie sieht's bei dir aus?
Garrelt: Meine auch. Deine auch? Und waren sie alle gut zu beantworten?
Thorsten: Das musst Du lieber antworten, ob Du ob Du's alt bist. Warst Du mit meinen Ausführungen zufrieden?
Garrelt: Sehr zufrieden, ne. Sehr spannend.
Jan: Thorsten, meine letzte Frage zum Schluss immer, gab's irgend eine Frage, die wir dir nicht gestellt hätten, die Du trotzdem gerne beantworten würdest?
Thorsten: Ist eine interessante Frage. Nein, ich glaub, eine Frage nicht. Ich würd höchstens die Chance nutzen, noch mal ganz schamlos Eigenwerbung zu machen, auch noch mal
Jan: Immer gerne?
Thorsten: Für meinen, ja, das hast Du aber jetzt schön bisschen richtig, ist nicht mehr rot geworden, ne, immer gern für Eigenwerbung.
Jan: Ja, Ich mein, es ist ja ein Geben und Nehmen, ne. Also ich mein, wir profitieren ja auch von deiner Expertise hier eine Stunde lang, dann ist das ja vollkommen okay, wenn die Leute da draußen erfahren, was Du sonst so damit machst.
Thorsten: Nein, also ich freu mich, also ich ich mach diesen Youtube Kanal, der ist auf Englisch, ne, vielleicht irgendwann auch automatisch übersetzt auf Deutsch, aber momentan auf englischem Content, wo ich gerne auch so Tutorials mache rund Taxus Speech, Sprachtechnologien, Open Source Sprachtechnologien. Und ich hab immer so diesen diesen verrückten Traum, ich weiß natürlich mit diesem Thema wie Text to Speech, was jetzt nicht so Mainstream ist, aber ich hab immer noch den den Traum, irgendwann mal diesen silbernen Play Button zu bekommen. Mhm. Das ist der Kleinste, denn Du kriegen kannst bei Youtube für nur 100000 Abonnenten. Der Realist in mir weiß natürlich, das wird nicht kommen, aber der Optimist
Jan: Eine alte Einstellung.
Thorsten: Genau, der Optimist hofft immer noch, insofern mach ich jetzt mal schamlos Eigenwerbung. Wer sagt, och netter Typ oder spannendes Thema, da ich mich natürlich, wer auf dem Thorsten Vois Youtube Kanal vorbeischaut und den auch vielleicht abonniert oder eben verteilt oder was auch immer. Also das ist diese schamlose Eigenwerbung. Mir fehlen jetzt nur noch 90000, also das kann nicht mehr lange dauern.
Garrelt: Ich denke, die Kurvistore immer exponentiell bei Abonnenten, oder?
Thorsten: Ja, bei mir nicht.
Jan: Also bei
Thorsten: mir ist das sehr konstant, aber Ich freu
Jan: mich, solange sie konstant in die richtige Richtung geht, ist ja auch. Ja. Da steht der Tropfen, hört den Stein
Garrelt: so, ja. Ich hätte auch nie gedacht, dass es wirklich mal 10000 Leute gibt oder die ihr
Thorsten: sagen, Texas Beach find ich spannend. Also insofern freu ich mich natürlich für jeden und ich krieg auch viel positives Feedback. Das freut mich immer sehr. Insofern ja, Jan, ich arbeite noch in der Einstellung, tschakka. Es kann nicht mehr lange dauern, aber das wollte ich schon noch mal als Eigenwerbung einbringen.
Jan: Ist auch verlinkt bei uns auf der Webseite dann alles.
Garrelt: Ja.
Jan: Wunderbar, dann wären wir fast am Ende, aber wir sind noch nicht am Ende, weil, Garelt, was kommt immer am Ende? Und das bringt natürlich die Frage mit sich, wer seine Hausaufgaben gemacht hat. Garwild hat gesagt, er hat seine Hausaufgaben gemacht.
Garrelt: Nee, das hab sie nicht gemacht, aber ich bin einfach so spontan, dass ich trotzdem was mitbringe.
Jan: Aber das ist ja wie in der Schule früher, wenn so rumgegangen wird und die Hausaufgaben korrigiert werden und Du einfach in dem Moment, wo die Lehrerin losläufst, noch schnell irgendwie anfängst, im Matheheft alles auszufüllen. Und bis sie bei dir ist, ist es da, dann ist ja auch Mission Acomplished.
Garrelt: So lange ich's abgeschrieben hab, ich weiß es halt nicht, ich hoffe, es hat noch keiner diesen Pick, aber ich, mich beschäftigt in letzter Zeit sehr viel clayd code. Und jeder, der das noch nicht ausprobiert hat und 'n bisschen, es kostet leider was, ich glaube, kostenlos gibt's das nicht, es gibt kein Free Teer, Sollte das auf jeden Fall mal testen. Ansonsten Alternative wäre Gemini CLI. Das ist die Bahrent von Google, die ist momentan noch kostenlos. Philipp, bitte hau mich nicht, aber meiner Meinung nach nicht ganz so gut wie Cloud Code, aber trotzdem vergleichbar. Und wer das noch nicht getestet hat, bitte macht's. Es macht sehr viel Spaß.
Jan: Also ich muss ja sagen, wir hatten ja hier diesen Workshop im Haus von dir zu Cloud Code und ich hatte ja danach das auch für das ein oder andere programmier.bar Feature mal verwendet und das war schon beeindruckend, hat Spaß gemacht, so. Na ja, vor allen Dingen, ich hatte das ja bei uns im Channel kurz geschrieben, aber ich kann's ja auch einmal kurz erklären, wir hatten das Problem, dass unser Suchindex auf der Webseite immer son bisschen out of sync mit der Datenbank gegangen ist und das ist ja ein ekelhaftes Problem zu debuggen, weil Du weißt nie genau, wann passiert es und in welchem Datenbankeintrag ist das jetzt und bla und da habe ich einfach so ganz unschuldig hier die IDE aufgemacht, laut Code geschlagen und gesagt, hey, hör mal, ich hab hier dieses Problem, so ist das Projekt aufgebaut und ab und zu läuft mein Suchindex out of Sync. Was kann hier los sein? Und da hat er quasi das komplette CMS einmal so durchgepasst und meine Extensions und die Algolianbindung meinte, ah, her, komm mal da, da ist vielleicht eine Race Condition, hier ist irgendwie eine Exception falsch gehandelt, wenn da ein Fehler auftritt, kann es sein, dass deine Transmission nicht ganz atomal ist und bla bla bla bla bla. So, ja, cool, hast Du auch einen Vorschlag zu reparieren, meinte, ja, ja, ich mach hier mal und repariere dir das mal hier und willst Du übrigens 'n Command haben, deinen Index irgendwie zu reparieren, wenn er mal wieder kaputt ist? So, ja, nehme ich gerne auch noch mit so, ja. Und dann, ich glaub, während diesem ganzen Ding, es hat so 2, also arbeitet ja schon son bisschen, es dauert immer 'n bisschen, ne.
Garrelt: Ja, das stimmt.
Jan: Ich hab, glaube ich, an dem ganzen Fix so 2 Stunden gesessen und musste, glaube ich, ein oder zweimal so was reparieren, was offensichtlich falsch war und so, aber am Ende war's ganz cool. Ja. Und das war halt einfach auch son Problem, wo ich überhaupt keinen Bock hatte, mich damit zu beschäftigen, ja. Aber es war halt cool, so bei Cloud zuzugucken und ab und zu was reinzuwerfen und wie man das besser und anders machen kann und dann macht man's halt doch irgendwie immer so.
Thorsten: Ja. Ja. Ich bin halt auch generell, also auch diese ganzen KIs mittlerweile im Programmierumfeld,
Garrelt: Mhm.
Thorsten: Was die was die können. Also bestimmt, wenn Du jetzt richtiger Seniorentwickler bist und hast dann natürlich auch andere Ansprüche, ne. Also ich meine, nur weil der Code läuft, heißt da nicht, dass er optimal ist. Von Sicherheits Aspekten möcht ich jetzt mal gar nicht anfangen und so weiter. Mhm. Aber ich find's schon beeindruckt, muss ich sagen. Also was da oder auch wenn man immer irgend 'n kleines Helferlein braucht und schnell einfach sagt, ich bräuchte mal irgendwie 'n kleines Skript, was man mal irgendwas macht. Da muss ich sagen, also Claude oder auch die anderen KI Sprachmodelle, da bin ich auch schon beeindruckt, ne.
Jan: Also ich würde schon von mir behaupten, dass ich Anspruch hab an Mike, also ich bin schwer zufriedenzustellen. Kannst Du mal meine früheren Kolleginnen alle fragen?
Garrelt: Und Du meinst, Du hättest trotzdem geschafft, deinen Anspruch zu geliefert?
Jan: Oder zumindest halt so viel Vorlage geliefert, dass es für mich halt nur noch war, ich pass hier halt was an und mach da was und so, aber man kommt halt schon, weißt Du, das Ziel ist so in in Sichtweite irgendwie und das ist nicht himmelweit weg davon.
Garrelt: Und ja, für mich ist er einfach am geilsten, weil ich so viele Projekte, die ich im Kopf hab und nie gemacht habe, weil ich dachte, boah, ich hab jetzt keine Zeit, damit anzu, also ich hab keine Zeit dafür, das einfach machen zu können, weil das halt so nebenher läuft. Das ist für mich son Riesenbaumkitzeln so. Ja, das find ich gut. Was fürn Projekte? Ja,
Jan: ja. Was hat Gareth noch so am Start?
Thorsten: Ja, aber kam ja auch wie diese klassischen 80 20, ne, wenn die KI sagt, ich hab die 80 Prozent schon mal generiert. Immer wissen alle, die 20 dauern noch 'n bisschen. Ja. Aber wenn Du, wie Jan sagt, ich will das halt natürlich auch noch nach meinem eigenen Standard, ne, noch mal schön und optimal haben und so weiter. Ja. Aber dass Du überhaupt die Zeit hast, dass okay, das major Teil ist schon mal generiert und jetzt kann ich noch mal relioen und das kann es noch mal vielleicht 'n bisschen
Jan: Ja oder auch einfach mal testen, ob's halt funktioniert, ne, wie dieser Game Prototyp, den Du da in deiner letzten Zeit gezeigt hast, einfach mal so. Also ist ja egal, in dem Moment tatsächlich, wie der Code unten drunter aussieht, wenn Du einfach nur gucken willst, so, funktioniert der Gameluke da und hätte man da Bock drauf, sich da mehr mit zu beschäftigen, dann ist ja einfach schon mal was Wertes zu haben.
Garrelt: Dann ist da sind wir bei Vibe Coding. Let's go.
Jan: Ja, da ist
Garrelt: das ist
Jan: eine andere Diskussion. Da müssen wir noch mal noch mal schauen. Okay, cool. Thorsten, was hast Du so eingepackt?
Thorsten: Ja, tatsächlich hab ich weder mein Hausaufgaben gemacht, noch gar nicht so gut improvisieren. Nein, also ich bin jetzt die letzten letzten Tage dann doch sehr in meinem Tunnel. Ich hatt's ja gesagt, seit 'n paar Tagen läuft das neue Training. Das heißt also, alles, was ich momentan im im Internet suche oder wo ich mich bewege, ist tatsächlich sehr auf das Ziel ausgerichtet, jetzt das Neue mit TTS zu gucken. Das ist jetzt nicht so spektakulär, aber das ist halt tatsächlich das, was mich die letzten Tage sehr gebunden hat. Und auch die gelegentlichen Abstürze von Google Co Lab, die mich son bisschen in den Wahnsinn getrieben haben, dass ich rausgefunden hatte, wie ich das Training sauber wieder aufsetzen konnte, ohne den Trainingsbestand zu verlieren. Also insofern hab ich jetzt nichts so ganz fancy mäßiges Arbeit.
Garrelt: Ja, Du
Jan: hast grade schon Google Collab und Opheus gedroppt. Also das sind ja auch schon 2 coole Sachen.
Thorsten: Das stimmt, vielleicht, genau. Vielleicht ist es für mich schon jetzt deine letzten Tage nach so viel recherchieren und Lesen schon so so unspektakulär. Aber ja, dann, Jan, danke für den für den für den Halmen, den Du mir erreichst. Ich hab mich vorbereitet auf und ich möchte gerne und Google Kollab, ja und Ich
Garrelt: kenn das, wenn man da so drin steckt, dann hat man, ab ich oft das Gefühl, okay, das kennt dann doch jeder oder das weiß doch, was jeder. Man merkt dann gar nicht so, okay, was könnte denn interessant daran sein für andere? Aber Kolleb kann es zum Beispiel auch, ich kann beides noch nicht. Also ich werd's mir auf jeden Fall mal angucken. Ist wahrscheinlich 'n GitHub
Jan: Ja, ja, aber da kannst
Thorsten: Du bei, kannst Du bei GitHub gucken und dieses Google Co Lab, da hast Du ja diese, ich heißt ja Jupiter Notebook, das ist ja quasi das, was Du auch lokal betreiben kannst. Das gibt's ja da eben als Cloud Variante. Mhm.
Garrelt: Und das
Thorsten: ist immer ganz praktisch. Und wie gesagt, sofern mir die Google Cloud noch gut gesonnen ist, läuft das Training ansonsten noch. Ansonsten muss es nachher wieder aufsetzen.
Jan: Aber Gerrit Du hast auch son son NAS zu Hause am Start, gell? Ja. Hast Du 'n VPN? Nee. Auch am Start, so nach Hause telefonieren zu können?
Garrelt: Nee, das mache ich mit Cloud vielleicht.
Jan: Ganz schade,
Garrelt: da kannst Du
Jan: uns jetzt fast so meinen Übergang ruhen. Also Let's go.
Thorsten: Kann ich einspringen, weil die Tasse Nas und ich hab ein VPN.
Jan: Aha, sehr, sehr gut, sehr gut.
Thorsten: Ja, ich kann nicht machen.
Jan: Immerhin, 1 ist vorbereiten. Was was was was was machst Du als VPN?
Thorsten: Ich hab auf meine Fritzbox Projekte aktiviert. Für das, was ich mache, reicht's.
Jan: Ich nutze Tailscale als VPN, das ist ja son hübsches GUI eigentlich für WireGuard als als VPN und hab eigentlich 'n ganz anderen Pick, aber manchmal hat man ja so das Problem, man muss Dateien irgendwie Geräten austauschen, die das nativ nicht so cool können. Also ich mein, wenn man zwischen 'nem iPhone und 'nem Mac was austauscht oder zwischen 2 Macs, das ist ja irgendwie so super integriert und das läuft eigentlich so mit Airdrop. Aber wenn Du an von einem Android Telefon an einen Mac was übertragen willst oder von einem Mac an deinen Windows Rechner oder von deinem Windows Rechner an deinen NAS mal eben was droppen, das ist irgendwie immer 'n bisschen schwierig und Tailscale hat da son cooles Feature mitgebracht, das nennt sich Tail Drop und das funktioniert mit all deinen Geräten, die in deinem Tailscale VPN sind, ist im Prinzip wie Airdrop dafür. So, Du kannst einfach dann auf deinem Handy über die Share Extension, egal ob iOS oder Android sagen, hier, teil mir das mal und dann poppen all deine anderen Geräte auf, die irgendwie auch in deinem VPN drin sind und die das einfach so in dem Downloads Verzeichnis bei denen oder
Garrelt: Ach, das ist bei denen oder
Jan: Ach, das ist nicht mal eine
Garrelt: App oder so was? Was? Die brauchen nicht mal eine App oder so was von Tellsale.
Jan: Na, die brauchen halt den Talescale Client, den VPN Client sozusagen ganz normal installiert, aber der bringt das quasi so
Garrelt: mit. Ah, okay.
Jan: Und wenn der Headless bei dir auf 'ner Linux Maschine läuft, dann kann, musst Du halt vorkonfigurieren so, wo soll das irgendwie landen? Unter Windows und macOS landet's in 'nem Downloadverzeichnis, bei den Handys, pop so eine Notification auf, willst Du diese Datei annehmen bla bla. Und ist einfach super einfach so, weil ich hab halt, also bei mir zu Hause, mein Gerätuhrpark ist halt kreuz und quer gemischt. Ich hab irgendwie Windows Laptops, ich hab MacBooks, ich hab Linux Laptops, ich hab die NAS Server, ich hab Gaming PCs, ich hab Android Geräte, meine Kinder haben irgendwie Android Tablets, whatever so, alles quer bunt und manchmal will man halt doch irgendwie einfach nur 'n Foto oder eine Notiz oder keine Ahnung was, eine Confrik Datei hin- und herschieben und früher hab ich mir halt irgendwie immer selbst E-Mails geschrieben, so, ja, das ist so der gängige Hack, aber mit Childrop ist das einfach unglaublich einfach und es funktioniert 100 Prozent zuverlässig und tatsächlich sogar ortsungebunden, weil es ja über deinen VPN funktioniert. Das heißt, von hier aus irgendwie war's schnell an meine Frau zu droppen oder so zu Hause, das hat auch irgendwie überhaupt kein Problem. Ja, deswegen mein Tipp 2 in 1, Talescale als VPN und Tales Drop als als Feature von von Tail Scale, mega nice.
Garrelt: Tail Scale kostenlos?
Jan: Ist, nein, ist leider nicht, also war mal Open Source, ist jetzt 'n kommerzielles Produkt, hat aber einen abnormal günstigen Freeplan, wo der CEO auch immer sagt, so, ja, ja, das wir freuen uns über die Community und der geht auch erst mal nicht weg und so. Und selbst wenn der günstigste kostenpflichtige Plan kostet, glaub ich, 5 Dollar im Monat oder so. Also wenn ich den nutzen müsste, würde ich's auch ohne irgendwie zu zögern machen, weil das das, also so viel von meiner Infrastruktur läuft da drüber mittlerweile. Das ist ja
Garrelt: cool. Sehr cool.
Thorsten: Das klingt auch wirklich am guten Anwendungsfall, weil ich mein, viele werden ja grad, die son bisschen die technische Infrastruktur zu Hause haben, ist ja sehr heterogen auch oft, ne. Also ich kann das extrem gut nachvollziehen, ja. Sind da auch sehr bunt aufgestellt, was das angeht. Und tatsächlich ist es auch so, man teilweise über die Nas, dass es halt irgendwie hin und her synchronisiert wird oder geschoben wird oder auch mal per E-Mail geschickt. Also insofern ist der auf jeden Fall schon mal superspannend. Das werd ich mir zu Hause gleich mal angucken. Mhm.
Jan: Ja, dann hat's hat's ja schon gelohnt, dass Du hier warst, Thorsten, unabhängig davon von allem anderen, was Du uns erzählt hast. Für uns hat sich's auf jeden Fall gelohnt.
Thorsten: Ja, dann dank ich auch heute erst mal, ja, für die Einladung dafür, dass ich hier sein durfte. Da hatten wir sehr viel Freude bereitet, wie schon beim Meet-up. Ja.
Garrelt: Jetzt bin ich irgendwie noch trauriger, dass ich da war. Aber schön, dass Du noch mal vorbeigekommen
Thorsten: bist.
Garrelt: Das fand ich irgendwie cool.
Thorsten: Ja, sehr gerne.
Jan: Wunderbar. Vielleicht, man sieht's ja immer 2 in meinem Leben. So, ich hab Thorsten ja schon 2 gesehen, aber Garidoo noch nicht. Vielleicht ergibt sich irgendwann in Zukunft noch mal noch mal was dafür oder wir sprechen noch mal, wenn unsere eigenen AiG Versuche irgendwie mehr mehr Füße bekommen, keine Ahnung. Ansonsten erst mal 1000 Dank Thorsten, dass Du da warst. 1000 Dank Garrit, dass Du's doch noch pünktlich hergeschafft hast.
Garrelt: Mhm. Ja, 1000 Dank gern, dass Du so flexibel warst und
Jan: Alles gut. Das spummst. Alles gut. 1000 Dank auch an Fabi, der nicht mit am Start verarbeitet und Zeit genommen hätte zu Hause, irgendwie anzusprechen. Und natürlich danke auch an alle Zuhörer, Zuhörerinnen da draußen. Wenn ihr Fragen, Anregungen, Kritik habt, dann könnt ihr jetzt immer gerne schreiben an Podcast at Programmier Punkt bar oder auf den gängigen Social Media Kanälen. Wir freuen uns immer über Nachrichten Hürde?
Garrelt: Oder 'n Discord.
Jan: Ja, das wollt ich auch grad noch. Dankeschön. Alles alles gut. Wir können uns auch gerne auf dem Discord Server besuchen, joinen, was sagt man da? 'Njoint uns aufm Discord Joints auf keinen.
Thorsten: Ja, ja.
Jan: Okay, also da seid ihr auch herzlich willkommen, ihr seid herzlich willkommen auf unseren Meetups, die auch jetzt wieder anstehen, auf unserer Konferenz, die auch ansteht. Wir sehen uns auf jeden Fall und wenn nicht, hören wir uns spätestens in 2 Wochen. Bis dahin, tschau tschau und beste Grüße, vielen Dank. Macht's gut.

Text-to-Speech mit Thorsten Müller

Shownotes

Picks of the Day

Claude Code

Orpheus TTS

Taildrop

Speaker Info

Thorsten Müller