[EN] The AI Cookbook show: So liebe Leute, also... Arbeitest du im Büro? Ja, hast du so dein PC oder Mac auf und dann klickst du dich durch Sachen durch und dann kopierst du Sachen und dann füllst du Excel-Dateien aus und so weiter? Wahrscheinlich so 90 % der Leute, diesen Podcast hören. Das Problem ist, in dem Fall ist die KI wahrscheinlich besser wie du. Ja, das wissen wir Malcolm, du kommst immer mit deinen Benchmarks, dass die KI sehr clever ist. Nein, meine, also bei normalen Bürotätigkeiten, weißt du? Und zwar, ist das erste Mal vor drei Tagen, dass eine KI bei Bürotätigkeiten besser ist, als ein durchschnittlicher Mensch. Ja, und wer hat das jetzt geschafft? Child GPT. Und zwar, Child GPT hat ein normales Modell, ein neues Modell rausgebracht. Das nennt sich GPT 5.4. Und es gibt einen Benchmark, das nennt sich OS World Verified. OS World Verified ist so eine Art standardisierte Test, bei dem KI echte Desktop-Aufgaben erledigen müssen. Und das haben KI's vor einem halben Jahr nicht mal schaffen können. Einfach nur die Maus richtig bewegen, irgendwo richtig klicken, Programme öffnen, Browser navigieren und Formulare ausfüllen. Halt so normale Bürotätigkeiten, wo ihr eigentlich sehr, sehr gut seid. Wofür man einen IQ normalerweise von 2 braucht? Hey, du fängst bei uns an. Hier ist eine Excel. Hier ist ein PDF. Tipp einfach das, was im PDF in die Excel rein ist. Und das konnten KIs komischerweise nicht unbedingt sehr gut. Aber auch Menschen machen diesen Benchmark. Auch Menschen dürfen mitmachen. Und Menschen, der Average bei Menschen ist 72 % der Sachen in diesem standardisierten Test, die sich schaffen müssen, schaffen Menschen. Und ChachiPT? 75%. Und das ist das erste Mal, dass ein General Purpose KI-Modell, also kein Spezialtool, sondern einfach das Allzweckssystem, so ein Gemini, ein Diebsieger, weißt du was ich was? Ein bisschen über die menschliche Performance liegt. Und das sind schon relativ normale Aufgaben, da drin sind. Schauen wir uns auch gleich an. Das Problem ist, das ist heute. Das heißt, in drei Monaten schafft die KI mehr oder weniger alle Aufgaben, die ihr am PC macht. Alle repetitive Aufgaben, alle Aufgaben, wofür man eine IQ von zwei braucht, schafft das ja GPT. Und ja, Leute. Schauen wir uns mal diesen Untergang an, warum ihr eigentlich irrelevant seid vorm PC. Ich sage nicht generell, ihr seid nicht irrelevant. Generell aber alle Tätigkeiten, die ihr vorm PC macht, die sind irgendwann mal irrelevant, weil die können eine KI dann schneller und besser und die könnt ihr eine KI angeben, sagen die KI soll es machen, genauso wie OpenClaw. Heute kannst du vor deinem PC sitzen bei OpenClaw. und sagt mach ABCDEFG und ihr seht wie OpenClaw sich auf dem PC durcharbeitet. Aber das ist nicht OpenClaw, weil OpenClaw nutzt 0,0001 % der gesamten Menschheit. Das ist ChachiPT. Und ChachiPT nutzen jetzt schon 800 Millionen Leute im Monat. Also ja Leute, Action Let's Go! Okay, also was hat sich jetzt geändert bei diesem neuen Chachi-BT? Okay, also es gibt drei Sachen die interessant sind drei. wisst ihr, Berater reden immer in drei. Ihr erinnert euch, Berater reden in drei, weil unser Gehirn zu klein ist, mehr merken wir uns nicht. Das erste ist GDP-Val. Also, GDP-Val ist was anderes. Das ist nicht den Benchmark, wir gerade besprochen haben, sondern das ist so ein Test der KI-Performance von echte Berufsgruppen vergleicht. Und diese Berufsgruppen, das sind viele Berufsgruppen, ich glaub, das sind 44 oder 45 Berufsgruppen, ja, also ... Buchhalter, Analysten, Berater, wie Malcolm, Administratoren und so weiter. Jetzt, das Vorgängermodell GPT 5.2 hatte 70 % bei GDPWell. Jetzt, 5.4 hat 83%. Das ist ein Sprung von 13 % in einem Modell von circa zwei oder drei Monaten. Es waren zwei oder drei Monate jetzt dazwischen. Bumm, zack. 13 Prozent besser. Und nicht nur kann es Sachen auch besser machen, sondern es hat ein größeres Context Window. Context Window ist das Short-Term Gehirn, quasi das Rahmen von der KI. Also die Anzahl von Menge von Text, dass die KI zu selben Zeit verarbeiten kann. Und wir wissen, Context Window ist das größte Problem, das alle KIs auf der ganzen Welt im Moment haben. Und GPT 5.4 hat ein Kontext-Window von 1.000.000 Trogens. Das sind so circa 750.000 Wörter. Das sind mehrere dicke Bücher gleichzeitig. Und wer das ein bisschen in Kontext setzen will, sagen, ja, ein Co-Pilot, wenn ich da reingehe und ich schmeiße da zwei Dokumente, die 100 Seiten sind, dann kann das Co-Pilot nicht lesen. Obwohl dahinter eigentlich Chart-GPT ist. Ja. Aber es wird postuliert, dass das Context Window hinter CoPilot eigentlich nur 150.000 Tokens hat. Was heißt das für euch? Das heißt, sobald 5.4 in CoPilot drinnen ist, kann es auf einmal acht Mal mehr Daten lesen in einem einzigen Chat. Und das ist cool. Weil solche Kontextwindows, die sind wir gewohnt von Anthropic, sind wir gewohnt von Gemini. Aber das ist das erste Mal, dass OpenAI solche Kontextwindows überhaupt angeboten hat. Und das dritte ist Investmentbanking. Also Martin, ich weiß, du hörst mir zu. Und ich weiß, du arbeitest in einer Privatbank. Aber auch ihr habt eine Investmentbanking-Abteilung. Also ... Bis jetzt haben wir ein bisschen gepreacht und propagiert, dass wir gesagt haben, hm, Claude ist da ganz toll, oh jetzt ist, äh, jetzt ist Excel rausgekommen. Also Excel, sorry. Claude in Excel ist rausgekommen und Agent Modus in Excel ist rausgekommen. Aber jetzt gibt es Chat GPT für Excel. Und das ist nicht, dass ihr eure Excel-Dateien reinwirft in Chat GPT, sondern das könnt ihr euch runterladen, das haben nicht alle. So jemand, zum Beispiel ein Enterprise-Modell hat, der hat das. Und dann kann man die Excel-Tabellen direkt in Excel mit Chat-GPT verarbeiten. Und es ist ... Auch das ist gesprungen bei der Genauigkeit. Es ist, glaub von 70 auf fast 90 Prozent gesprungen, die Genauigkeit Finanzmodelle aufzusetzen, irgendwelche Sachen in Excel zu machen, Analysen und so weiter. Und der Preis ... ist 2,5 Dollar pro Millionen Input Tokens. Oder 10 für Output. Jetzt, damit wir das ein bisschen in Kontext setzen, das ist Peanuts. Sport, sport, billig. Also Anthropic ist ja mehr oder weniger la crème de la crème im Moment, also Claude. Ihr wisst, Anthropic ist die Firma, die Claude macht. Und die sind sündhaft teuer. Und ChatGPT gibt das nicht gratis, aber die geben es fast gratis her. Mein Gott, das waren jetzt drei Sachen. Eine Vierte geht noch. Okay, also, die Falschaussagen, die Halluzinationen, im Vergleich schon zu einem Modell, das weniger halluziniert, das nennt sich GPT 5.2, das jetzige ChatGPT, tut es 30 Prozent weniger halluzinieren als ChatGPT 5.2. Also, es ist ein neues und ein bisschen ein anderes, eine andere Art von Modell. Okay, du sagst, ist ein anderes Modell. Warum ist es ein anderes Modell? Okay. Reden wir mal über diesen digitalen Mitarbeiter. Also, wisst ihr, eigentlich in diesem Podcast rede ich nicht drüber, dass euch die Kai ersetzen wird, sondern dass ihr quasi Orchestraters werden solltet von Mitarbeitern. Also, ich gebe euch ein ganz konkretes Beispiel. Uns ist eine Mitarbeiterin abgesprungen. Und von der rede ich sehr oft und ich rede auch sehr Positiv in diesem Podcast. Sie heißt Purani. Was hat Purani für mich gemacht? Viele Sachen. Sie hat zum Beispiel, bevor ich einen Workshop mache, hat sie die Slides vorbereitet. Und dann sind wir von Slides weggegangen, dann sind sie die Dashboards vorbereitet. Dann nach einem Workshop hat sie alles, was aufgenommen worden ist, hat sie dann genommen und dann verarbeitet als Report für den Kunden. Und dann hat sie Research für mich gemacht, zum Teil für diesen Podcast. Und Dann hat sie so, sagen wir mal, so 10, 15 Sachen gemacht, die sehr, sehr großen Wert für diesen Firma gebracht haben. Und sie ist eine ganz tolle Promterin, weil sie ja vorher eine Journalistin war. Ja? Okay. Jetzt geht sie. Und wir wünschen ihr sehr viel Glück. Und sie wird sicher sehr coole Sachen machen. Aber dann haben wir am Anfang natürlich Panik geschoben, wie in jeder Firma. So, ⁓ jetzt geht sie. Dann haben wir das ... ganz rational, richtig ab Tag zwei haben wir uns das überlegt. Dann haben gesagt, okay, was macht sie? Wie viele KI-Agenten muss ich aufsetzen, damit ich sie ersetzen kann? Und ein paar der Sachen, die schwierig sind zum Ersetzen sind, wo halt viele Sachen zusammenkommen und dann muss man der KI sagen, hol dir das dort raus und das hier und dann machen neuen Format und so weiter. Und Ein paar dieser Sachen habe ich mit OpenClaw probiert. Und bei OpenClaw funktionieren sie. Aber OpenClaw ist ja nicht unbedingt so enterprise ready. Und dann haben wir uns gedacht, das kann Cloud Code. Und Cloud Code kann viel mehr Sachen schon, die sie macht. Aber jetzt kommt ChachiPT 5.4. Weil ChachiPT 5.4, du kannst dann sagen, nimm meine Maus, bewegt sie dorthin. tippt das auf der Tastatur, navigiert dorthin, öffnet dieses Programm und wechselt zwischen den Anwendungen. Ja, das kann man dort. ChatGPT 5.4, Native Cloud Nutzung, Computernutzung. das könnt ihr nicht, wenn ihr rein tippt in ChatGPT. Das müsst ihr aber quasi aufsetzen. Aber das kann ChatGPT jetzt sehr gut. Und dann haben wir weniger gestresst. Weil dann haben wir uns gedacht, hm, also so, hm. 80 % von dem, was sie kann, das können wir ein paar KI-Agenten übergeben. Jetzt, wären diese KI-Agenten so kreativ sein wie sie? Nein, wären sie nicht. Aber die können Sachen sehr gut eins nach dem anderen immer wiederholen. Das ist ja das Coole daran. Und das zeigt eben der OS World Score. Weil der OS World Score, ist diese Desktop-Navigationstest, okay? Charts GPT 5.2, also die vorige Version lag bei 50 % und die neue Version liegt bei 75%. Es hat sich extrem verbessert in einer einzigen Generation. Nicht eine menschliche Generation, eine KI-Generation. Innerhalb von drei Monaten. Okay, jetzt warum nochmal, es so wichtig ist, dass es Sachen klicken kann bei uns am Desktop? Weil ihr dafür Menschen zahlt. Ihr zahlt die Saläre von Menschen, dass sie das machen. Und acht Stunden am Tag. Und Menschen, was machen die? Die sitzen in Meetings. Dafür zahlt ihr sie, dass ihr 90 Prozent vergesst. Uff. Dann zahlt ihr Menschen, dass die irgendwelche Formulare aufmachen, dass irgendwo in Excel eintippen, dass sie irgendwo verschicken und so weiter. Dafür zahlt ihr Menschen. Und wenn ihr eine Person coacht und ihr sagt, du, kannst du den Prozess verbessern, dann können sie den sowieso nicht verbessern. Und wenn sie den verbessern können, vielleicht ⁓ zwei oder drei Prozent. Aber nicht wie das, was jetzt mit Churchy Pity passiert ist. Die Präsentationen, die gebaut worden sind von ChattGPT 5.2, sind in diesem Fall 70 % besser geworden als die von GPT 5.2. Also 5.4 auf 5.2. 70 % besser. Und das ist jetzt ein digitaler Mitarbeiter, der 2,5 Dollar pro Millionen Wörter kostet. Also wie gesagt, absolut absolut Peanuts. Okay, jetzt was heißt das jetzt für Leute, die im Mittelstand arbeiten? Und warum noch mal Mittelstand? Weil erinnert ihr euch, die großen Buden, da wird sich nichts bewegen. Das wird sehr, sehr, sehr schwierig sein, bis die irgendwas umsetzen können. Aber wir glauben an den Mittelstand. Diesen Schweizer, Österreichischen, deutschen Mittelstand. Warum? Weil es ist relativ leicht. 1000 Leute, 5000 Leute. oder hunderte von Leuten schnell eine KI beizubringen und den Use Cases zu zeigen, die spannend sind. Jetzt, das Gute für diesen Mittelstand ist, es gibt eine gute und eine schlechte Nachricht. Die Gute ist, ihr habt noch ein bisschen Zeit. Die schlechte ist, die Uhr tickt ziemlich schnell. Warum? Also, GPT-5 kommt jetzt auch mit Finance Plugins, genauso wie mit Finanzen Plugins vor einem Monat gekommen ist. Und diese Finanzen Plugins sind eben Chancen oder Bedrohungen für unterschiedliche Abteilungen bei euch. Die erste ist natürlich Controlling. Leute, wer heute ein CFO hat oder jemand, die Abrechnung macht, die Monatsabschlüsse, der, er oder sie sollte nie wieder ohne KI arbeiten. Like a hundred billion percent. Monatsabschlüsse, Abweichungsanalysen, Reporting und den ganzen Misthalt. Leute, GPT 5.4 macht was mit 87 % Genauigkeit bei Finanzmodellen. Und jetzt könntet ihr sagen, aber 87 % heißt das ja auch Fehler sein können. Und ich sag, ne Stopp. Deine Mitarbeiter machen das gar nicht. Deine Mitarbeiter machen die Monatsabschlüsse und dann, wenn du reingehst und sagst, du machst eine ganze Abweichungsanalyse von, keine Ahnung, Alle unterschiedlichen Produktionsstandorte, wir haben, jede einzelne Person in der Firma. Schau mal, mach eine Abweichungsanalyse. Wer verdient mehr wie letztes Monat, wie die letzten drei Monate, wie das letzte Jahr? Wer hat die höchsten Spesen? Warum? Und alles drum und dran. Vergiss es, vergiss es. Das heißt, es geht nicht darum, dass man sagt, die Genauigkeit ist nicht ganz okay. Es geht darum, dass man sagt, die Genauigkeit ist nicht okay, deshalb muss ein Mensch noch drüberschauen. Aber das sind Prozesse, die wir überhaupt nicht machen. Und dann gehen wir nicht nur ins Reporting, sondern ins Financial Planning. Budget, Forecasting, Szenarioanalysen. Leute, ihr setzt die ganze Firma on hold für einen Monat und jede Abteilung soll sein Budget machen. Also, wer das nicht kennt, dann arbeitet ihr in einer super Firma. Aber es gibt Firmen, da steht die ganze Firma, einen Monat lang. Nur für Budgetplanung. Und ich sag, stopp, lass die KI die Budgetplanung machen. Drei unterschiedliche Varianten. Und das den Abteilungsleiter zeigen und sagen, könnte das so passen, denkt ihr, dass das richtig ist. Brauchen wir wirklich so viel Geld oder werden wir wirklich so viel Geld nächstes Quartal verdienen? Das heißt, eure Mitarbeiter fangen nicht von vorne an. Und das Dritte ist Buchhaltung. Jetzt nicht die komplexe Steuerthematik. Wisst ihr das? Überlasst das noch immer den Menschen. Aber alles, was repetitive Verbuchungen ist und so weiter. Also ich war draußen in Wien, da waren so 100 Firmen. Das war vor, ich glaube, vor ein paar Tagen. Nee, das war vor einer Woche. Und da war ich auf dem Stage vor 100 Leuten. ist fantastisch. Da habe ich dann mich hingesetzt, habe ich einen Stuhl gebracht, da habe ich mich hingesetzt. Und da habe ich gesagt, jetzt stellt euch vor, ihr seid am Klo. Und dann habe ich so ein paar ... Ich weiß nicht, wie diese Zetteln heißen. ist so, wenn man irgendwo was zahlt, und dann kriegt man einen Zettel. Und die hab ich dann genommen und dann hab ich so Fotos davon gemacht und dann hab ich gesagt, schick's mir bitte per E-Mail und mach eine Excel draus und bitte, keine Ahnung, wandel es ⁓ und schreib eine E-Mail darüber und speichere es auf diesen SharePoint und alles drum und dran. Und dann hab ich irgendjemand in the Crowd gebeten, hab ich gesagt, du, was ist deine E-Mail-Adresse? Er oder sie hat mir die E-Mail-Adresse gegeben und eineinhalb Minuten später ist die E-Mail gekommen. Aber nicht die E-Mail. Die E-Mail, das Ding als PDF, das Ding als Excel, das Ding ... wurde umgewandelt hat. Es ist verrückt. Und diese repetitive Sachen, Abstimmungen, Belegsortierung. Belegsortierung, Leute. Dann war die Pause, dann sind sie gekommen, dann haben sie gesagt, weißt du was, ich hab so viele Dateien, könnte das Ding das sortieren? Und ich habe immer einen Ordner, der heißt auf meinem Desktop, To Order for Codex. Oder To Order for Claude. Dann hab ich gesagt, ja klar, schauen wir. Du machst Codex auf im Terminal, sagst, da ist der Ordner. Hier sind 50 GB an Dateien. Könntest du sie ordnen. Und du siehst, neue Folders gemacht werden, wie die Sachen herumsortiert werden, alles drum und dran. Und wie er sich eine Indexierung baut, dass das nächste Mal, wenn eine KI reingeht, sie das sofort findet. Leute, dafür braucht ihr einen Praktikanten, der das ganze Monat sitzt. Und wer mag schon Ordner sortieren? Wer mag schon Beleg sortieren? Und das sind eben die ganz tollen Use Cases, weil mit GPT 5.4 könnt ihr den ganzen Mist machen, den ihr sowieso nicht gerne machen wollt. Ok, also heute kürzere Episode. Zum ersten Mal in der Geschichte hat ein Allzweckwerkzeug, also nicht eine super tolle KI, sondern einfach nur die KI, für die ihr 20 Euro im Monat zahlt, menschliche Aufgaben übertroffen. Nicht bei Schach, das konnte schon vor 20 Jahren, nicht bei Go, das konnte schon vor 10 Jahren, nicht bei Proteinfaltung, das konnte schon vor 10 Jahren, nee. bei ganz normaler Büroarbeit, Maus, Tastatur, Browser, Excel. Und wie gesagt, der Sprung ist eben von fast 50%, dass es gut könnte, auf 75%, dass es sehr gut kann. Und das ist innerhalb von drei Monaten passiert. Und deshalb, Leute, habt ihr jetzt keine Zeit. Weil der nächste Sprung bei GPT 5.5 oder 5.6, der wird das noch besser können. Und eure Jobs in eurer Firma, die werden sich verändern. Und wenn ihr den Leuten nicht richtig beibringt, wie diese KI zum Arbeiten sind, dann werden diese Leute sozusagen sich selbst aus dem Job verdrängen. Weil irgendwann bringt ihr einen Praktikanten rein, der euch keine Ahnung, 500 Euro im Monat kostet und sagt dem Praktikanten, du, mach das alles, was Die eine Tante oder der eine Onkel, der 30 Jahre bei uns in der Firma ist, der circa 10.000 Euro Monat dafür bekommt, macht das mal mit ein paar KI's. Und wenn die das alles sehen, dann werden die keine Lust mehr haben, bei euch zu arbeiten. Und wenn sie solche KI's in der Hand bekommen, was machen die? Die schreiben, David, nur E-Mails, Leute. Also wie gesagt, was macht ihr? Drei Sachen. Erstens ... Testet GPT 5.4 mit eurem Team. Computer Use ist nicht so leicht aufzusetzen. Das geht nur über API im Moment. Also versucht das mal mit jemand von IT und sagt, du, das ist eine Aufgabe, die machen wir 100-mal am Tag. Nicht nur wir, sondern drei Abteilungen. Eine Excel-Auswertung, eine Recherche, ein Reporting, irgendwas. Macht das nicht in einem Sandkasten, sondern macht das mit einem echten Workflow, mit einem echten Datei, irgendwo auf Azure, okay? Und das zweite ist auditiert mal eure spreadsheet Abteilung. Also geht mal rein und schaut mal, wer arbeitet mit Excel. Und was machen die mit Excel? Ist es dieses Controlling, Budgetierung, die Buchhaltung und so weiter? Weil in dem Fall macht ihr einfach eine Kopie von dem und sagt, du machst die Analyse, zeige uns, wo sind die Fehler und so weiter. Und das dritte ist, rechnet dann die Kosten der API. Und dann werdet ihr sehen, wenn die KI das und das und das das macht, kostet uns das 10.000 Euro im Jahr. Aber Leute, ihr zahlt 80.000 Euro im Jahr mit Lohnebenkosten und das alles drum und dran für den Onkel und die Tante, die bei euch seit 30 Jahren im Büro drinnen sind. Also entweder fangen der Onkel und die Tante an, auch 10 Agenten zu selben Zeit zu nutzen oder Leute, ihr braucht sie nicht mehr. Ihr braucht sie nicht mehr. Und dann viertens führt ihr das Gespräch mit denen. Da geht sie zu Onkel und Tante und sagt, du weißt du was, Wir wollen einen Test fahren, zu schauen, ob wir uns verbessern können. Und wir werden einen Praktikanten reinkommen und der wird dann... Du gibst ihm Arbeit, zeigst ihm, was du machst. Und dann werden wir schauen, ob die KI das machen kann. Und bevor ihr dieses Gespräch habt, das ist eigentlich Punkt Nummer vier statt Punkt Nummer fünf, ist... Fängt an, einen Transitionsplan zu bauen. Macht eine Liste von euren ganzen Mitarbeitern und auf der rechten Seite schreibt ihr Onkel- und Tante-Profil, die nie KI nutzen werden. Dann gibt es noch eine Kolumne, die heißt... Onkel und Tante Profil, die vielleicht 5 KI Agenten orchestrieren können oder Superstar. Und von den Superstars werdet ihr 10 % in der Firma haben. Und von der Onkel und Tante, die vielleicht KI nutzen können, werdet ihr 30 % haben. Und dann circa 60, 70 % der gesamten Firma sind Leute, die einfach keine KI nutzen werden. Und dann kommen wir zum Punkt, wo unsere Mitarbeiterin uns abgesprungen ist. Die Purani. Ich finde sie so toll. By the way, ich respektiere sie so sehr. Ich hoffe, sie kriegt nachher einen Job bei Google, bei Nvidia und wirst du sich was. Aber wäre sie noch bisschen länger bei uns geblieben, hätte sie einen Mordspaß gehabt mit diesen KI-Agenten, die mit Computer-Use heute extrem geil drauf sind. Das ist ja das Coole dran, Also wie gesagt, kurze Episode. ChatGPT 5.4. Und ja, ich wünsche euch einfach einen richtig tollen Tag. Schöne Grüße aus Bregenz, alles Liebe, ciao dabei.