Fokus AI: Wenn KI vom Reden ins Handeln kommt

Von der generativen zur „interaktiven“ KI: Bald sollen KI-Systeme wie ChatGPT nicht nur Texte liefern, sondern als Assistenten auch Aufgaben erledigen können. Dazu müssen sie lernen, Werkzeuge zu bedienen. ChatGPT macht mit der Integration der Bild-KI DALL-E und anderer Plug-Ins schon mal den Anfang.

Helmut Spudich

Genug gequasselt, es wird Zeit, Nägel mit Köpfen zu machen. Seit ChatGPT vor zehn Monaten das Licht einer breiteren Öffentlichkeit erblickte, wurde viel gechattet – von Liebesgedichten, Textentwürfen für Autor:innen und Social-Media-Texten, bis zu Schulaufgaben und Seminararbeiten, die Lehrpersonen in ernsthafte Zweifel stürzten. ChatGPT kann für uns lange Aufsätze verfassen, Texte kurz zusammenfassen oder aus einem PDF kopierte Blutwerte interpretieren. Aber es scheitert trotzdem daran, simple Fragen nach aktuellen Entwicklungen zu beantworten. „Es tut mir leid, aber mein letzter Trainingsdatensatz endet im Januar 2022“, ist die karge Antwort der sonst so gesprächigen KI zu aktuellen Themen.

Das ist nicht verwunderlich, da ChatGPT ein sogenanntes „Large Language Model“ (LLM) ist, also sein „Wissen“ aus einer unglaublich riesigen Textmenge schöpft, mit der es zum Zeitpunkt X trainiert wurde. Es kann jedoch bisher nicht einfach im Internet nachschauen und die aktuellen Nachrichten einbeziehen. Es ist auch sonst vorläufig noch recht begrenzt in seinem Aktionsradius, kann zum Beispiel nicht mit Excel arbeiten oder Information aus einer Videodatei zusammenfassen.

Die Ära des Chattens beginnt jetzt, dem Handeln zu weichen: ChatGPT wartet mit neuen Funktionen auf. Dazu gehört die direkte Verbindung mit DALL-E, der bildschöpfenden KI, die gleichfalls von OpenAI entwickelt wurde. Ein kleiner Schritt für User, aber offenbar ein großer Schritt für das generative KI-System.

Bisher konnte man ChatGPT dazu nutzen, die notwendigen „Prompts“ – Anweisungen für ein KI-System – für die Erstellung von Bilddateien mit DALL-E zu verfeinern, um bessere Ergebnisse zu erhalten. Aber es brauchte das Copy-Paste des Users, um von der einen zur anderen KI zu gelangen. Jetzt passiert dies innerhalb eines Vorgangs, ein Bezahl-Abonnement für GPT Plus vorausgesetzt.

Plug-Ins, kleine Zusatzprogramme, zielen gleichfalls darauf ab, ChatGPT neue Tricks beizubringen. Eine Spezies dieser noch jungen Entwicklung beschäftigt sich damit, die Welt von PDF-Dateien zu erschließen. „AskYourPDF“ beispielsweise kann (lange) PDF-Dokumente „lesen“ und für User Zusammenfassungen erstellen oder konkrete Fragen aus dem PDF beantworten. Dazu benötigt es entweder einen Weblink oder den Upload der PDF-Datei.

Schrittweise werden sich so KI-Systeme zu echten Assistenten entwickeln. So gehören unter anderem der Travel-Website Expedia sowie Open Table, das Reservierungssystem für Restaurants, zu den frühen Plug-In-Entwicklern und können bald ihre Information zu Reisen und Gastro-Reservierungen über ChatGPT bereitstellen. Noch sind dies Beta-Programme, gedacht um Erfahrungen aus der “echten Welt“ zu sammeln. Jedoch können wir erwarten, dass in nicht allzu ferner Zukunft Routineaufgaben wie Terminvereinbarungen oder Flugbuchungen mit Hilfe von KI-Assistenten erledigt werden können.

Davon sind heutige Systeme weit entfernt. Mustafa Suleyman, ein Mitgründer der inzwischen von Google übernommenen britischen KI-Firma DeepMind, sieht darum generative KI-Systeme nur als eine weitere Stufe hin zu „interaktiver KI“ an. Darunter versteht er Bots, die Aufgaben erledigen können, indem sie auf andere Software ebenso wie auf den Input anderer Menschen zurückgreifen können.

KI, erklärt Suleyman in einem Interview mit dem Magazin WIRED, habe sich in drei Phasen entwickelt. In der ersten Phase sei es um Klassifikation gegangen, bei der KI-System lernten, die unterschiedlichen Arten von Input-Daten – wie Bilder, Video oder Sprache – zu klassifizieren und zu analysieren. Die jetzige, zweite Phase der generativen KI kann diese Input-Daten zur Produktion neuer Daten verwenden.

„Die dritte Stufe der KI-Entwicklung wird eine interaktive Phase sein. Ich wette, dass dies das künftige Interface von Computern ist: Statt auf Knöpfe zu klicken und zu tippen, spricht man mit der KI. Und diese KI kann dann auf Basis eines vorgegebenen Ziels auch tatsächlich handeln und die dafür nötigen Werkzeuge verwenden“, sagt Suleyman. Das will der KI-Forscher mit seiner eigenen KI umsetzen, Pi.ai.

Um dies am Beispiel einer Flugbuchung zu verdeutlichen: Um diesen Auftrag erfüllen zu können, muss ein KI-Assistent selbstständig in Airline-Datenbanken recherchieren können, allenfalls über E-Mail von Service-Centern zusätzliche Information einholen, dem Auftraggeber Vorschläge machen, letztlich eine Buchung vornehmen und dabei auf Kreditkarteninformation zurückgreifen.

Allerdings müssen die Möglichkeiten solcher interaktiver KI sorgfältig von Menschen kontrolliert und begrenzt werden, warnt Suleyman. Besonders kritisch sei die Fähigkeit zur Selbstverbesserung von KI: „Sie wollen doch nicht, dass ihre kleine KI einfach hergeht und einen Update an ihrem eigenen Code vornimmt, ohne dass Sie das kontrollieren.“ Darum sei staatliche Regulierung für die weitere Entwicklung von KI unerlässlich, ist Suleyman überzeugt: „Derzeit sind alle panisch, dass eine Regulierung nicht möglich ist. Aber das ist Unsinn, wie bei anderen erfolgreich regulierten Bereichen ist das auch für KI machbar.“

Veröffentlicht am: 29. September 2023

Beitrag teilen: