Software-Testing und KI

In unserem letzten Beitrag haben wir erklärt, was Prompten, also das Eingeben einer Anweisung an eine künstliche Intelligenz (KI), bedeutet und worauf man dabei achten sollte. Dabei haben wir erkannt, dass es besonders wichtig ist, der KI möglichst detailliert zu beschreiben, was man möchte. Denn Maschinen können vieles, aber nicht Gedanken lesen. Dies hat sich auf spannende Weise in einem unserer letzten Projekte gezeigt.

Worum ging es in dem KI-Projekt?

Unser Kunde DocToRead kam im Grunde gesagt mit der Idee zu uns, eine App zu entwickeln, in welchem eine KI komplizierte Sachverhalte bzw. Texte vereinfacht darstellt. Das Prinzip klingt simpel, aber wie sich zeigte, kann man nicht einfach so eine App um einen Prompt herumbauen. Wir überlegten zunächst, welche die optimale Herangehensweise für das Projekt sein könnte. Neben der Recherche über technische Anbindungen zur KI und

und grundsätzlichen Überlegungen zu Design und Nutzerfreundlichkeit der App entschieden wir recht schnell, unser Software-Testing-Team zurate zu ziehen. Wenn es darum geht, Fallstricke von vorherein zu umgehen und mit einer Technik zu experimentieren, um das bestmögliche Ergebnis zu erzielen, führt kein Weg an einem eingespielten und erfahrenen Testing-Team vorbei.

Software-Testing und KI

Unsere Idee war, dass unser Team von Testern, das Erfahrung im manuellen sowie automatisierten Testing hat, am besten in der Lage wäre, eine Ergebniserwartung zu formulieren und den besten Weg herauszufinden, wie man zu diesem Ergebnis gelangt. Während die ersten Testdaten ausgewertet wurden, zeigte sich schnell, dass bei Prompts stark optimiert werden kann. Prompts sind vielschichtig und die Ergebnisse, die die KI liefert, sind sehr abhängig von der Art, wie ein Prompt formuliert wird. Es gibt eine Vielzahl von Funktionseinstellungen, wie z.B. die Art der Sprache (Fachsprache oder Umgangssprache), der Kontext (professionell oder leger), aber auch kulturelle Einflüsse. So führte beispielsweise der gleiche Prompt bei verschiedenen Sprachvarianten bei der KI (Deutsch, Englisch, Spanisch usw.) auch zu verschiedenen Ergebnissen.

Zitat „Die Arbeit von Testern ist sehr vielseitig und präzise. Tester sind die Verbindungsglieder zwischen dem Code und der Benutzererfahrung. Diese Arbeit ist sehr komplex und manchmal auch sehr verworren. Ein KI-Sprachmodell ist ein sehr intelligenter und komplizierter Algorithmus, der zu globalen Veränderungen in vielen Bereichen des Lebens der Menschen führt. Um die Ergebnisse, die die KI uns liefert, zu optimieren ist es zwingend nötig, auch die Eingaben an die KI, also die Prompts, zu optimieren.“

Trial und Error beim Prompting

Die größte Herausforderung war dann auch die Mehrsprachigkeit der App. Es war komplexer als gedacht, einen Prompt zu finden, der in den verwendeten Sprachen auch zum gewünschten und vor allem verlässlichen Ergebnis führt. So mussten unsere Testerinnen Marta und Maria immer wieder einen Prompt testen, die Ergebnisse übersetzen und vergleichen. Dies zog sich über Wochen. Trial & Error. Zunächst erstellten die beiden ein Schema auf Grundlage des erwarteten Outputs der KI mit definierten Minimalanforderungen. Dann wurde jeder Output der KI anhand des Schemas überprüft, z.B. ob wissenschaftliche Begriffe verständlich erklärt bzw. übersetzt wurden, ob eine Zusammenfassung des Textes erfolgte usw. Auch bei den Release-Versionen der KI gibt es enorme Unterschiede in Bezug auf das Ergebnis auf den immer gleichen Prompt. Den Testerinnen ist es gelungen, genau die Anweisung zu finden, welche ein optimales Ergebnis erzeugt und den vorgelegten wissenschaftlichen Text in allen verwendeten Sprachen allgemein verständlich übersetzt.

Zitat: „Das Testen der verschiedenen Prompts ermöglichte es uns, die App genau auf die Bedürfnisse der Nutzer zuzuschneiden. Durch das Testen wurden die Prompts verfeinert und effektiver, was uns ermöglichte, ein nützlicheres und intuitiveres Produkt zu entwickeln. Die größte Herausforderung bestand darin, einen Prompt zu entwickeln, der sowohl effektiv als auch vielseitig ist. Es ist zeitaufwändig, herauszufinden, welche Prompts am besten funktionieren und wie KI mit unterschiedlichen Daten umgeht. Es ist enorm wichtig, die Wirksamkeit der Prompts zu überwachen, damit sie für die Vielfalt der Nutzer und ihre Bedürfnisse optimiert werden kann.“

Durch stetiges Testen, Übersetzen, Vergleichen und Optimieren entstand eine App, die als in Verbindung mit KI als eine Art medizinischer Dolmetscher dient. Dies bietet besonders im medizinischen Umfeld Patienten, die in dieser Hinsicht zumeist Laien sind, einen enormen Mehrwert.

Damit ist das Projekt aber noch längst nicht abgeschlossen. Abhängig von KI-Releases muss der Prompt erneut angepasst werden. Zudem steht die Überlegung im Raum, in Zukunft sprachabhängige Prompts umzusetzen – ein wirklich spannendes Thema.

Sie haben eine Idee für eine App oder ein Softwareprojekt? Kontaktieren Sie uns gern!