Eine aktuelle Studie der Purdue University hat signifikante Mängel in der Qualität von ChatGPTs Antworten auf Programmierfragen aufgedeckt, was Zweifel an der Eignung des KI-Chatbots für die Softwareentwicklung aufkommen lässt. Diese Forschung, veröffentlicht in den Proceedings der CHI Conference on Human Factors in Computing Systems, wirft ein kritisches Licht auf die Genauigkeit und Prägnanz von ChatGPTs Antworten und fordert zur Vorsicht bei der Verwendung des Tools in realen Szenarien auf.
Umfang und Methodik der Studie
Das Forschungsteam, bestehend aus Samia Kabir, David N. Udo-Imeh, Bonan Kou und Tianyi Zhang, analysierte 517 Programmierfragen von Stack Overflow und verglich die Antworten von ChatGPT mit den akzeptierten menschlichen Antworten. Die Studie verwendete einen gemischten Methodenansatz, der manuelle Analysen, linguistische Analysen und Nutzerstudien kombinierte, um umfassende Einblicke in die Leistung von ChatGPT zu gewinnen.
Hauptergebnisse und Qualitätsprobleme
Die manuelle Analyse ergab, dass 52 Prozent der ChatGPT-Antworten falsche Informationen enthielten. Die Fehler wurden in vier Hauptkategorien eingeteilt: konzeptionell (54 Prozent), sachlich (36 Prozent), Code (28 Prozent) und Terminologie (12 Prozent). Diese Fehler deuten darauf hin, dass ChatGPT Schwierigkeiten hat, die Nuancen und den Kontext von Programmierfragen vollständig zu erfassen.
Interessanterweise zeigte die Studie, dass die Häufigkeit und das Alter der Fragen die Korrektheit der Antworten beeinflussten. Verbreitete und ältere Fragen wiesen tendenziell weniger Fehler auf als weniger häufige und neuere Fragen. Dies legt nahe, dass ChatGPTs Leistung stark von der Menge der in den Trainingsdaten verfügbaren Informationen abhängt.
Ausführlichkeit und Nutzerpräferenzen
Trotz der hohen Fehlerquote bevorzugten Benutzer in 35 Prozent der Fälle die Antworten von ChatGPT, was auf die umfassende und gut formulierte Art der Antworten sowie die höfliche Sprache zurückzuführen ist. Allerdings übersahen die Teilnehmer in 39 Prozent der Fälle Fehlinformationen, was die potenziellen Risiken verdeutlicht, die mit dem Vertrauen auf KI-generierte Antworten verbunden sind.
Die Forscher stellten zudem fest, dass 77 Prozent der Antworten redundante, irrelevante oder unnötige Informationen enthielten. Diese Ausführlichkeit war besonders bei konzeptionellen Fragen und Anleitungen zu beobachten, während Debugging-Antworten prägnanter waren, jedoch nicht immer korrekt.
Empfehlungen und zukünftige Forschung
Die Studie betont die Notwendigkeit, die Korrektheit der Antworten von ChatGPT zu überprüfen, bevor diese in realen Szenarien eingesetzt werden. Die Forscher fordern zudem weitere Untersuchungen zu Methoden, um von KI-Chatbots generierte Fehlinformationen zu erkennen und zu entschärfen.