Die KI gab längere und ausführlichere Antworten.
Fragen Sie Ihren Arzt?
Der Zugang zur Gesundheitsfürsorge wird mit einer längeren Lebenserwartung in Verbindung gebracht, und eine gute Gesundheitsfürsorge beginnt oft mit einer guten Erstberatung. Eine Gruppe von Forschern, darunter Wissenschaftler der University of California, San Diego, und des Unternehmens Human Longevity, hat untersucht, ob KI diese Aufgabe besser erfüllen kann als Menschen. Die Ergebnisse wurden in der Zeitschrift JAMA Internal Medicine veröffentlicht.
Die Forscher stützten sich bei ihrer Studie auf 195 reale Dialoge aus dem Reddit-Forum r/AskDocs. In allen Fällen wurden die von den Nutzern ursprünglich gestellten Fragen von verifizierten Ärzten beantwortet. Fragen, die von anderen Fachleuten des Gesundheitswesens beantwortet wurden, wurden unter der Prämisse ausgelassen, dass die Antwort eines zugelassenen Arztes einen besseren Vergleichswert darstellt. Die Forscher stellten dann dieselben Fragen an die Version 3.5 von ChatGPT, die seit November letzten Jahres verfügbar ist. Jede Frage wurde in einer neuen Chat-Sitzung gestellt.
Sowohl die Antworten der menschlichen Ärzte als auch die des KI-Modells wurden anschließend von einem Team zugelassener medizinischer Fachkräfte anhand mehrerer Kriterien bewertet. Die Bewerter berücksichtigten "die Qualität der bereitgestellten Informationen" (sehr schlecht, schlecht, akzeptabel, gut oder sehr gut) und "die Empathie oder das Verhalten am Krankenbett" (nicht einfühlsam, leicht einfühlsam, mäßig einfühlsam, einfühlsam und sehr einfühlsam). Die Antworten wurden natürlich nach dem Zufallsprinzip ausgewählt, von allen identifizierenden Informationen wie "Ich bin ein KI-Modell" befreit und mit "Antwort 1" und "Antwort 2" gekennzeichnet. Um die Möglichkeit einer Verzerrung zu verringern, wurde jeder Fall drei verschiedenen Teams von medizinischen Fachkräften vorgelegt, so dass insgesamt 585 Bewertungen abgegeben wurden.
Die Maschine setzt sich durch
Die Unterschiede zwischen den vom Menschen und den von der Maschine generierten Antworten begannen mit ihrer Länge. Die KI gab im Durchschnitt deutlich längere Antworten (211 Wörter gegenüber 52 Wörtern). Menschliche Fachkräfte sind nicht geneigt, sich auf eine längere Konversation einzulassen: 94 % des Austauschs umfasste eine einzige Antwort des Arztes.
Die Bewerter bevorzugten die Chatbot-Antwort in sage und schreibe 78,6 % der Fälle. Chatbot-Antworten erreichten die Durchschnittsnote 4,13 (besser als "gut") und menschliche Antworten 3,26 (schlechter als "gut"). Außerdem wurden 27 % der menschlichen Antworten, aber nur 2,6 % der maschinellen Antworten als "inakzeptabel" (weniger als 3) bewertet. ChatGPT schlug die menschlichen Ärzte auch deutlich beim Prozentsatz der Antworten, die mit "gut" oder "sehr gut" bewertet wurden: 75,5 % gegenüber nur 22 % bei Team Human.
Als ob dies nicht schon genug wäre, erwiesen sich die Chatbot-Antworten auch als wesentlich einfühlsamer (3,65 gegenüber 2,15). Ganze 80,5 % der menschlichen Antworten und nur 15 % der Chatbot-Antworten erreichten weniger als "leicht einfühlsam" (weniger als 3). Chatbot-Antworten wurden außerdem fast 10-mal häufiger als "sympathisch" oder "sehr sympathisch" eingestuft.
Fragen wir den Chatbot
Um diese verblüffenden Ergebnisse zu erklären, haben wir ChatGPT Version 4.0 um eine eigene Analyse gebeten. Die Forscher weisen auf mehrere Einschränkungen ihrer Studie hin, von denen die wichtigste darin besteht, dass ein Austausch in einem Online-Forum kein persönliches Gespräch zwischen einem Patienten und einem Arzt wiedergibt. In einem solchen Dialog kann der Arzt das Thema vertiefen, Folgefragen stellen, zunehmend relevantere Informationen liefern und wahrscheinlich auch einfühlsamer sein.
Außerdem war die Stichprobengröße begrenzt, und einige der Koautoren gehörten auch dem Bewertungsteam an, was trotz des blinden Studiendesigns zu einer Verzerrung geführt haben könnte. Schließlich ist es möglich, dass nicht alle an der Studie beteiligten Humanmediziner englische Muttersprachler waren, und die Sprachbarriere könnte den Eindruck von Kürze und Gleichgültigkeit noch verstärkt haben.
Schlussfolgerung
Auf der Grundlage der Ergebnisse dieser Studie rufen die Forscher dazu auf, die Möglichkeit der Integration von Chatbots in den klinischen Bereich zu prüfen. Chatbots können zwar (zumindest im Moment) das menschliche Gesundheitspersonal nicht ersetzen, aber sie könnten, so schlagen die Autoren vor, beim Verfassen von Nachrichten an die Patienten eingesetzt werden, die dann vom menschlichen Personal bearbeitet und genehmigt werden.
In Entwicklungsländern, wo die Menschen oft nur begrenzten Zugang zu menschlichem Gesundheitspersonal haben, könnten Chatbots sogar noch wichtiger sein, um eine erste Einschätzung und Unterstützung zu bieten. Nicht zuletzt könnten Chatbot-generierte Antworten auf Fragen zur Gesundheitsfürsorge den Unmengen unverständlicher, widersprüchlicher oder schlichtweg irreführender Informationen entgegenwirken, die eine normale Websuche oft liefert.
Literatur
[1] Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum [online veröffentlicht, 28. April 2023]. JAMA Intern Med. 2023
Comments