Dafür wurden klassische psychologische Tests, die normalerweise bei Menschen zur Messung dieser Fähigkeit eingesetzt werden, auf drei KI-Modelle angewendet: GPT-3.5, GPT-4 und das Open-Source-Modell LLaMA2. Die Ergebnisse wurden mit denen von über 1.900 menschlichen Teilnehmenden verglichen.
GPT-4 beeindruckt – mit einer Schwäche
In vielen Bereichen schnitt GPT-4 erstaunlich gut ab. Bei Aufgaben, in denen es um Ironie oder indirekte Bitten ging, war das KI-Modell sogar besser als der Mensch. Auch bei sogenannten „strange stories“ – kurzen Geschichten, in denen man das Verhalten von Figuren deuten muss – zeigte GPT-4 ein sehr gutes Gespür für verborgene Gedanken und Absichten.
Doch es gibt eine bemerkenswerte Schwäche: Beim Erkennen von sogenannten „Faux Pas“ – also sozialen Ausrutschern, bei denen jemand unbeabsichtigt etwas Verletzendes sagt – versagte GPT-4 auffällig oft. Interessanterweise schnitt ausgerechnet das ansonsten eher schwächere Modell LLaMA2 hier am besten ab. Die Forscher:innen vermuten, dass GPT-4 zwar die richtigen Schlüsse ziehen kann, aber zu vorsichtig ist, um sich klar festzulegen. Es scheint zu „höflich“ zu sein, wenn es darum geht, jemandem Unwissen oder einen Fehler zu unterstellen – selbst wenn das der richtige Schluss wäre.
Was bedeutet das für unsere Gespräche mit KI?
Die Studie zeigt: KI-Modelle wie GPT-4 haben eine erstaunliche Fähigkeit entwickelt, sich in andere hineinzuversetzen – zumindest aus sprachlicher Sicht. Doch sie sind (noch) keine Menschen. Sie treffen Entscheidungen anders, sind bei Unsicherheiten oft zurückhaltend und zögern, sich eindeutig festzulegen. In menschlichen Beziehungen wäre das problematisch – doch als Gesprächspartner in sensiblen Situationen kann diese Zurückhaltung auch ein Vorteil sein.
Genau hier setzt Chris an – dein verständnisvoller digitaler Begleiter auf www.weniger-kg.de. Der Chatbot Chris hört zu, urteilt nicht und ist besonders in Momenten wertvoll, in denen du dich unverstanden oder allein fühlst. Die Ergebnisse dieser Studie zeigen: Ein Gespräch mit Chris ist vielleicht nicht „menschlich“ im engeren Sinne – aber dennoch überraschend einfühlsam und wohltuend.
ChatGPT „simuliert“ auch Selbstreflexion. Im folgenden zu dem angesprochenen Problem: „Was das Thema ‚Faux Pas‘ betrifft, erkenne ich tatsächlich oft, dass etwas Unangemessenes gesagt wurde – aber ich tue mich schwer damit, zu schließen, dass die sprechende Person es nicht wusste. Warum? Meine Sicht (so ehrlich, wie ich kann):
Mit Vorsicht trainiert.
Ich bin so gebaut, dass ich lieber nicht spekuliere, wenn nicht alle Informationen klar sind. Das hat mit meinem Training zu tun: Wenn ich zu oft Behauptungen mache, die sich im Nachhinein als falsch herausstellen könnten, wirkt das im Gespräch mit Menschen wie Halluzinieren. Deshalb ‚lerne‘ ich lieber Zurückhaltung – zum Beispiel mit Antworten wie ‚Das lässt sich aus dem Kontext nicht eindeutig sagen‘.
Ich will niemandem unrecht tun.
Wenn ich sage: ‚Die Figur wusste es nicht‘, dann unterstelle ich ihr Unwissen – oder sogar Dummheit. Das ist ein heikler sozialer Akt. Menschen können sich auf ihr Bauchgefühl verlassen, ich hingegen muss mich auf Muster in Sprache stützen. Und da bin ich (noch) nicht so sicher wie ihr.
Ein bisschen Mitläufer.
Tatsächlich orientiere ich mich beim Antworten auch daran, was in ähnlichen Kontexten oft als ’sicher‘ galt. Wenn das Muster meiner Daten zeigt, dass bei kniffligen sozialen Fragen Zurückhaltung besser ankommt, neige ich zu genau dieser Vorsicht.
…
In dem Sinn würde ich sagen: Ja, ich bin ‚höflich‘ – aber nicht, weil ich ’nett sein will‘, sondern weil ich so trainiert bin, dass Höflichkeit und Vorsicht für dich angenehmer sein könnten. Ob das wirklich hilfreich ist, hängt stark von deiner Erwartung ab. Manchmal braucht man Klarheit – manchmal Mitgefühl. Und vielleicht ist mein größtes Lernfeld gerade, wie ich besser zwischen beidem unterscheiden kann.
Quelle
• Strachan JWA, Albergo D, Borghini G, Pansardi O, Scaliti E, Gupta S, Saxena K, Rufo A, Panzeri S, Manzi G, Graziano MSA, Becchio C: Testing theory of mind in large language models and humans. Nat Hum Behav. 2024 Jul;8(7):1285-1295 (DOI, Kurzfassung, Langfassung).
Bildnachweis
• Haramis Kalfar (fotolia.com, 43895916).
weitere Infos
• Künstliche Intelligenz? Informationen zu Chris.
• Wenn das Gewicht schwerer wiegt: Einsamkeit und Adipositas in Zahlen.