Einführung

In den letzten Jahren haben der Klimawandel, die Coronakrise und die digitale Transformation zu tiefgreifenden Veränderungen in Umwelt, Gesellschaft und Wirtschaft geführt. Banken und Versicherungsunternehmen müssen sich diesen Veränderungen auf nachhaltige Weise anpassen. Dieses Paper konzentriert sich auf die Anpassungen, die Dienstleistungsunternehmen aufgrund der der digitalen Transformation vornehmen müssen.

Während der Coronapandemie mussten Kommunikationskapazitäten im Vertrieb und Kundendienst aufgebaut und bewältigt werden. Dies war jedoch für die meisten Unternehmen mit einem hohen Aufwand verbunden [1]. Gleichzeitig bietet die digitale Transformation die Chance zur Automatisierung, die eines der wichtigsten Potenziale zur Steigerung der Profitabilität darstellt. Eine mögliche Methode der Automatisierung ist der Einsatz von Chatbots und Voicebots, oder auch Conversational AI Systeme genannt. Wichtig ist jedoch, dass die Automatisierung nicht nur mit dem Ziel der Effizienzsteigerung eingesetzt wird, sondern gleichzeitig auch ein hohes Kundenerlebnis erreicht wird.

Der natürliche Dialog über Chat- und Voicebots spielt eine große Rolle im Kontext der Kundenerfahrung.

Theoretischer Hintergrund

Gemäß der Arbeit Fuzzy Conversational Character Computing [2] ist das Ziel, durch die Kombination von Character Computing, Fuzzy-Classifications und Conversational Theory eine verbesserte User Experience von Dialogen mit Conversational Agents zu erreichen. Dies impliziert die Fähigkeit des Konversationsagenten, sich individuell und situationsabhängig an die Bedürfnisse des Benutzers anzupassen.

Bisherige Forschungen auf dem Gebiet des Conversational Designs konzentrieren sich in der Regel auf eine Dimension des Character Computing und machen es von den Merkmalen des Konversationsdesigns abhängig.

Jordan et al. [3] konzentrieren sich in ihrer Forschung vor allem auf ältere Nutzer von Chatbots und zeigen, dass die Nutzungsraten signifikant höher sind, wenn Conversational Agents neben statischen, neutralen Antworten auch emotionale oder menschliche Elemente enthalten. Im Gegensatz dazu zeigen andere in ihren Experimenten, dass Emotionen nicht immer von Chatbots erwünscht sind oder zu besseren Ergebnissen führen. Sie zeigen, dass Kunden, die bereits zu Beginn einer Chatbot-Konversation negativ gestimmt sind, z. B. aufgrund einer Schadensmeldung, nur direkte und faktenbasierte Antworten vom Bot wünschen, statt geschönter und emotional aufgeladener Antworten [4]. Ghandeharioun et al. [5] zeigen, dass Nutzer, die sich in einer negativen oder traurigen Stimmung befinden, keine starken Emotionen vom Bot erwarten. Stattdessen bevorzugen sie einen neutralen Ton. Diese Vorliebe ändert sich jedoch, sobald die Nutzer in guter Stimmung sind.

Durch die Anwendung des Modells des Character Computing, der Fuzzy Classification und der Conversational Theory ergeben sich neue Anforderungen an die Conversational AI. Es ist notwendig, alle Variablen der Character Computing Triade zu bestimmen, um auf die verschiedenen Nutzertypen angemessen reagieren zu können. Durch die Triade kann das erwartete Verhalten des Nutzers in jeder Situation abgeleitet werden, wodurch auch die Kommunikationsbedürfnisse des Chatbots, insbesondere die Art der Kommunikation, bestimmt werden können. Die wesentlichen Bestandteile des Dreiklangs sind die Persönlichkeit und der affektive Zustand des Nutzers, ergänzt um die jeweilige Situation, in der sich der Nutzer befindet.

Forscher auf dem Gebiet des Character Computing verwenden in der Regel eine Vielzahl von Sensoren, um dem Benutzer den entsprechenden affektiven Zustand und die Persönlichkeit zuzuordnen. Chatbot-Nutzer sind jedoch nicht mit solchen Sensoren verbunden, sondern ihre einzigen Ausgabesignale bestehen aus Textnachrichten. Daher müssen Chatbots und Conversational AIs im Allgemeinen in Zukunft in der Lage sein, allein anhand der Nutzernachrichten herauszufinden, zu welcher Persönlichkeitsgruppe der Nutzer gehört, in welchem affektiven Zustand er sich befindet und wie die Situation ist. Am Beispiel von Versicherungskunden, die einen Schadensfall melden, wird in diesem Beitrag untersucht, wie Conversational AI Character Computing ohne Verwendung von Sensordaten anwenden kann.

Forschungsfragen und Methodik

Forschungsfragen

Damit eine Conversational AI die Methoden des Character Computing erfolgreich einsetzen kann, muss der oben genannte Dreiklang bestimmt werden. Zu diesem Zweck haben die Autoren die folgenden drei Forschungsfragen formuliert. Alle Fragen werden hier im Kontext von Versicherungskunden und dem Anwendungsfall „Schadenmeldung“ beantwortet.

Zur Ermittlung des Dreiklangs wurden die folgenden Forschungsfragen gestellt:

  1. 1.

    Welche Merkmale aus Textnachrichten geben Aufschluss über den Gemütszustand und die Persönlichkeit des Nutzers?

  2. 2.

    Welche Erwartungen haben die verschiedenen Nutzer (Persönlichkeit und affektiver Zustand) an den Chatbot?

  3. 3.

    Wie können die Ergebnisse der ersten beiden Forschungsfragen sinnvoll kombiniert werden, damit ein Chatbot seinen Ton an die Erwartungen des Nutzers anpassen kann? Welche zusätzlichen Informationen werden gegebenenfalls benötigt?

Methodik und Erhebungsdesign

Zur Bestimmung der einzelnen Variablen der Character Computing Triade und zur Beantwortung der obigen Forschungsfragen wurde eine quantitative Online-Umfrage mit 2000 Befragten durchgeführt.

Die Probanden wurden über ein externes Panel rekrutiert. Es wurde darauf geachtet, dass beide Geschlechter und Altersgruppen (18–65) gleichmäßig verteilt waren.

Dann wurden vier gleich große Gruppen gebildet. Jede Gruppe bekam ein Szenario, in das sie sich hineinversetzen sollte.

Die folgenden vier Szenarien wurden im Voraus festgelegt:

  • Selbst verursachte und bereits erfahrene iPhone-Schäden mit Online-Schadensmeldungen

  • iPhone-Schaden selbst verschuldet und keine Erfahrung mit Online-Schadensmeldungen

  • iPhone-Schäden, die nicht selbst verursacht wurden und bereits mit Online-Schadensmeldungen Erfahrungen haben

  • iPhone-Schaden nicht selbst verschuldet und keine Erfahrung mit Online-Schadensmeldungen

Laut der IFZ Conversational Insurance Study 2022 [6] ist die Schadensmeldung einer der häufigsten Anwendungsfälle für einen Chatbot im Versicherungssektor.

Zu Beginn der Umfrage erhielten die Teilnehmer eine detaillierte Beschreibung des zugewiesenen Szenarios. Die Umfrageteilnehmer wurden dann gebeten, auf einer 5‑stufigen Linkert-Skala zu bewerten, wie wütend oder traurig sie sich in dieser Situation fühlen würden. Es folgte eine Frage zu den bisherigen Erfahrungen mit Chatbots. Die Teilnehmer konnten wählen, ob sie noch nie, einmal, zwei- bis fünfmal oder mehr als fünfmal mit einem Bot gechattet hatten. Die Befragten wurden dann gebeten, unabhängig voneinander eine Nachricht an einen Chatbot zu senden, in der sie je nach Szenario zum Ausdruck bringen, dass sie den Schaden melden möchten.

Anschließend wurden drei kurze Videos abgespielt, die die Konversation zwischen einem Nutzer und einem Chatbot zur Schadensmeldung zeigten.

Chatbot eins hatte keine Emotionen oder anthropomorphe Züge, Chatbot zwei zeigte wenige anthropomorphe Züge und Chatbot drei zeigte sehr ausgeprägte Emotionen, Empathie und anthropomorphe Züge. Im Folgenden nennen wir Chatbot eins „Roboter“, Chatbot zwei „LisaLittle“ und Chatbot drei „LisaBig“.

Die drei Chatbots wurden auf der Grundlage von Literatur über die Verwendung anthropomorpher Designelemente entwickelt. Die Arbeiten von Hundertmark et al. [7] dienten dabei als Grundlage.

Um sicherzustellen, dass der Grad der Emotion, der Empathie und der anthropomorphen Designelemente auch zu den Beschreibungen „gar nicht“, „mittel“ und „viel“ passt, wurden die drei entwickelten Chatbots in einer Fokusgruppe mit 15 Experten aus den Bereichen Konversationsdesign und Finanzdienstleistungen diskutiert und abgestimmt, bis alle Experten mit der Klassifizierung einverstanden waren.

Nach jedem Video wurden die Teilnehmer um ein Feedback zum Chatbot für die Schadensmeldung gebeten. Das Feedback umfasste Fragen zur Nützlichkeit, zum Vertrauen in den Chatbot und zur Absicht, den Chatbot erneut zu nutzen. Es wurden bekannte und validierte Skalen verwendet.

Für die Nützlichkeit wurde die Skala von Davis [8] verwendet. Für die Absicht, den Bot erneut zu nutzen, wurde die Skala von Zeithaml et al. [9] verwendet. Und für die Frage des Vertrauens wurde die Skala von Oghuma et al. [10] verwendet.

Am Ende der Umfrage wurden die Teilnehmer zu ihrer Persönlichkeit befragt. Der Fragebogen basierte auf dem bekannten Big-Five- bzw. Fünf-Faktoren-Modell (FFM) von Oliver et al. [11]. Zur Bestimmung der entsprechenden Persönlichkeit wurde ein verkürzter Test von Rammstedt et al. [12] verwendet. Der BFI-10 besteht aus 10 Items, zwei für jede Dimension der Persönlichkeit. Jede der Dimensionen wird durch ein positiv und ein negativ gepoltes Item gemessen. Angaben zur psychometrischen Qualität der englischen Version finden sich bei Rammstedt und John [12]. Die Probanden müssen also nur 10 Aussagen auf einer 5‑Punkte-Linkert-Skala zustimmen oder nicht zustimmen.

Ergebnisse

Erste Forschungsfrage

Die wichtigsten Ergebnisse zu den abhängigen Variablen

Zur Beantwortung der ersten Forschungsfrage „Welche Merkmale aus Textnachrichten geben Aufschluss über den affektiven Zustand und die Persönlichkeit des Nutzers?“ wurden die Textnachrichten, die die Nutzer während des Experiments an den Chatbot schrieben, genauer analysiert.

Zunächst wurden alle Nachrichten kodiert. Es gab die folgenden Merkmale:

  • Nachricht enthält eine Begrüßung: ja/nein

  • Nachricht enthält das Wort „leider“: ja/nein

  • Nachricht enthält das Wort „bitte“: ja/nein

  • Nachricht enthält das Wort „Hilfe“: ja/nein

  • Nachricht ist kürzer als der Durchschnitt: ja/nein

Die verschiedenen Kodierungen wurden nach der Erstellung des Fragebogens festgelegt und von fünf Experten aus dem Bereich der Conversational AI Forschung diskutiert und finalisiert. Anschließend konnten alle Nachrichten manuell kodiert werden. Diese Codes wurden dann erneut mit den fünf Experten aus dem Bereich der Conversational AI diskutiert und finalisiert. Die Ergebnisse der Studie liefern nicht für alle Nachrichtenmerkmale signifikante Ergebnisse. Die signifikantesten Ergebnisse wurden für den affektiven Zustand, wütend oder traurig, gezeigt. Allerdings unterscheiden sich die verschiedenen Persönlichkeiten nur wenig in der Art und Weise, wie sie eine Nachricht ausdrücken. Hier konnten kaum signifikante Ergebnisse erzielt werden. Die Ergebnisse zeigen, dass der affektive Zustand aus einer Chat-Nachricht herausgelesen werden kann. Wenn es jedoch darum geht, die Persönlichkeit aus einer einzelnen Nachricht herauszufiltern, wird es komplexer. Hier liefern die vorliegenden Ergebnisse nur wenige signifikante Aussagen. Es wird davon ausgegangen, dass mehr als nur eine Nutzernachricht zur Bestimmung der Persönlichkeit herangezogen werden müsste.

Tab. 1 zeigt die abhängigen Variablen in Bezug auf ihren Einfluss auf den affektiven Zustand oder die Persönlichkeit. X bedeutet, dass es einen signifikanten Einfluss der Variablen gibt.

Tab. 1 Übersicht der Ergebnisse zu Forschungsfrage 1

Die Auswertungen der abhängigen Variablen im Einzelnen

Die oben dargestellten Hauptergebnisse basieren auf vielen linearen Regressionen, um die Abhängigkeiten zwischen den einzelnen Merkmalen der Codes und der Persönlichkeit sowie der affektiven Verfassung zu ermitteln. Neben der Persönlichkeit und der affektiven Verfassung wurden auch Unterschiede zwischen Geschlecht, Alter und der Erfahrung, die Nutzer bereits im Chat mit Chatbots haben, untersucht. Geschlecht, Alter und Erfahrung wurden als unabhängige Variable betrachtet. Diese Einflussfaktoren können Bot-Anbieter oft mithilfe von Daten aus dem Customer-Relationship-Management(CRM)-System erfahren und so als Basisinformation direkt an den Bot weitergeben. Es ist daher nicht notwendig, diese Informationen auch über die Art und Weise der Nachrichtengestaltung auszuwerten.

Bei der multiplen linearen Regression wird eine abhängige Variable durch mehrere unabhängige Variablen erklärt, vgl. Backhaus et al. [13]. In den vorliegenden Studien werden der affektive Zustand (wütend, traurig) und die Persönlichkeitseigenschaften (Extraversion, Verträglichkeit, Gewissenhaftigkeit, Neurotizismus, Offenheit) als abhängige Variable betrachtet.

Wenn Nutzer das Wort „Hilfe“ schreiben also, wenn die Nachricht „Hilfe“ enthält, gibt es einen signifikant positiven Effekt (b = 1,19, p = 0,012). Frauen sind generell wütender als Männer, der Einfluss von Männern im Vergleich zu Frauen signifikant negativ (b = −0,18, p = 0,000). Jüngere Menschen sind wütender als ältere Menschen (Alter ein signifikanter negativer Einfluss, b = −0,01, p = 0,000).

Wenn Nutzer traurig sind, schreiben sie eher längere Nachrichten (Nachrichten, die kürzer/gleich dem Durchschnitt sind, haben einen signifikanten negativen Einfluss, b = −0,13, p = 0,029). Wenn Nutzer einen Gruß schreiben, sind sie trauriger, Nachrichten mit Gruß haben einen signifikant positiven Effekt (b = 0,13, p = 0,027). Wenn Nutzer „leider“ schreiben, sind sie trauriger (Nachrichten, die das Wort „leider“ enthalten, haben einen signifikant positiven Effekt, b = 0,33, p = 0,000). Wenn Nutzer „bitte“ schreiben, sind sie weniger traurig (Wenn eine Nachricht das Wort „bitte“ enthält, ist der Effekt signifikant negativ, b = −0,19, p = 0,015). Frauen sind generell trauriger als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,32, p = 0,000). Jüngere Menschen sind trauriger als ältere Menschen (Das Alter hat einen signifikant negativen Einfluss, b = −0,01, p = 0,000).

Wenn Nutzer mehr als zweimal gechattet haben, sind sie extrovertierter (Der Einfluss von Nutzern, die mehr als zweimal mit einem Bot gechattet haben, ist signifikant positiv, b = 0,15, p = 0,000). Frauen sind generell extrovertierter als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,09, p = 0,039). Ältere Menschen sind eher extrovertiert als jüngere (Alter ein signifikant positiver Einfluss, b = 0,00, p = 0,022).

Frauen sind im Allgemeinen verträglicher als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,11, p = 0,002).

Nutzer, die längere Nachrichten schreiben, sind gewissenhafter (Kürzere Nachrichten haben einen signifikant negativen Einfluss, b = −0,14, p = 0,000). Frauen sind im Allgemeinen gewissenhafter als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,12, p = 0,000). Ältere Menschen sind eher gewissenhaft als jüngere Menschen (Alter ein signifikanter positiver Einfluss, b = 0,01, p = 0,000).

Frauen sind im Allgemeinen neurotischer als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,44, p = 0,000). Jüngere Menschen sind eher neurotisch als Männer (Das Alter hat einen signifikant negativen Einfluss, b = −0,01, p = 0,000).

Frauen sind generell offener als Männer (Der Einfluss von Männern im Vergleich zu Frauen ist signifikant negativ, b = −0,17, p = 0,000). Nutzer, die einen Bot häufiger nutzen, sind offener (Nutzer, die einen Bot mehr als zweimal genutzt haben, haben einen signifikant positiven Einfluss, b = 0,19, p = 0,000).

Zweite Forschungsfrage

Die wichtigsten Ergebnisse zu den abhängigen Variablen

Zur Beantwortung der zweiten Forschungsfrage „Welche Erwartungen haben die verschiedenen Nutzer (Persönlichkeit und affektiver Zustand) an den Chatbot?“ wurden sowohl Regressionsanalysen wie oben beschrieben als auch eine multinomiale logistische Regression durchgeführt.

Die Auswertung der Persönlichkeitsmerkmale und des affektiven Zustands (traurig oder wütend) hinsichtlich der von den Nutzern bevorzugten Designmerkmale liefert nicht für alle Variablen signifikante Ergebnisse. Die folgenden Ergebnisse konnten mittels statistischer Analysen als signifikant nachgewiesen werden:

  • Je trauriger die Nutzer sind, desto mehr wünschen sie sich Empathie und eindeutige anthropomorphe Merkmale vom Bot.

  • Wenn Nutzer das Persönlichkeitsmerkmal Verträglichkeit aufweisen, bevorzugen sie eher einen Bot ohne Empathie und auch ohne anthropomorphe Designelemente.

  • Wenn Nutzer das Persönlichkeitsmerkmal Neurotizismus aufweisen, bevorzugen sie eher einen Bot mit viel Empathie und wünschen sich auch ausgeprägte anthropomorphe Designelemente.

  • Wenn Nutzer sich offen zeigen, bevorzugen sie eher einen Bot mit wenig Empathie und wünschen sich auch eine geringe Anzahl anthropomorpher Designelemente.

  • Für Männer scheint ein geringes Maß an Empathie und anthropomorphen Gestaltungselementen eher negative Auswirkungen zu haben. Allerdings lässt sich nicht signifikant nachweisen, ob sie lieber gar keine oder deutlich mehr Empathie und anthropomorphe Designelemente haben möchten.

  • Insgesamt hat das Alter einen negativen Einfluss auf Bots mit Empathie und anthropomorphen Designelementen. Je älter die Nutzer sind, desto besser ist es also, Empathie und anthropomorphe Designelemente zu vermeiden.

Eine Zusammenfassung der Ergebnisse ist in Tab. 2 dargestellt. Dabei steht + für positive Auswirkungen und – für negative Auswirkungen.

Tab. 2 Übersicht der Ergebnisse zu Forschungsfrage 2

Die Ergebnisse der zweiten Forschungsfrage im Einzelnen

Bei der multinomialen logistischen Regression hat die abhängige Variable mehr als zwei kategoriale Ausprägungen [14]. Wie bei der linearen Regression werden die beeinflussenden Variablen als unabhängige Variablen bezeichnet. Bei der linearen Regression kann die Wirkung einer unabhängigen Variable auf eine abhängige Variable nach ihrer Stärke beurteilt werden. Bei der logistischen Regression trifft dies jedoch nicht zu, da hier kein linearer Zusammenhang geschätzt wird [13]. Dies bedeutet, dass die gewöhnlichen Regressionskoeffizienten nur in ihre Richtung interpretiert werden können. Das bedeutet, dass bei einem negativen Vorzeichen die Wahrscheinlichkeit des Eintretens des Ereignisses kleiner wird. Bei einem positiven Vorzeichen nimmt diese Wahrscheinlichkeit zu. Der gewöhnliche Koeffizient in der logistischen Regression gibt jedoch keine Auskunft über das Ausmaß der Zunahme oder Abnahme [13]. Um zu überprüfen, ob ein logistisches Regressionsmodell die Eintrittswahrscheinlichkeit gut vorhersagt, können sogenannte Pseudo-Bestimmtheitsmaße verwendet werden. Sie geben an, welcher Anteil der Varianz durch die unabhängigen Variablen erklärt wird [13]. Pseudo-Bestimmtheitsmaße können Werte zwischen 0 und 1 annehmen und werden als Prozentwerte interpretiert. Werte über 0,2 sind hier akzeptabel [13]. Ein Problem, das bei Regressionsmodellen auftreten kann, ist die sogenannte Multikollinearität [15]. Multikollinearität kann entstehen, wenn erklärende Variablen hoch miteinander korreliert sind. Um potenziell multikollinearitätserzeugende Variablen zu identifizieren, werden in dieser Arbeit Varianzinflationsfaktoren (VIF) berechnet. Diese werden für jede erklärende Variable bestimmt. Ist ein VIF größer als 10, bedeutet dies, dass die entsprechende Variable Multikollinearität erzeugt.

Für die Analyse wurden die Antworten der Probanden hinsichtlich Nützlichkeit, Vertrauen und Wiederverwendungsabsicht in Bezug auf die drei verschiedenen Bots ausgewertet. Die folgenden Merkmale gelten für die einzelnen Bots:

  • Roboter: Keinerlei Empathie und keine anthropomorphen Designelemente

  • LisaLittle: Wenig Einfühlungsvermögen und wenige anthropomorphe Gestaltungselemente

  • LisaBig: Viel Einfühlungsvermögen und klare anthropomorphe Gestaltungselemente

Dank der Regressionsanalysen und der multinomialen logistischen Regression konnten die folgenden Abhängigkeiten festgestellt werden.

Je höher die Annehmlichkeit einer Person ist, desto nützlicher hält sie den Roboter (\(=0{,}12{,}p=0{,}000\).). Je neurotischer eine Person ist, desto weniger nützlich findet sie Robot (\(b=-0{,}06{,}p=0{,}024\).). Mit zunehmender Wut nimmt die Wahrnehmung der Nützlichkeit des Robots ab (b = −0,07, p = 0,001). Mit zunehmender Traurigkeit steigt die Wahrnehmung, dass der Robot nützlich ist (b = 0,09, p = 0,000).

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}12{,}p=0{,}000\). Das heißt je höher die Verträglichkeit einer Person ist, desto nützlicher findet sie LisaLittle. Außerdem ist der Einfluss von Neurotizismus signifikant negativ, \(b=-0{,}07{,}p=0{,}007\). Je neurotischer eine Person ist, desto weniger nützlich empfindet sie LisaLittle. Darüber hinaus hat Ärger einen signifikant negativen Einfluss, \(b=-0{,}05{,}p=0{,}012\). Mit zunehmender Wut nimmt die Wahrnehmung der Nützlichkeit von LisaLittle ab. Traurigkeit hat einen signifikant positiven Einfluss, \(b=0{,}10{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt die Wahrnehmung, dass LisaLittle nützlich ist. Männlich hat einen signifikant negativen Einfluss, \(b=-0{,}11{,}p=0{,}015\). Da Männer dazu neigen, LisaLittle im Vergleich zu Frauen als weniger nützlich zu betrachten. Das Alter hat einen signifikanten negativen Effekt, \(b=-0{,}00{,}p=0{,}017\). Mit zunehmendem Alter nimmt die Wahrnehmung, dass LisaLittle nützlich ist, ab.

Extraversion hat einen positiven und signifikanten Einfluss auf \(b=0{,}07{,}p=0{,}009\). Mit zunehmender Extraversion steigt auch die Wahrnehmung der Nützlichkeit von LisaBig. Die Verträglichkeit zeigt einen signifikant positiven Effekt, \(b=0{,}21{,}p=0{,}000\). Das heißt je höher die Verträglichkeit einer Person ist, desto nützlicher empfindet sie LisaBig. Traurigkeit hat einen signifikant positiven Effekt, \(b=0{,}12{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt auch die Wahrnehmung, dass LisaBig nützlich ist. Das Alter hat einen signifikanten negativen Effekt, \(b=-0{,}00{,}p=0{,}007\). Mit zunehmendem Alter nimmt die Wahrnehmung ab, dass LisaBig nützlich ist.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}11{,}p=0{,}000\). Das heißt je höher die Verträglichkeit einer Person ist, desto vertrauenswürdiger wird der Roboter bewertet. Außerdem ist der Einfluss der Offenheit signifikant positiv, \(b=0{,}06{,}p=0{,}011\). Je offener eine Person ist, desto vertrauenswürdiger empfindet sie den Roboter. Traurigkeit hat einen signifikant positiven Effekt, \(b=0{,}09{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt auch die Wahrnehmung, dass der Roboter vertrauenswürdig ist.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}07{,}p=0{,}000\). Das heißt je höher die Toleranz einer Person ist, desto vertrauenswürdiger wird LisaLittle eingeschätzt. Neurotizismus hat einen signifikant negativen Einfluss, \(b=-0{,}06{,}p=0{,}012\). Je neurotischer eine Person ist, desto eher misstraut sie LisaLittle. Außerdem ist der Einfluss von Offenheit signifikant positiv, \(b=0{,}06{,}p=0{,}008\). Je offener eine Person ist, desto vertrauensvoller fühlt sie sich LisaLittle gegenüber. Wut hat einen signifikant negativen Einfluss, \(b=-0{,}04{,}p=0{,}047\). Je wütender eine Person ist, desto weniger vertraut sie LisaLittle. Traurigkeit hat einen signifikant positiven Einfluss, \(b=0{,}11{,}p=0{,}000.\) Mit zunehmender Traurigkeit nimmt die Wahrnehmung zu, dass LisaLittle vertraulich ist.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}14{,}p=0{,}000\). Das heißt je höher die Verträglichkeit einer Person ist, desto vertrauenswürdiger wird LisaBig eingestuft. Außerdem ist der Einfluss der Offenheit signifikant positiv, \(b=0{,}06{,}p=0{,}008\). Je offener eine Person ist, desto vertrauenswürdiger schätzt sie LisaBig ein. Wut hat einen signifikant negativen Einfluss, \(b=-0{,}07{,}p=0{,}000\). Je wütender eine Person ist, desto weniger vertraut sie LisaBig. Traurigkeit hat einen signifikant positiven Einfluss, \(b=0{,}13{,}p=0{,}000.\) Mit zunehmender Traurigkeit nimmt die Wahrnehmung zu, dass LisaBig vertrauensvoll ist. Das Alter hat einen negativen und signifikanten Einfluss, \(b=-0{,}01{,}p=0{,}003\). Mit zunehmendem Alter sinkt das Vertrauen in LisaBig.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}14{,}p=0{,}000\). Das heißt je höher die Toleranz einer Person ist, desto wahrscheinlicher ist es, dass sie den Roboter wieder benutzen wird. Außerdem ist der Einfluss der Offenheit signifikant positiv, \(b=0{,}06{,}p=0{,}022\). Je offener eine Person ist, desto wahrscheinlicher ist es, dass sie den Roboter erneut nutzen wird. Wut hat einen signifikant negativen Effekt, \(b=-0{,}06{,}p=0{,}011.\) Mit zunehmender Wut sinkt der Wunsch, den Roboter wieder zu nutzen. Traurigkeit hat einen signifikant positiven Effekt, \(b=0{,}08{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt der Wunsch, den Roboter wieder zu benutzen.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}13{,}p=0{,}000\). Das heißt je höher die Toleranz einer Person ist, desto eher wird sie LisaLittle wieder benutzen. Außerdem ist der Einfluss der Offenheit signifikant positiv, \(b=0{,}10{,}p=0{,}000\). Je offener eine Person ist, desto eher würde sie LisaLittle wieder nutzen. Traurigkeit hat einen signifikant positiven Effekt, \(b=0{,}09{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt auch der Wunsch, LisaLittle wieder zu nutzen.

Es zeigt sich, dass die Verträglichkeit einen signifikanten positiven Effekt hat, \(b=0{,}18{,}p=0{,}000\). Das heißt je höher die Toleranz einer Person ist, desto eher wird sie LisaBig wieder nutzen. Außerdem ist der Einfluss der Offenheit signifikant positiv, \(b=0{,}107p=0{,}010\). Je offener eine Person ist, desto eher würde sie LisaBig wieder nutzen. Wut hat einen signifikant negativen Einfluss, \(b=-0{,}05{,}p=0{,}029\). Mit zunehmender Wut sinkt die Wiederverwendung von LisaBig. Traurigkeit hat einen signifikant positiven Effekt, \(b=0{,}12{,}p=0{,}000.\) Mit zunehmender Traurigkeit steigt das Bedürfnis, LisaBig wieder zu benutzen. Alter hat einen negativen und signifikanten Effekt, \(b=-0{,}00{,}p=0{,}045\). Mit zunehmendem Alter nimmt die beabsichtigte Wiederverwendung von LisaBig ab.

Interessant sind die oben dargestellten Ergebnisse hinsichtlich der einzelnen abhängigen Variablen. Sie zeigen, welche Variablen einen signifikanten Einfluss auf die Nützlichkeit des Bots, das Vertrauen in den Bot und die Absicht, einen Bot erneut zu nutzen, haben.

Dies zeigt deutlich, dass der affektive Zustand Traurigkeit oder die Persönlichkeitseigenschaft Verträglichkeit einen signifikant positiven Einfluss auf alle drei Bewertungskriterien (Nützlichkeit, Vertrauen, Wiederverwendungsabsicht) der einzelnen Bots haben.

Die Persönlichkeitseigenschaft Offenheit hat dagegen nur einen positiven Einfluss auf die Bewertung des Vertrauens und die Absicht, einen Bot wieder zu verwenden, nicht aber auf die Bewertung der Nützlichkeit.

Die Persönlichkeitseigenschaft extrovertiert hat keine Auswirkungen auf Robot und LisaLittle. Bei LisaBig führt sie jedoch zu einer erhöhten Bewertung der Nützlichkeit und des Vertrauens. Das Persönlichkeitsmerkmal Neurotizismus wirkt sich nur auf LisaLittle negativ aus, die von Nutzern mit Neurotizismus als weniger nützlich und weniger vertrauenswürdig eingestuft wird.

Interessant ist auch der Einfluss des Ärgers. Verärgerte Nutzer bewerten Robot als weniger nützlich und würden diesen Bot nicht mehr verwenden. Bei LisaLittle führt Wut ebenfalls zu einer niedrigeren Bewertung der Nützlichkeit und zu einer geringen Bewertung des Vertrauens. Bei LisaBig wirkt sich Wut negativ auf das Vertrauen und die Absicht aus, den Bot erneut zu nutzen.

Die vorliegenden Ergebnisse der durchgeführten Regressionsanalyse liefern noch keine eindeutigen und signifikanten Erkenntnisse darüber, welche Nutzer oder Merkmale von Nutzern einen Bot als nützlicher, vertrauenswürdiger oder generell als wertvoller einstufen. Um diese Wissenslücken zu schließen, wurde die multinomiale logistische Regression eingesetzt. Dabei wurden die Bewertungen für Nützlichkeit, Vertrauen und die Absicht, den Bot erneut zu nutzen, aggregiert und zu einer neuen Variable namens „Bester Bot“ zusammengefasst. Anschließend wurden nur die Ergebnisse berücksichtigt, bei denen ein Bot nach Addition der drei Bewertungskriterien eine klare Mehrheit hatte. Wenn also mindestens zwei Bots bei der Auswertung die gleiche Punktzahl erhielten, wurden sie in der multinomialen logistischen Regression nicht weiter berücksichtigt. Es ist zu beachten, dass das Nagelkerke-Pseudo-Determinismus-Maß einen Wert von 0,05 hatte.

Das Alter hat eine deutlich abnehmende Wirkung auf LisaLittle, \(OR=0{,}99{,}p=0{,}015\). Steigt das Alter um ein Jahr, sinkt die Wahrscheinlichkeit, LisaLittle anstelle von Robot zu wählen, um das 0,99-Fache. Männer haben einen signifikant negativen Einfluss auf die Wahl von LisaLittle, \(OR=0{,}79{,}p=0{,}037\). Wenn der Teilnehmer männlich ist, sinkt die Wahrscheinlichkeit, LisaLittle anstelle von Robot zu wählen, um das 0,79-Fache. Traurig hat einen signifikant positiven Effekt auf die Wahl von LisaLittle, \(OR=1{,}16{,}p=0{,}001\). Wenn die Traurigkeit um eine Einheit zunimmt, erhöht sich die Wahrscheinlichkeit, LisaLittle anstelle von Robot zu wählen, um das 1,16-Fache. Toleranz hat einen negativen und signifikanten Einfluss auf die Wahl von LisaLittle, \(OR=0{,}86{,}p=0{,}022\). Wenn die Toleranz um eine Einheit zunimmt, sinkt die Wahrscheinlichkeit, LisaLittle anstelle von Robot zu wählen, um das 0,86-Fache. Offenheit hat einen signifikant positiven Einfluss auf die Wahl von LisaLittle, \(OR=1{,}18{,}p=0{,}004\). Wenn die Offenheit um eine Einheit zunimmt, steigt die Wahrscheinlichkeit, LisaLittle anstelle von Robot zu wählen, um das 1,18-Fache. Das Alter hat eine signifikant abnehmende Wirkung auf LisaBig, \(OR=0{,}99{,}p=0{,}000\). Erhöht sich das Alter um ein Jahr, sinkt die Wahrscheinlichkeit, LisaBig anstelle von Robot zu wählen, um das 0,99-Fache. Traurigkeit hat einen signifikant positiven Einfluss auf die Wahl von LisaBig, \(OR=1{,}26{,}p=0{,}000\). Erhöht sich die Traurigkeit um eine Einheit, steigt die Wahrscheinlichkeit, LisaBig anstelle des Roboters zu wählen, um das 1,26-Fache. Neurotizismus hat eine positive und signifikante Auswirkung auf die Wahl von LisaBig, \(OR=1{,}15{,}p=0{,}048\). Erhöht sich der Neurotizismus um eine Einheit, steigt die Wahrscheinlichkeit, LisaBig anstelle des Roboters zu wählen, um das 1,15-Fache.

Dritte Forschungsfrage

Zur Beantwortung der dritten Forschungsfrage werden die Ergebnisse der ersten beiden Forschungsfragen kombiniert. Während die zweite Forschungsfrage Antworten darauf gibt, welche Nutzer (Persönlichkeit und affektiver Zustand) welche Gestaltungselemente wünschen, beantwortet die erste Forschungsfrage vor allem die Frage, mit welchen Post-Rites-Merkmalen Nutzer ihre Persönlichkeit oder ihren affektiven Zustand ausdrücken.

Die multinomiale logistische Regression zeigte, dass traurige Nutzer eher einen Chatbot mit viel Empathie und klaren anthropomorphen Designelementen bevorzugen. Die Mehrheit der Nutzer drückt ihre Traurigkeit durch die folgenden Nachrichtenmerkmale aus: Die Nachricht enthält eine Begrüßung und Wörter wie „leider“. Die Nachricht enthält kein „bitte“, die Nachricht ist tendenziell kürzer.

Außerdem zeigte die multinomiale logistische Regression, dass kompatible Nutzer eher einen Bot ohne Empathie bevorzugen. Die linerare Regression ergab jedoch keine signifikanten Nachrichtenmerkmale, die darauf hinweisen, dass es sich um einen kompatiblen Nutzer handelt. Im Allgemeinen scheinen weibliche Nutzer kompatibler zu sein.

Die multinomiale logistische Regression zeigt auch, dass neurotizistische Nutzer eher den Bot mit viel Empathie bevorzugen. Es kann jedoch nur signifikant festgestellt werden, dass junge und weibliche Nutzer neurotischer sind. Andere Nachrichtenmerkmale geben keinen signifikanten Hinweis auf Neurotizismus.

Je offener die Nutzer sind, desto wahrscheinlicher ist es, dass sie einen Bot mit leichtem Einfühlungsvermögen bevorzugen, wie die Multinomiale Logistische Regression zeigt. Allerdings gibt es auch hier kaum Nachrichtenmerkmale, die auf die Offenheit der Nutzer schließen lassen. Nutzer, die weiblich sind und mehr Erfahrung mit Bots haben, scheinen im Allgemeinen offener zu sein.

Insgesamt kann die dritte Forschungsfrage nicht vollständig beantwortet werden. Vielmehr zeigt sich, dass der Dreiklang, der von den Forschern des Character Computing als Voraussetzung angenommen wird, für den Anwendungsfall „Schaden melden“ nicht auf Anhieb mithilfe einzelner Meldungsmerkmale oder CRM-Daten gefunden bzw. mit geeigneten Werten gefüllt werden kann.

Es zeigt sich aber auch, dass ein vollständig vorhandener Dreiklang gar nicht notwendig ist. Die Ergebnisse der zweiten Forschungsfrage erbrachten nur wenige signifikante Ergebnisse. Dies wirft die Frage auf, inwieweit eine individuelle Anpassung des Bots an seine Nutzer für den Anwendungsfall „Schadensmeldung“ überhaupt notwendig ist.

Fuzzyfizierung der Ergebnisse

Unscharfe Regeln

Die vorliegenden Ergebnisse zeigen deutliche Grenzen auf. So werden beispielsweise Nutzer, die genau den Begriff „leider“ verwenden, als trauriger eingestuft als andere Nutzer. Allerdings lässt sich die menschliche Sprache in der Realität oft nicht vollständig durch starre Regeln abbilden. So kann ein Nutzer, der das Wort „leider“ verwendet, die gleiche Traurigkeit zeigen wie ein Nutzer, der „leider“ nicht verwendet. Das Gleiche gilt für andere in Betracht kommende Ausdrücke wie „bitte“ oder „Hilfe“. Außerdem kann die Länge von Nachrichten nicht einfach in starre Kategorien eingeteilt werden, sondern es wäre angemessener zu sagen, dass eine Nachricht länger oder kürzer als eine andere ist. Daher ist es ratsam, die Methoden der Fuzzy-Logik oder des „Computing with Words and Perceptions“ zu integrieren.

Die von Zadeh [16] eingeführte Fuzzy-Logik ist eine Erweiterung der binären Mengenlehre. Sie besagt, dass ein Element nicht nur zwei Werte wie wahr oder falsch (Crisp-Logik) annehmen kann, sondern auch Zwischenwerte (z. B. eher wahr, weder wahr noch falsch, eher falsch; Fuzzy-Logik). Diese erweiterte Mengenlehre bildet die Grundlage für „Computing with Words and Perceptions“ (CPW), um natürlichsprachliche Aussagen mit computergestützten Modellen approximieren zu können [18]. Diese Modelle basieren hauptsächlich auf Wörtern, da beispielsweise keine exakten Zahlen bekannt sind. Die Ungenauigkeit dieser Wörter wird als akzeptabel angesehen, oder sie werden als linguistische Zusammenfassungen [17] von linguistischen Informationen betrachtet.

Dank des „Computing with Words and Perceptions“-Ansatzes werden nicht nur einzelne feste Wörter, sondern auch Wortgruppen oder andere unscharfe Zugehörigkeiten berücksichtigt. So werden zum Beispiel auch Synonyme des Wortes „leider“ berücksichtigt. Außerdem gehören die Nutzer nicht einfach einer festen Gruppe wie „traurige“ Nutzer an, sondern diese Grenzen werden gelockert. Nutzer sind dann mehr oder weniger traurig, wütend etc. als andere Nutzer.

Alles in allem scheint der Einsatz von Fuzzy-Logik an dieser Stelle äußerst sinnvoll zu sein. Dies gilt umso mehr, als die Ergebnisse der oben beschriebenen Auswertung sprachlicher Ausdrücke nur eine Momentaufnahme von 2000 Nutzern darstellen und nicht als absolute und starre Regeln angesehen werden sollten. Sprache verändert sich ständig und wird durch weitere Einflüsse geprägt.

Mehrdimensionale Fuzzy-Klassifikation

Neben der Anwendung von Fuzzy-Regeln oder Computing with Words and Perceptions erscheint an dieser Stelle auch die Berücksichtigung mehrdimensionaler Fuzzy Classifications sinnvoll.

In den vorgestellten Ergebnissen des Experiments werden einzelne Nutzermerkmale oder Nachrichtenattribute immer separat betrachtet. Die Kombinationen mehrerer Merkmale und die daraus resultierenden Auswirkungen auf das erwartete Bot-Verhalten fehlen. Nutzer haben aber nicht nur ein Merkmal, sondern die Merkmale können miteinander verknüpft sein. So kann ein Nutzer beispielsweise zur Gruppe „traurig“ und gleichzeitig zur Gruppe der „extrovertierten“ Persönlichkeit gehören. Um diese unterschiedlichen Merkmale miteinander zu verbinden, empfiehlt sich die Integration von mehrdimensionalen Fuzzy Classifications. Bei mehrdimensionalen Fuzzy Classifications können mehrere Attribute oder Kriterien gleichzeitig berücksichtigt werden.

In dem Beitrag Fuzzy Conversational Character Computing [2] wurde bereits erwähnt, dass zur Bestimmung des Charakters einer einzelnen Person in der Regel mehrere Dimensionen berücksichtigt werden müssen und daher die Anwendung mehrdimensionaler Fuzzy Classifications, die sich nicht auf zwei Dimensionen beschränken, hier von großer Bedeutung ist.

Schlussfolgerung und Ausblick

Schlussfolgerung

Ursprünglich berücksichtigt die Methode des Character Computing ein umfangreiches Spektrum an Sensoren und Benutzermerkmalen, um die Erwartungen eines Benutzers an den Chatbot abzuleiten und das Design des Bots anpassen zu können. In der vorliegenden Studie wurden keine Sensoren verwendet. Stattdessen wurden spezifische Merkmale von Nachrichten sowie Kundendaten aus CRM-Systemen berücksichtigt. Die Ergebnisse legen nahe, dass diese Merkmale und Kundendaten nicht ausreichen, um sowohl signifikante Nutzererwartungen an einen Chatbot zu ermitteln als auch signifikante Rückschlüsse auf die Persönlichkeit eines Nutzers zu ziehen.

Die Hypothese, dass die Gestaltungsmerkmale für Conversational AIs im Kontext von Finanzdienstleistungen irrelevant sind, scheint angesichts anderer Forschungen zur Akzeptanz und den Gestaltungsmerkmalen eines Chatbots im Finanzbereich vorerst widerlegt zu sein. So zeigen Rhio S. et al. [19] in ihrer Arbeit, dass Chatbots insgesamt glaubwürdiger und positiver bewertet werden, wenn sie Emotionen zeigen und nicht nur reine Fakten als Antwort geben. Crolic C. et al. [20] verdeutlichen jedoch mit ihren Experimenten, dass Emotionen nicht immer von Chatbots erwünscht sind oder zu besseren Ergebnissen führen. Sie zeigen, dass Kunden, die bereits zu Beginn der Chatbot-Konversation negativ gestimmt sind, z. B. aufgrund einer Schadensmeldung, nur direkte und faktenbasierte Antworten vom Bot wünschen und keine geschönten und emotionsgeladenen Antworten. Hundertmark et al. [21] sind im Zusammenhang mit Bank- und Versicherungskunden zum gleichen Schluss gekommen, wenn es um die unterschiedlichen Bedürfnisse zwischen gut und schlecht gelaunten Chatbot-Nutzern geht. Sie zeigen auch, dass Bots vor allem in positiven Situationen Emotionen signalisieren sollten.

Vielmehr deuten die Ergebnisse darauf hin, dass der Dreiklang des Character Computing nicht allein durch Nachrichtenmerkmale und CRM-Daten abgedeckt werden kann. Sofern nicht Sensoren als zusätzliche Datenquelle genutzt werden können, müssen andere ergänzende Datenquellen und Informationen genutzt werden, um die Erwartungen der Nutzer in Bezug auf Character Computing zu ermitteln.

An dieser Stelle ist es auch wichtig zu erwähnen, dass der spezifische Anwendungsfall, für den Character Computing eingesetzt wird, eine Rolle spielen kann. In dieser Studie wurde nur der Anwendungsfall „Schadensmeldung“ betrachtet. Es bleibt offen, wie sich das Modell für Anwendungsfälle wie „Beratung“, „Änderungsmitteilung“ oder „Bestellung von Dokumenten“ verändert [6].

Ausblick

Nach den Konzepten des Fuzzy Conversational Character Computing [2] ist es erforderlich, die Disziplin des Character Computing mit den Ansätzen der Conversational Theory zu verknüpfen. Die vorliegende Studie bestätigt, dass Character Computing allein, ohne den Einsatz von Sensoren, zumindest im Anwendungsbereich „Schadensmeldung“ nicht zu den gewünschten Ergebnissen führt. In weiteren Studien wird eine Integration der Conversational Theory empfohlen. Insbesondere steht dabei die Gestaltung der Chat-Dialoge zur Erreichung eines gemeinsamen Ziels im Sinne der Conversational Theory im Vordergrund. Das gemeinsame Ziel würde in diesem Zusammenhang bedeuten, dass der Chatbot möglichst viele Informationen über die Erwartungen des Nutzers im Dialog erhält. Auf der Grundlage dieser Informationen kann der Bot seinen sprachlichen Ausdruck anpassen, um die Erwartungen des Benutzers zu erfüllen und die Konversation gemäß den Zielen der Conversational Theory zu führen.

Darüber hinaus wird empfohlen, die hier vorgestellten Ergebnisse als Fuzzy-Regeln darzustellen und anstelle von starren Regeln mehrdimensionale Fuzzy Classifications anzuwenden. Diese „Fuzzyfizierung“ der Ergebnisse unterstützt eine realistische Darstellung der Zeichen.