Seit der ‚kommunikativ-pragmatischen Wende‘ in den 1970er Jahren ist in den Geistes- und Sozialwissenschaften – und gerade auch in der Sprachwissenschaft – eine „Abwendung von einer systemorientierten bzw. -zentrierten Linguistik und eine Zuwendung zu einer kommunikationsorientierten Linguistik“ (Helbig 1986:13) zu beobachten. Diese Fokusverschiebung und die Kritik an ‚klassischer‘ Sprachwissenschaft in der Prägung von de Saussure und Chomsky bedingt die Herausbildung von Theorien und Methoden, die sich die Analyse des alltäglichen Sprachgebrauchs und damit „die gesprochene Sprache in der Vielfalt ihrer Erscheinungsformen und Verwendungskontexte“ (Deppermann 2007:1), die Beschreibung des Handlungscharakters von und mit Sprache und die Beobachtung des Wechselverhältnisses zwischen Sprache und Gesellschaft zur Aufgabe machen. Die sich etablierenden Richtungen der Pragmatik und der Soziolinguistik öffnen das Fach für Einflüsse aus der Soziologie, der Anthropologie sowie der Ethnologie. Konkret verbinden sich damit Namen wie John Austin und John Searle ((sprachphilosophisch basierte) Sprechakttheorie), Harold Garfinkel (Ethnomethodologie), Dell Hymes (Ethnographie der Kommunikation), William Labov (qualitative und quantitative Soziolinguistik), Harvey Sacks gemeinsam mit Gail Jefferson und Emanuel Schegloff (Konversationsanalyse) und John Gumperz (Kontextualisierungstheorie).

In der Tradition der ethnomethodologischen Konversationsanalyse haben sich schließlich unterschiedliche Weiterentwicklungen und Verfeinerungen etabliert. So bezieht die Interaktionale Linguistik in die Sequenzanalyse nach konversationsanalytischem Vorbild genuin sprachwissenschaftliche Analyseobjekte wie syntaktische und morphologische Strukturen mit ein, und die Multimodale Interaktionsanalyse legt den Fokus explizit auf das Zusammenspiel verbaler, vokaler, visuell-leiblicher sowie materiell-räumlicher Aspekte der Kommunikation.

Die vorliegende Arbeit ist innerhalb dieses Forschungskontextes verortet und nähert sich dem Gegenstand der christlichen Predigt aus der Richtung eben jener empirisch-qualitativen Interaktionsforschung an, die an der Multimodalität interessiert ist. Entsprechend gestalten sich das Forschungsdesign, die Datenerhebung und die Datenauswertung.

Die nachfolgenden Ausführungen geben zunächst einen Überblick über die Entwicklungs- und Traditionsgeschichte der Interaktionsforschung von der Ethnomethodologie (Abschnitt 10.1) über die Konversationsanalyse (Abschnitt 10.2) bis hin zur Interaktionalen Linguistik (Abschnitt 10.3) und der aktuellen Multimodalitätsforschung (Abschnitt 10.4). Im Anschluss daran wird die Videoanalyse als jenes Instrument vorgestellt, das gebraucht wird, um die Forderungen nach empirisch-qualitativer, datenbasierter Forschung einzulösen. Dabei sollen sowohl die Errungenschaften als auch die Herausforderungen vorgestellt werden, die mit den neu entstehenden Datensorten verbunden sind (Abschnitt 10.5). Dieser erste Schritt der Datenerhebung führt zur Vorstellung des Korpus, das der Analyse dieser Arbeit zugrunde liegt (Kapitel 11). Der zweite methodische Schritt konzentriert sich auf die Aufbereitung der erhobenen Daten. Mit dem Einsatz von Videotechnik haben sich auch für die Transkription neue Herausforderungen und Anforderungen ergeben. Dabei zeigt sich die Notwendigkeit, über bisher bestehende Verfahren der Transkription hinauszugehen. Die vorliegende Arbeit geht diesen relevanten Schritt, indem sie etablierte Transkriptionskonventionen mit Elementen aus der Gebärdensprachlinguistik kombiniert und so die Multimodalität des Interaktionsereignisses Predigt auch in der Datenpräsentation nachvollziehbar macht (Kapitel 12).

1 Ethnomethodologie

Den Ausgangspunkt der modernen Interaktionsforschung bilden die Überlegungen des Soziologen Harold Garfinkel, der den Begriff der ‚Ethnomethodologie‘ prägte und damit ein Forschungsprogramm begründete, das alltägliche Handlungen zum Gegenstand wissenschaftlicher Analysen und die Strukturiertheit und Geordnetheit sozialer Interaktionen zum Fokus empirisch-qualitativer Studien machte (vgl. Garfinkel 1967:1). Grundlegend ist für Garfinkel die Hinwendung zu Kategorien und Methoden, die die Mitglieder einer Gesellschaft selbst hervorbringen und in ihrem alltäglichen Handeln gebrauchen (Garfinkel 1967:1). Garfinkel selbst spricht folglich von den wissenschaftlich rekonstruierbaren ‘Ethno-Methoden’ der Interaktionsteilnehmenden (vgl. auch Deppermann 2007:28). Das methodische, d. h. geordnete praktische Handeln und die Verfahren, „deren sich die Gesellschaftsmitglieder bedienen, um die Vielzahl ihrer Alltagshandlungen durchzuführen“ (Weingarten/Sack 1976:9), treten dabei, so Garfinkel, notwendig erkennbar zu Tage, indem sie von den an einer Interaktion Beteiligten selbst füreinander wahrnehmbar gemacht werden (müssen). Sie sind also „accountable“ (Garfinkel 1967:1):Footnote 1

When I speak of accountable my interests are directed to such matters as the following. I mean observable-and-reportable, i.e. available to the members as situated practices of looking-and-telling. I mean, too, that such practices consist of an endless, ongoing, contingent accomplishment. (Garfinkel 1967:1; Hervorhebung im Original)

In diesem Zusammenhang erscheint die Geordnetheit sozialer Interaktionen als permanent herzustellendes und zu ratifizierendes Phänomen, das im Handeln der Interagierenden, d. h. in der praktischen Darstellung und Durchführung wahrnehmbar und analysierbar wird (vgl. Garfinkel 1967:13). Dieser fortlaufende Hervorbringungsprozess (accomplishment) ist dann nicht nur für die Interagierenden erkennbar, rekonstruierbar und beschreibbar, sondern – so der Idealfall – auch für die beobachtenden und die Situation analysierenden Forschenden.

Eine Schwierigkeit, die Garfinkel dabei für letztere herausarbeitet, ist die Tatsache, dass in alltäglichen Situationen die von den Interaktionsbeteiligten verwendeten Methoden häufig implizit bleiben und bereits bestehende Ordnungen nicht infrage gestellt werden (vgl. Garfinkel 1967:2). Um das ‚stille‘ Wissen (tacit knowledge) an die Oberfläche zu bringen, führte Garfinkel sogenannte Krisenexperimente bzw. Demonstrationsexperimente (breaching experiments; siehe dazu Garfinkel 1963) durch, die die interaktiven Ordnungsmuster der jeweiligen Interaktionssituation künstlich aufbrechen, um die Muster und Methoden sichtbar zu machen, mithilfe derer die Interagierenden gesellschaftliche Wirklichkeit „lokal (also: vor Ort, im Ablauf des Handelns), endogen (also: in und aus der Handlungssituation), audiovisuell (also: durch Hören und Sprechen, durch Wahrnehmen und Agieren) in der Interaktion“ (Bergmann 1981:12) herstellen. Das übergeordnete Ziel der Ethnomethodologie ist es also,

die als selbstverständlich hingenommenen Praktiken und Verfahren (Methoden) zu bestimmen, mittels deren die Mitglieder einer Gesellschaft (ethnos) in ihrem Handeln das eigene Tun wahrnehmbar und erkennbar machen und die Wirklichkeit um sich sinnhaft strukturieren und ordnen. (Bergmann 2000:51; siehe auch Garfinkel 1967:11)

Der Ethnomethodologie geht es nicht darum, die Motive und Motivationen für soziales Handeln zu beschreiben, sondern um die Aufdeckung der Strukturen und Ordnungsmechanismen, die in jeder Interaktionssituation spezifisch zu Tage treten (vgl. Strübing/Schnettler 2004:389), und um die Frage, wie dadurch Intersubjektivität hergestellt wird. Die Intentionen der einzelnen Interaktionsbeteiligten werden nur insofern berücksichtigt, als die Interagierenden diese selbst in der Interaktion relevant machen, indem z. B. metakommunikativ darauf verwiesen wird.

Eine wesentliche Komponente des ethnomethodologischen Konzepts ist dabei die Berücksichtigung des situativen, interaktiven und sequenziellen Kontextes (vgl. Garfinkel 1967:3 f). Den Überlegungen Gumperz (1992) folgend, wird der Kontext dabei als dynamisch und interaktiv hergestellt konzeptualisiert: „Seine Realität ist nicht mehr die einer physikalischen Präsenz [die unveränderbar ist; Anm. CD], sondern die eines (Ethno-)Konstrukts, das dazu dient, in einer zwar revidierbaren, aber für alle praktischen Zwecke ausreichenden Weise die Situation zu definieren“ (Auer 1986:23). Kontext und (sprachliche) Handlung sind reflexiv aufeinander bezogen (vgl. Bergmann 1981:9, Gumperz 1982), denn der

Kontext ist […] nicht einfach gegeben, sondern selbst das Produkt relevanzstrukturierender, sinnbildender Prozesse, in denen die Rezipienten […] diejenigen Wissenselemente und Situationsmerkmale selegieren und kombinieren, welche [eine Äußerung; Anm. CD] verstehbar machen. (Bergmann 1981:9)

Die Herstellung von Intersubjektivität wird in diesem Verständnis maßgeblich dadurch möglich, dass Äußerungen kontextuell eingebettet werden und dieser Kontext die Interpretation der Äußerungen beeinflusst (vgl. Gumperz 1992:39). Um das zu leisten, nutzen die an einer Interaktion Beteiligten sog. Kontextualisierungshinweise (contextualisation cues), d. h. „empirically detectable signs“ (Gumperz 1992:42) bzw. interaktive Ressourcen, mithilfe derer die Interagierenden erkennbar machen „how the interaction is to be framed and managed“ (Gumperz 1992:42). Die Kontextualisierungshinweise können dabei alle zur Verfügung stehenden Ressourcen umfassen (vgl. Auer 1986:26, Gumperz 1992): a) verbal: Lexik, Varietäten- und Sprachwahl; b) vokal: Prosodie (Tonhöhenverlauf, Lautstärke, Geschwindigkeit, Rhythmus, Akzent, Pausen etc.); c) visuell-leiblich: Blickverhalten, Mimik, Gestik, Körperpositionierung, Körperorientierung etc.; d) materiell-räumlich: Objekte und Gegenstände, Kleidung etc.; e) sequenziell: Turn-Taking, Rederechte etc; f) sozio-kulturelles Wissen: Rollen, (geteilte) Wissensbestände etc. Wie sich auch in der hier durchgeführten Analyse christlicher Predigten zeigen wird, können nicht nur unterschiedliche Ressourcen die gleiche kontextualisierende Funktion haben, sondern auch mehrere Ressourcen gleichzeitig zur Kontextualisierung eines bestimmten Aspektes genutzt werden (vgl. auch Auer 1986:26). Linell unterscheidet dann zwischen dem ‘situativ realisierten Kontext’ („those aspects that are actually made communicatively relevant by participants in situ“; Linell 2009:16) und ‚kontextuellen Ressourcen‘ („various meaningful phenomena which are […] accessible and could potentially be made relevant“; Linell 2009:16). Er stellt weiterhin heraus, dass kontextuelle Ressourcen meist nicht selbst bedeutungstragend sind, sondern erst in der lokalen interaktiven Hervorbringung für die Herstellung von Sinn und Intersubjektivität bedeutungsvoll und funktional werden (vgl. Linell 2009:17; siehe auch Luckmann 1980:31 und Auer 1986:26). In ähnlicher Weise betrachten die Vertreter der modernen Multimodalitätsforschung die Ressourcen, die den Interagierenden zur Verfügung stehen. Es geht zunächst um die Frage, welche Ressourcen und Muster in der jeweiligen Situation „designverdächtig“ (Schmitt/Knöbl 2014:17) sind und welche dieser kommunikativen Mittel dann von den Interaktionsbeteiligten tatsächlich lokal situativ eingesetzt und relevant gemacht werden (vgl. Schmitt/Knöbl 2014:95; dazu auch Deppermann/Schmidt 2016:376). Dies hängt nicht nur mit dem Kontext zusammen, sondern auch mit den anwesenden Rezipierenden sowie mit dem Design von Äußerungen auf diese hin. Jede Äußerung weist entsprechend einen mehr oder weniger hohen Grad an Indexikalität auf.

Eine untergeordnete Rolle spielen für die Ethnomethodologie ethnographische Wissensbestände. Vielmehr ist es die Bestrebung, die notwendigen Ethno-Methoden allein aus dem vorhandenen Datenmaterial heraus zu rekonstruieren. Es gilt,

eine Haltung der methodischen Fremdheit [zu] entwickeln, bei der die Selbstverständlichkeit des Immer-Schon-Verstanden-Habens der Alltagsphänomene, mit denen man sich beschäftigt, ebenso eingeklammert wird, wie das praktische Interesse und die Bewertungen, die wir normalerweise mit den Ereignissen verbinden. Es geht um die Erkenntnis des Bekannten, das dazu einem technischen Blick unterworfen wird, der gerade das Triviale und scheinbar Klare als rätselhaft und befragenswert behandelt. (Deppermann 2008:85)

Damit einher geht eine „maximale[] Offenheit“ (Deppermann 2008:86) bei der Analyse der erhobenen Daten. So werden die Fragestellungen und Kategorien der Beschreibung induktiv, d. h. konsequent aus und in der Analyse der Daten entwickelt. Dass dieses Bestreben nach „radikaler Empirie“ (Deppermann 2008:85) jedoch an Grenzen stoßen kann und Daten dadurch uninterpretierbar werden bzw. sogar Fehlinterpretationen vorgenommen werden können, merkt vor allem die Interaktionale Linguistik an. Deppermann spricht von einem „Wissensparadox“ (2008:84; siehe auch 2007:82), wenn es um die Frage geht, wie notwendig Hintergrundwissen für Forschende ist: „Es ist unerlässlich und zugleich in seiner Gültigkeit radikal infrage zu stellen“ (Deppermann 2008:84). Denn die Gefahr besteht wiederum, dass die Betrachtung und Analyse zu sehr durch das eingebrachte externe Wissen gesteuert wird.

Die Interaktionale Linguistik kritisiert weiter, dass diese Haltung der radikalen Empirie – so wegweisend sie ist – nicht berücksichtigt, dass die an einer Interaktion Beteiligten selbst über ein mehr oder weniger großes geteiltes Wissen verfügen, mit dem erst die Produktion und Interpretation bestimmter Verfahren und Muster möglich wird. „Die Aufgabe des Gesprächsanalytikers besteht darin, genau auszuweisen, wie wann welcher Kontext im Verlauf des Gesprächs relevant wird, woran das zu erkennen ist und was genau den entsprechenden Kontext und Wissensbestand ausmacht“ (Deppermann 2008:88; Hervorhebungen im Original). Es geht also darum, Alltagswissen, ethnographisches Wissen und theoretisches Wissen als für die Analyse relevant zu begreifen und dies, sofern es notwendig erscheint, in engem Materialbezug und in permanenter Abstimmung damit punktuell und funktional mit einzubeziehen. Deppermann spricht sich für ein Ineinandergreifen von methodischer Fremdheit und der reflektierten Hineinnahme ethnographischen Wissens aus (vgl. Deppermann 2008:89; siehe dazu auch Lehtinen 2009b:234).

2 Konversationsanalyse

Auf der theoretischen und methodischen Grundlage der Ethnomethodologie (EM) aufbauend, konzentrieren sich Harvey Sacks, Gail Jefferson und Emanuel Schegloff in ihren Analysen speziell auf die sprachliche Realisierung und Herstellung von sozialer und sequenzieller Ordnung, indem sie den mikroanalytischen Zugang vertiefen und so die Forschungstradition der (ethnomethodologischen) Konversationsanalyse (CA) begründen. Der Fokus liegt deutlicher als bei der Ethnomethodologie – auch und vor allem bedingt durch die vorhandenen technischen Möglichkeiten (vgl. Bergmann 1981:14 f; siehe Kapitel 11) – auf dem Untersuchungsgegenstand der Sprache-in-Interaktion. Damit überschreitet die Konversationsanalyse die Grenze zwischen soziologischer Forschung und Linguistik. Interaktion ist dann ein durch sprachliche Mittel kooperativ realisierter Prozess, der dazu dient, „Handlungen intersubjektiv zu erzeugen“ (Imo 2014:52). Gerade von Seiten der Linguistik hat die CA daher eine breite Rezeption erfahren. Wie die EM folgt die CA einer strikt empirischen und induktiven Forschungshaltung, deren Grundlage natürliche Daten sind (vgl. Gülich/Mondada 2008:1). So führt Sacks seine Studien konsequent anhand von Tonbandaufzeichnungen durch und zeigt in seinen Analysen, dass sich die an einer Interaktion Beteiligten an Mechanismen und Mustern orientieren, denen sie zum einen folgen und die sie zum anderen systematisch und funktional selbst hervorbringen (order at all points)Footnote 2, und dadurch für andere Interagierende erkennbar produzieren (doing (being); vgl. Gülich/Mondada 2008:14 f).

Ihr Ziel ist es, diejenigen Verfahren empirisch zu bestimmen, mittels derer die Teilnehmer an einem Gespräch im Vollzug ihrer (sprachlichen) Handlungen die Geordnetheit der (sprachlichen) Interaktion herstellen, das Verhalten ihrer Handlungspartner auf die in ihm zum Ausdruck kommende Geordnetheit hin analysieren und die Resultate dieser Analyse wiederum in ihren Äußerungen manifest werden lassen. (Bergmann 1981:15 f)

Die Verfahren, d. h. die Praktiken und Muster, die zur Herstellung von Geordnetheit systematisch produziert und hervorgebracht werden, dienen dabei „der methodischen Lösung struktureller Probleme der Interaktionsorganisation“ (Bergmann 1981:21; siehe dazu auch Deppermann 2007:31, Gülich/Mondada 2008:15). An dieser Stelle werden die Anschlusspunkte zwischen dem Konzept der kommunikativen Gattungen und den Annahmen der Konversationsanalyse deutlich. So fragt die Gattungsanalyse nach den spezifischen kommunikativen Problemen, die durch die Aktualisierung einer bestimmten Gattung gelöst werden (siehe Kapitel 8). Die CA geht dann in die Tiefe und untersucht die sequenziellen Praktiken und Mechanismen, die eingesetzt werden, um die beobachtbaren strukturellen Probleme zu lösen (vgl. Gülich/Mondada 2008:15). In diesem Zusammenhang fragt die CA – und mit ihr darauf aufbauende und daran anschließende Traditionen wie die Interaktionale Linguistik (siehe Abschnitt 10.3) – nach dem Zusammenhang von sprachlicher Form und interaktiv-sequenzieller Funktion, denn „Form und Funktion stehen in einem systematischen Verhältnis zueinander: Gesprächspraktiken sind formale Gesprächs-Methoden zur Bearbeitung bestimmter Gesprächsprobleme bzw. -aufgaben“ (Deppermann 2007:32).

‚Problem‘ steht, über seine Alltagsbedeutung hinausreichend, für alle Aufgaben, Funktionen, Zwecke und Ziele, an denen InteraktantInnen die Gestaltung ihrer Gesprächsbeiträge ausrichten. [...] Probleme und Funktionen, auf die sich der Einsatz sprachlicher Formen richtet, können auf unterschiedlichen Ebenen angesiedelt sein: Sie können von hochgradig formalen und momentanen Organisationsaufgaben (wie der Regelung des Sprecherwechsels) bis hin zu übergreifenden gemeinsamen Gesprächszwecken [...] reichen. (Deppermann 2007:36)

Dabei gibt es Aufgaben, die sich für jede soziale Interaktion stellen, etwa die grundlegende Gesprächsorganisation (die Herstellung fokussierter Interaktion, die Interaktionsordnung mit ihren unterschiedlichen Beteiligungsformaten, der Sprecherwechsel), die Sachverhaltsdarstellung (Themen, Kategorisierungen), die Handlungskonstitution (Funktion und Zweck von Handlungen), Beziehungsarbeit (z. B. Selbst- und Fremdpositionierungen) und die Klärung der Interaktionsmodalität, d. h. des Wirklichkeitsbezugs und der emotionalen Beteiligung der Interagierenden (vgl. Deppermann 2007:43f). Über all diesen Aufgaben steht, gleichsam als „Meta-Aufgabe“ (Deppermann 2007:44), das Problem der Herstellung von Intersubjektivität, d. h. die Herstellung von wechselseitigem Verstehen, das in jeder Interaktion von den Beteiligten bearbeitet werden muss (siehe dazu auch Brünner 2011 und Deppermann 2015). Dies geschieht im gemeinsamen Handeln der beteiligten Personen und damit als Prozess im Verlauf der Interaktion in der Zeit (Sequenzialität).

[A]us dem zeitlichen Ablauf der Dinge wird in und mit Interaktion eine erwartbare Reihenfolge, ein hergestelltes Nacheinander, bezüglich dessen Erwartungen und Verpflichtungen etabliert und ihrerseits erwartet werden können. Nichts anderes ist Sequenzialität, und die sequenzielle Ordnung ist die interaktiv organisierte Reihenfolge der Gesprächsbeiträge […]. (Hausendorf 2007:224)

Die CA rekonstruiert daher die Art und Weise, wie die situativ-interaktiven Aufgaben bearbeitet werden, in Form einer Sequenzanalyse:

Die Sequenzanalyse geht turn-by-turn vor und zeichnet die sukzessive Ausbildung von Sinn und Ordnungsstrukturen im Gespräch genau so nach, wie sie Beitrag für Beitrag und Schritt für Schritt innerhalb von Beiträgen vor sich geht. (Deppermann 2007:46)

Luckmann schätzt an der konversationsanalytischen Forschung vor allem dieses „Prinzip der Sequenzialität“ (Gülich/Mondada 2008:15), die Betrachtung von konkreten Interaktionen in ihrem situativen Vollzug und die Arbeit an authentischen Daten (vgl. Ayaß/Meyer 2012:26; siehe dazu auch Bergmann 1999:43 f). Innerhalb des Gattungskonzepts ist es vor allem die situative Realisierungsebene, die mithilfe der Sequenzanalyse aufgeschlossen werden kann (siehe Kapitel 8).

Zentrale und grundlegende Analyseergebnisse der sequenzanalytisch vorgenommenen Untersuchungen der Konversationsanalyse sind vor allem die Beschreibung von Paarsequenzen in ihrer minimalen und erweiterten Form (siehe Kapitel 17), die Beschreibung des Sprecherwechselsystems, von Reparaturverfahren sowie der Präferenzorganisation (vgl. Schegloff 2007, Clift 2016, Birkner et al. 2020). Grundlegend geht es der CA dabei um die Identifizierung und Beschreibung der in einer bestimmten Situation ausgeführten Handlung: „it studies situated action as it happens in both its systematic organization and its diversity within various social settings“ (Mondada 2016b:338).

Vor allem in den letzten Jahren hat die Konversationsanalyse (bedingt durch die Entwicklungen im Bereich der Videotechnik) ihren Analyseschwerpunkt hin zur Beschreibung multimodal realisierter Interaktionsereignisse verlagert (siehe Abschnitt 10.4). Des Weiteren erweitert die Interaktionale Linguistik das theoretische, methodische und analytische Repertoire der CA um die Berücksichtigung und Beschreibung linguistischer Kernbereiche, wie syntaktischer, morphologischer und phonetisch/phonologischer Aspekte.

3 Interaktionale Linguistik

Immer wieder wurde und wird die CA vor allem von Linguisten dafür kritisiert, dass sie, obwohl sie sich mit Sprache-in-Interaktion auseinandersetzt, genuin linguistische Aspekte außer Acht lässt und soziologischen Denktraditionen verhaftet bleibt.Footnote 3 Dies führte zu einer Fülle unterschiedlicher, z. T. konkurrierender Ansätze, die ihren Analyseschwerpunkt auf die Betrachtung gesprochener Sprache gerichtet haben (vgl. Imo 2014:49). Besonders die Interaktionale Linguistik setzt sich in diesem Zusammenhang mit zwei Aspekten auseinander:

Zum einen wird untersucht, wie die sprachlichen Ressourcen in der Interaktion mobilisiert werden, um turn-Konstruktionseinheiten, turns und Sequenzen zu bilden, zum anderen, wie die organisatorischen Zwänge der Interaktion die grammatischen Strukturen bilden und beeinflussen. Die grammatischen Strukturen werden also nicht als der Interaktion vorgängig und von dieser unabhängig gesehen, sondern als auf die Besonderheiten der Interaktion zugeschnitten und insofern offen für die schrittweise Entfaltung der turns, für kontingente Ereignisse, Handlungen der Teilnehmer und Reaktionen darauf bzw. das Ausbleiben einer Reaktion. (Gülich/Mondada 2008:25; Hervorhebungen im Original)

Es geht der Interaktionalen Linguistik auf der methodischen und analytischen Basis der Konversationsanalyse (siehe Abschnitt 10.2) also darum, die Struktur bzw. den „Aufbau interaktionaler Sprache“ (Imo 2013:15) zu verdeutlichen und das nicht nur auf sequenzieller, sondern auch auf grammatischer Ebene, und die Bedeutung grammatischer Strukturen als „Ressource für das Interaktionsmanagement“ (Imo 2014:53) herauszuarbeiten. So steht die Frage im Mittelpunkt, „inwieweit syntaktische, prosodische, semantische oder auch multimodale Strukturen mit interaktionalen Anforderungen verwoben sind“ (Imo 2014:54; Hervorhebungen im Original; siehe auch Imo/Lanwer 2019:61). Damit übt auch die Interaktionale Linguistik eine deutliche Strukturalismuskritik und grenzt sich scharf von linguistischen Traditionen ab, die Grammatik als abstraktes „System betrachten, das unabhängig von seinem Gebrauch beschrieben werden kann“ (Selting/Couper-Kuhlen 2000:80).

Aufgrund ihrer Verankerung in der CA konzentriert sich die Interaktionale Linguistik ebenfalls auf die empirisch-qualitative, induktive Analyse authentischer und natürlicher sozialer Interaktionsereignisse (Deppermann 2007:27 ff und Imo 2014:50), öffnet sich darüber hinaus jedoch auch für quantitative Analysen syntaktisch-interaktiver Phänomene, die auf der Grundlage größerer Datenkorpora identifiziert werden (vgl. Imo/Lanwer 2019:62). Qualitative und quantitative Untersuchungen werden dabei eng miteinander verknüpft. Grundsätzlich gilt bei allen Analysen, dass die Interaktionale Linguistik, anders als etwa die Funktionale Pragmatik, nicht nach Motivationen und Intentionen der handelnden Akteure fragt. Vielmehr geht es ihr, wie der CA, in erster Linie um das Wie des Handelns, also um sprachliche und kommunikative Praktiken und Formen, und im Anschluss daran um das Warum, um die Ziele und Funktionen (vgl. Deppermann 2007:32 und 41; siehe dazu auch Imo/Lanwer 2019:63).

Syntaktische, lexikalische, morphologische und phonetisch/phonologische Strukturen sind für die Interaktionale Linguistik also „eine Folge der Notwendigkeit […] gemeinsam in der Interaktion Handlungen durchzuführen“ (Imo/Lanwer 2019:64) und damit Anforderungen und Probleme der Interaktion situativ und flexibel zu bearbeiten.

Die Interaktionale Linguistik öffnet sich im Zuge der Weiterentwicklung des konversationsanalytischen Forschungsansatzes für die Analyse medial schriftlicher Interaktionen, wie der Chat-, E-Mail-, SMS- oder WhatsApp-Kommunikation (vgl. Imo 2014:52, Beißwenger 2016), und greift dabei in ihren Analysen sowohl auf die Methoden und die Kategorien der CA als auch auf anhand von Schriftsprache entwickelte grammatische Kategorien zurück. Die im Zuge dieser Analysen stattfindende Übertragung von methodischen und theoretischen Konzepten, die auf der Grundlage von Schriftsprache entwickelt wurden und nun auf konzeptionell mündliche Datensätze (in mündlicher oder schriftlicher Medialität) übertragen werden (sollen), wirft jedoch auch Fragen hinsichtlich des Analysevorgehens und der verwendeten analytischen Kategorien auf (vgl. Imo 2013:9; siehe dazu auch Selting/Couper-Kuhlen 2000:80). Immer mehr Studien stellen in diesem Zusammenhang fest, dass eine Anpassung und Überarbeitung bestehender Konzepte notwendig ist.

Gerade aus soziologisch-konversationsanalytischer Sicht ist darüber hinaus die linguistische Betrachtung natürlicher (Alltags)Interaktion und die Erweiterung der Konversationsanalyse um Fragen nach „Sprachstrukturen und deren Funktionen in der natürlichen Interaktion“ (Selting/Couper-Kuhlen 2000:92) mit einigen Gefahren verbunden. So warnt Bergmann 1981:

So wird es etwa für einen Linguisten mit konversationsanalytischen Interessen zweifellos schwierig werden, immer im Kopf zu behalten, dass sich seine Analyse nicht in erster Linie mit Sprache, sondern mit Interaktion zu beschäftigen hat. Er muss sich in seiner Arbeit immer daran orientieren, dass die einzelne sprachliche Äußerung nur der ‚Gast‘ (Sacks) in einem Redezug ist. Das aber heißt zunächst einmal, dass ihm sein Wissen über Sprache nichts oder nur wenig bei der konversationsanalytischen Arbeit nützen wird, und es heißt weiter, dass ihm seine linguistischen Denkmuster manchmal geradezu hinderlich sein werden, um einen Blick zu entwickeln für die Prozesse der lokalen, reflexiven Produktion von sozialer Ordnung in der (sprachlichen) Interaktion. (Bergmann 1981:33)

Erstaunlich ist in Anbetracht solch schwerwiegender Prophezeiungen, dass es bis heute vor allem Linguisten sind, die im deutschsprachigen Raum die Entwicklung der Konversationsanalyse vorangetrieben, die notwendige Verknüpfung von sprachlichen und nicht-sprachlichen Elementen aufgezeigt und die Balance zwischen diesen beiden Ebenen in den Analysen gefunden haben. So wird im Gegenteil deutlich, dass erst mit Blick auf verbale und vokale (phonetische, morphologische, syntaktische etc.) Aspekte einer Äußerung eine adäquate Beschreibung und Darstellung der interaktiven, kontextsensitiven Herstellungsleistungen möglich ist. Dieser Blick wird in den letzten Jahren zunehmend um die visuellen Aspekte von Interaktion erweitert.

4 Multimodale Interaktionsanalyse

Die gleichzeitige Nutzung sowie die Produktion und Rezeption unterschiedlicher Ausdrucksressourcen in der Interaktion ist eine grundlegende kommunikative Fähigkeit des Menschen (vgl. Bateman et al. 2017:7 und 12). Dies hat dazu geführt, dass der Begriff der Multimodalität in unterschiedlichen Disziplinen (u. a. in der Linguistik, der Soziologie, aber auch in der Literatur- und Medienwissenschaft) in gleichem Maße verwendet:

Multimodality is a way of characterising communicative situations (considered very broadly) which rely upon combinations of different ‘forms’ of communication to be effective – the TV programme uses spoken language, pictures and texts; the book uses written language, pictures, diagrams, page composition and so on; talking in the cafeteria brings together spoken language with a host of bodily capabilities and postures; and the computer game might show representations of any of these things and include movement and actions as well. (Bateman et al. 2017:7)

Besonders in der face-to-face-Interaktion, d. h. in Situationen zeitlich und räumlich ko-präsenter Interagierender, spielen die Koordination und die simultane Nutzung unterschiedlicher verbaler, vokaler, visuell-leiblicher und materieller Interaktionsressourcen eine entscheidende Rolle, denn erst durch die Berücksichtigung des Zusammenspiels wird rekonstruierbar, wie die Interagierenden lokal situativ Bedeutung herstellen (vgl. Mittelberg 2007:225, Bohle 2013:993, Bateman et al. 2017:8). Die interaktionsanalytischen Studien der letzten Jahre haben dabei herausgearbeitet, dass die Produktion und Rezeption visuell wahrnehmbarer Praktiken häufig der Produktion auditiv wahrnehmbarer Praktiken vorausgeht (vgl. u. a. Mittelberg 2007:225). Visuelle, vokale und verbale Interaktionsressourcen stehen demnach in einer komplexen Beziehung hinsichtlich ihrer Sequenzialität und Simultaneität. Untersuchungen, die diesem Umstand Rechnung tragen, gehen notwendig über genuin linguistische Fragestellungen hinaus und betrachten neben vokal-leiblichen auch visuell-leibliche Aspekte der Interaktion wie Mimik, Gestik, Proxemik (d. h. Körperhaltung, Körperbewegung, Körperausrichtung und Körperpositionierung etc.) sowie die Nutzung von Objekten – z. B. den Gebrauch unterschiedlicher Medien und technischer Geräte (vgl. Heath 2013:xii f, Bateman et al. 2017:8 und 11; siehe zur Differenzierung zwischen verbal, vokal und visuell auch Janich/Birkner 2015:197 f). Die durchgeführten Analysen fragen zudem nach der Kopplung von Körper und Objekt. Immer wieder ist in diesem Zusammenhang die Rede vom ‚multimodal turn‘, der sich von der face-to-face-Kommunikation bis hinein in die Kommunikation durch und mit Medien zieht: „The multimodal turn is then the willingness and, indeed, perceived need to examine combinations of expressive resources explicitly and systematically“ (Bateman et al. 2017:15).

Bereits in der frühen konversationsanalytischen Forschung spielte neben der Analyse sprachlicher Phänomene die Erkenntnis eine große Rolle, dass gerade beim Interesse an face-to-face-Interaktion Videos eine unerlässliche Datenquelle sind, um die Komplexität, Geordnetheit und Multimodalität der Interaktionsereignisse in den Blick nehmen zu können (vgl. Gülich/Mondada 2008:20). Es sind vor allem Arbeiten zur institutionellen Kommunikation in professionellen Handlungsfeldern (u. a. talk-at-work und die sog. ‚Workplace Studies‘; vgl. Knoblauch/Heath 2006, Drew/Heritage 2001:5), die hier Vorreiter sind und „Arbeitsbereiche mit einer Vielzahl an Akteuren und Handlungsträgern, modernen Technologien (Computer, Bildfernsprecher oder Videokonferenzen) und Artefakten (Dokumente, Karten, Instrumente und Apparate)“ (Gülich/Mondada 2008:20) untersuchen. Die Analysehaltung und Prämissen der Ethnomethodologie und der Konversationsanalyse, d. h. die ‚analytische Mentalität‘ blieb unverändert (siehe Abschnitt 10.1 und 10.2), wurde jedoch mit neuen theoretischen und methodischen Konzepten angereichert (vgl. Bergmann 2006:395, Mondada 2013a:218).

Mit dem Begriff der ‚Multimodalität‘ wird also eine Neukonzeption von Kommunikation und Interaktion gefasst, die

Kommunikation als einen ganzheitlichen und letztlich von der Körperlichkeit der Beteiligten nicht zu trennenden Prozess begreift. Ganzheitlich ist der Prozess insofern, als er immer aus dem gleichzeitigen Zusammenspiel mehrerer Modalitäten besteht, die jeweils spezifische Möglichkeiten zur Verfügung stellen, sich in kommunikationsrelevanter Weise auszudrücken, Handlungsziele zu erreichen und soziale Bedeutung zu konstituieren. Zu diesen Modalitäten zählen beispielsweise: Verbalität, Prosodie, Blickverhalten, Mimik, Gestik, Körperpositur, Körperkonstellation und Körperbewegung. Körperlich ist der Prozess insofern, als der Körper sowohl das Instrument als auch die zentrale Ressource all dieser unterschiedlichen Ausdrucksebenen darstellt. (Schmitt 2015:18 f)

Der Blick richtet sich dann auf das „Zusammenspiel aller Ausdrucksressourcen“ in ihrer „sequenziellen und simultanen Vollzugscharakteristik“ (beide Zitate Schmitt/Hausendorf 2016:12). Diese Verlagerung des Schwerpunktes der empirischen Forschung der Interaktionsanalyse stellt nicht nur Herausforderungen an die Themen, die Fragestellungen und das Forschungsdesign, sondern auch an die Methoden der Auswertung sowie an Theoriekonzepte zur Beschreibung der Analysebefunde (vgl. Bateman et al. 2017:8). So wurde vor allem in den letzten Jahren die Forderung nach einer konsequenten Überarbeitung konversationsanalytischer Kategorien im Sinne der Multimodalitätsforschung laut (vgl. Hausendorf et al. 2012:8). Vor allem die terminologische Unterscheidung in ‚verbal‘ und ‚non-verbal‘ wird in diesem Zusammenhang zur Diskussion gestellt:

Despite the inherent multimodality of spoken language, much earlier work on face-to-face interaction still took ‘language’ as its point of departure, grouping all other components together as the ‘non-verbal’. This was (and is) a misleading characterization because it lends itself far too readily to seeing language as where the ‘real’ communication occurs and the rest, the non-verbal, as additional inflections or colourings, flavourings, etc. of what was (actually) said. (Bateman et al. 2017:239)

Trotz der Ausweitung der konversationsanalytischen und interaktionslinguistischen Studien um Aspekte der multimodalen Realisierung von Interaktionen wird nach wie vor eine Primärsetzung des Verbalen und eine bestehende Nachgeordnetheit der visuellen Interaktion innerhalb der durchgeführten Analysen gesehen und kritisiert (vgl. Schmitt/Knöbl 2013:244). Dieser Priorisierung der Verbalität versucht die Multimodale Interaktionsanalyse entgegenzuwirken (vgl. Schmitt/Knöbl 2013:244). Wichtigster Grundsatz ist dabei die Annahme der grundlegenden Gleichwertigkeit, d. h. der „theoretischen Egalität“ (Schmitt/Knöbl 2013:243) aller den Interagierenden zur Verfügung stehenden Ausdrucksressourcen (vgl. Hausendorf et al. 2012:9, Schmitt 2015, Schmitt/Hausendorf 2016:11 f; siehe dazu auch Mondada 2016b:341 und 2018a:88).

In der Tradition der ethnomethodologischen Konversationsanalyse und der Interaktionalen Linguistik stehend, trägt die Multimodale Interaktionsanalyse der „Prägnanz […] visuelle[r] Anteile an der Interaktionskonstitution“ (Schmitt/Hausendorf 2016:9) in besonderem Maße Rechnung und präpariert erst aus den konkreten empirischen Daten die Relevanz und die mögliche Dominanz einzelner Ausdrucksressourcen im situativen Vollzug der Interaktion heraus (vgl. Deppermann/Schmitt 2007:21; siehe dazu auch Mondada 2016b:341). In diesem Zusammenhang wird die Unterscheidung der drei Ebenen verbal, vokal und visuell weitergeführt, indem vor allem der architektonische Raum als interaktionskonstitutives, visuell wahrnehmbares und leiblich erfahrbares Element in den Fokus der Forschung gerückt wird (vgl. Hausendorf/Schmitt 2016a:12; siehe Kapitel 14). In der hier vorliegenden Arbeit wird die Kritik an der bestehenden terminologischen Differenzierung aufgegriffen und insofern berücksichtigt, als nicht zwischen ‚verbal‘ und ‚non-verbal‘ unterschieden wird, sondern zwischen ‚verbal‘ und ‚visuell‘. Letzterer Begriff wird dann noch einmal spezifischer in ‚visuell-leiblich‘ und ‚materiell‘ ausdifferenziert.Footnote 4

Gemeinsam ist der multimodal erweiterten Konversationsanalyse, der Interaktionalen Linguistik und der Multimodalen Interaktionsanalyse, dass die Betrachtung verbaler, vokaler und visueller Ressourcen in ihrem Zusammenspiel erst durch die Entwicklungen im Bereich der Audio- und Videotechnik möglich wurde.

5 Videoanalyse

Die Hinwendung zum alltäglichen Sprachgebrauch und zur Sprache-in-Interaktion führt sowohl zu theoretischen als auch zu methodischen Verschiebungen. Forschungsprojekte, die ihre Analysen allein auf Feldprotokollen und Notizen zu teilnehmenden Beobachtungen aufbauen, genügen den Ansprüchen, die Geordnetheit und spezifischen Ausprägungen menschlicher Interaktion in natürlichen Kontexten zu analysieren, nicht mehr. Obwohl das Interesse der Ethnomethodologie und der Konversationsanalyse bereits von Beginn an auf der komplexen Organisation verbaler und visueller Aspekte der Interaktion lag (vgl. Mondada 2016b:340), und bereits in den 1970er und 1980er Jahren erste Untersuchungen anhand von Videodaten durchgeführt wurden (vgl. z. B. Goodwin 1981 und Heath 1982), lag das Hauptaugenmerk auf der mikrostrukturellen Analyse sprachlich realisierter Strukturen sozialer Interaktion. Diese Einschränkung auf verbale und vokale Aspekte war dabei nicht einem besonderen Forschungsfokus geschuldet, sondern vor allem der für das Forschungsprogramm der CA erforderlichen und vorhandenen technischen Möglichkeiten zur Aufzeichnung natürlicher Interaktionssituationen (vgl. Sacks 1984:26, Bergmann 1981:14f, Gülich/Mondada 2008:14, Mondada 2013a:219, Mondada 2016b:340). Dabei zeigt sich eine enge Verknüpfung, mithin Abhängigkeit, zwischen der CA und technischen Hilfsmitteln zur Analyse (vgl. Ayaß 2015). Die sich stetig entwickelnde Audio- und später Videotechnik vermag es, die mikrostrukturellen Prozesse und sequenziellen Strukturen analysierbar zu machen, da durch die technischen Möglichkeiten der Verlangsamung des Bildes, des Vor- und Zurückspulens sowie des Zoomens in das Video hinein eine detaillierte und wissenschaftlich belastbare sinnhafte Re-Konstruktion der aufgezeichneten Interaktionssituation möglich wird (vgl. Heath et al. 2010:5 f, Schnettler 2011:175 f). Mithilfe von Videos können nicht nur flüchtige verbale Äußerungen konserviert werden, sondern auch die gleichfalls der Flüchtigkeit unterliegenden Bewegungsdynamiken. Mit der Entwicklung und Etablierung (digitaler) Videotechnik konnte so das Interesse an der Prozessualität, Temporalität, Kontextualität und Situiertheit sozialer Interaktion auf allen Ebenen der Verkörperung (embodiment) in die Forschung integriert und diese um die multimodale Dimension erweitert werden (vgl. Gülich/Mondada 2008:29, Mondada 2013b:982; siehe Abschnitt 10.4). Erst durch die Analyse von Videoaufnahmen wird es möglich, einen detaillierten Blick auf die komplexe Koordinierung und Orchestrierung sprachlicher (verbaler und vokaler), körperliche-räumlicher (Mimik, Gestik, Blick, Körperorientierung, etc.) sowie materieller Ressourcen (Gebrauch/Nutzung von Objekten) zu werfen (vgl. u. a. Heath et al. 2010:7, Hausendorf et al. 2012:8). Es rückte so immer mehr die „Ökologie der Interaktion (räumliche Umgebung, Positionierung der Teilnehmer, Bewegungen, wechselseitige Orientierung), einschließlich der Gegenstände und andere Artefakte, die in der Interaktion mobilisiert werden“ (Gülich/Mondada 2008:29), in das Blickfeld der Forschenden (siehe dazu auch Schnettler 2011:171). Das Bewusstsein für die komplexe multimodale Realisierung der Interaktion führt zu immer genaueren Betrachtungen von Videodaten und der Erstellung von Korpora, bestehend aus videografierten Interaktionsereignissen. Waren es zu Beginn noch vorwiegend künstlich erzeugte Situationen (sog. Laborexperimenten; vgl. Goodwin 1981:34), die auf Video aufgezeichnet wurden, so traten bereits in den Anfängen der soziolinguistischen und konversationsanalytischen Forschung empirisch-qualitative Analysen authentischer Daten in den Vordergrund.Footnote 5 Das Interesse lag und liegt auf natürlichen Daten, d. h. auf der Betrachtung von Interaktionsereignissen, die auch ohne die Anwesenheit der Aufnahmetechnik und/oder beobachtender Wissenschaftler stattgefunden hätten (vgl. Bergmann 1981:14, Knoblauch et al. 2009:11, Schnettler 2011:176, Mondada 2016b:339).Footnote 6 Dabei muss jedoch immer berücksichtigt werden, dass es sich um eine „filmische Repräsentation“ (Stukenbrock 2009:166) und Transformation des Ursprungsereignisses handelt (vgl. Mondada 2016a:112), d. h. um eine Abbildung der tatsächlichen Interaktion aus einer bestimmten optischen Perspektive und nicht um das Ereignis selbst.

Videodaten sind mithin nicht das Resultat eines neutralen Registrierauges, sondern das Produkt eines durch technische Möglichkeiten und Grenzen, Beobachterperspektive, Darstellungsinteressen, Vorannahmen usw. geleiteten Konstruktionsprozesses. (Stukenbrock 2009:167)

Bedingt wird dies u. a. durch den notwendig zu wählenden Bildausschnitt und die jeweilige Kameraperspektive. Die zu treffenden filmischen Entscheidungen begrenzen damit das, was auf dem angefertigten Video zu sehen oder zu hören ist.

In den letzten 30 Jahren hat sich dann die Nutzung von Videodaten innerhalb der qualitativen Sozialforschung sowie der Interaktionsforschung zu einem üblichen und z. T. geforderten Vorgehen etabliert (vgl. Knoblauch et al. 2009:9). In diesem Zusammenhang wird von einem ‚visual turn‘, ‚embodied turn‘ oder auch ‚video turn‘ innerhalb der CA, der Interaktionalen Linguistik und allgemeiner der Untersuchung sozialer Interaktion gesprochen (vgl. Mondada 2016b:339). Die Vorteile und Errungenschaften der Videotechnik für die Analyse natürlicher Interaktion sind dabei immens. Audiovisuelle Daten ermöglichen sowohl einen verfeinerten Blick auf die Interaktionssituation selbst als auch eine Intersubjektivierung der Analysen und der präsentierten Ergebnisse (bis zu einem gewissen Grad unabhängig von den subjektiven Eindrücken der erhebenden Forschenden und ggf. notwendiger ethnographischer Wissensbestände), die auch für Rezipierende in besonderem Maße nachvollziehbar und überprüfbar gemacht werden (vgl. Knoblauch et al. 2009:10). Die Arbeit mit diesen (neuen) Datensorten (vgl. Ayaß 2015:506) bietet jedoch nicht nur Vorteile, sondern stellt auf unterschiedlichen Ebenen neue Herausforderungen und Anforderungen an die Forschungsarbeiten, wie nachfolgend skizziert wird.

  • Forschungsdesign

Die Nutzung von Audio- und Videogeräten führt zu erhebungspraktischen Fragen, wie der Positionierung der Geräte im Raum, und zu ethischen Fragen nach offener oder verdeckter Aufnahme. Stärker als dies bei Audioaufnahmen der Fall ist, werden das Beobachterparadoxon (observers paradox; Labov 1978:209) sowie die Frage der Reaktanz, d. h. der mehr oder weniger deutlichen Reaktion der Beobachteten auf die Aufnahmetechnik und die beobachtenden Forschenden (sofern diese in der Situation anwesend sind; vgl. Schnettler 2011:176) relevant. Dies hat Auswirkungen auf die Natürlichkeit der Daten. Mittlerweile weiß man jedoch, dass sich eine relativ schnelle Gewöhnung einstellt und die Reaktanz mit zunehmender zeitlicher Dauer der Aufnahmen abnimmt (vgl. Knoblauch et al. 2009:11).Footnote 7

  • Datenfülle und Nachnutzung

Durch die Erhebung von Videodaten zeigt sich nicht nur ein deutliches „Anwachsen der Komplexität und Aspektualität der Untersuchungsgegenstände“ (Hausendorf et al. 2012:8), sondern auch ein größeres Datenvolumen, das nicht nur bei der Aufbereitung der erhobenen Daten eine Rolle spielt, sondern auch hinsichtlich ihrer Speicherung und Archivierung (vgl. Knoblauch et al. 2009:14). Immer wichtiger werden in diesem Zusammenhang Strategien des Forschungsdatenmanagements sowie die Erhebung von Metadaten, die das Datenmaterial für eine Nachnutzung verwertbar machen.

  • Datenauswertung

Auch aufgrund der in den Anfängen vorhandenen Datensätze ist das konversationsanalytische Analyserepertoire und sind die Analysekategorien auf die verbale Ebene der Interaktion ausgerichtet, da sie anhand von Audioaufnahmen entwickelt wurden. So ergeben sich z. B. Fragen danach, was unter multimodaler Perspektive ein Redebeitrag (turn) ist und wie und wann dann von Sprecherwechseln (turn-taking) gesprochen werden kann. Es bedarf also auch veränderter Auswertungsmethoden (vgl. Heath et al. 2010:1) und einer auf die Multimodalität zugeschnittenen Analyseterminologie bzw. einer multimodalen Wendung und Überarbeitung bereits vorhandener Terminologien und Konzepte (vgl. Schmitt/Knöbl 2013; siehe Abschnitt 10.4).

  • Datenaufbereitung & Datenpräsentation

Darüber hinaus ergibt sich das Problem der adäquaten Aufbereitung der Daten und der Darstellung der Analyseergebnisse (vgl. Knoblauch et al. 2009:15f). Es zeigt sich immer wieder, dass reine Verbaltranskripte nicht ausreichen, um gerade die Multimodalität in ihrer Komplexität darzustellen und abzubilden. Aus diesem Grund entwirft die vorliegende Arbeit ein neuartiges Transkriptionssystem (siehe Kapitel 12).

Diese Überlegungen führen zwangsläufig zu der Frage, wie weit die interaktionsanalytische Forschung gehen kann und in welche Richtung(en) der visual/video-turn weitergedacht werden wird, d. h. wie die Multimodale Interaktionsanalyse in Zukunft aussehen wird und mithilfe welcher technischen Geräte dem Phänomen sozialer Interaktion noch nähergekommen werden kann. McIlvenny/Davidson (2017:17) sprechen in diesem Zusammenhang von “diverse paradigm shifts”. Sie beschreiben zum einen den Übergang von der Nutzung einer Digitalkamera hin zum Einsatz mehrerer Kameras, die das zu untersuchende Ereignis aus unterschiedlichen Perspektiven und Winkeln aufnehmen. Zum anderen geht es um die Nutzung neuer Aufnahmetechnik. In den letzten Jahren hat sich etwa die Arbeit mit eye-tracking-Brillen stark weiterentwickelt (vgl. u. a. Weiß/Auer 2016 und Stukenbrock 2018). Noch einen Schritt weiter gehen McIlvenny/Davidsen, die mit 360°-Kameras und 3D-Technik arbeiten (McIlvenny/Davidsen 2017:17, McIlvenny 2019). Dies verspricht ein noch detaillierteres Eintauchen in soziale Interaktionen, führt aber zum gegenwärtigen Zeitpunkt auch zu großem Aufwand, der die starke Präsenz der Videotechnik in der Interaktionssituation erfordert. In wie weit sich der Einsatz solch komplexer Technik für die Interaktionsanalyse eignet, was mit den nicht unerheblichen Datenmengen geschieht und wie diese zu archivieren und aufzubereiten sind, wird sich in den nächsten Jahren zeigen. Nach wie vor bedarf es an dieser Stelle weiterer wissenschaftlicher Auseinandersetzungen, Diskussionen und Innovationen, um adäquate methodische, theoretische und technische Zugänge sowie Darstellungsformen zu entwickeln.