Einleitung

Die Fachdidaktiken haben sich in Deutschland in den letzten Jahrzehnten zu eigenständigen, empirisch arbeitenden wissenschaftlichen Disziplinen entwickelt (Bayrhuber et al. 2011; Leuders 2015). Das Spezifische der Fachdidaktiken liegt hierbei in ihrem Fachbezug, wobei sie methodisch mit benachbarten Disziplinen verbunden sind (z. B. empirische Bildungsforschung, Psychologie). Im Rahmen ihrer Entwicklung und Etablierung als empirisch arbeitende Disziplinen findet in den Naturwissenschaftsdidaktiken vermehrt eine Auseinandersetzung mit methodischen und methodologischen Fragen statt (Leuders 2015); was auch an der Publikation von Lehrbüchern und Sammelbänden zu Methoden in der naturwissenschaftsdidaktischen Forschung erkennbar ist (z. B. Groß et al. 2019; Sandmann und Schmiemann 2016; Krüger et al. 2014; Reinisch et al. in Vorbereitung). Hierzu gehört auch die Frage danach, was gute fachdidaktische Forschung überhaupt ausmacht. Aktuelle Reviews zeigen, dass es nicht nur Hinweise auf eine mangelnde Replizierbarkeit von Studien in der sozialwissenschaftlichen und erziehungswissenschaftlichen Forschung gibt (Camerer et al. 2018; Makel und Plucker 2014), sondern auch, dass insbesondere mit Bezug auf qualitative Arbeiten sowohl in den Erziehungswissenschaften (Grunenberg 2004) als auch in den Sozialwissenschaften (Barusch et al. 2011) die praktische Umsetzung qualitätssichernder Maßnahmen oft sehr unterschiedlich ausfällt. Da die hohe Vielfalt qualitativer Methoden (Howe und Eisenhart 1990) und die im Vergleich zu quantitativer Forschung große Bedeutsamkeit von interpretativer Sinnkonstruktion (Patton 2001) die Etablierung von allgemeingültigen Gütekriterien für die qualitative fachdidaktische und erziehungswissenschaftliche Forschung erschweren (vgl. Steinke 2013; Flick 2010), werden methodenspezifisch anzulegende Gütekriterien und Maßnahmen diskutiert (vgl. „methodological awareness“; Seale 2002). Dies zeigt sich auch in einer Forderung des Roundtables der Deutschen Forschungsgemeinschaft (DFG) zur „Qualität qualitativer Forschung in der Erziehungswissenschaft“ (Helsper et al. 2001). Dort wurde die exemplarische Sammlung erprobter Forschungspraxen gefordert, um WissenschaftlerInnen eine Orientierung bei der Umsetzung von qualitätssichernden Maßnahmen in qualitativen Forschungsprojekten zu bieten.

Zu den in der qualitativen sozialwissenschaftlichen und erziehungswissenschaftlichen Forschung etablierten Methoden gehören beispielsweise die verschiedenen Verfahren der qualitativen Inhaltsanalyse (Schreier 2014; Mayring 2019). Auch in der naturwissenschaftsdidaktischen Forschung kommt der qualitativen Inhaltsanalyse eine besondere Bedeutung zu, die sich etwa in spezifisch naturwissenschaftsdidaktischen, methodologischen Beiträgen zeigt (z. B. Gropengießer 2005; Krüger und Riemeier 2014). Die vorliegende Analyse erarbeitet einen Überblick über die in der deutschsprachigen naturwissenschaftsdidaktischen Forschung etablierten Gütekriterien und Maßnahmen zur Qualitätssicherung bei der Umsetzung von Verfahren der qualitativen Inhaltsanalyse. Durch diese Sammlung erprobter Forschungspraxen (Helsper et al. 2001) trägt die Studie dazu bei, Verfahren der qualitativen Inhaltsanalyse in der naturwissenschaftsdidaktischen Forschung weiter zu etablieren und mögliche qualitätssichernde Maßnahmen zu systematisieren.

Qualitative Inhaltsanalyse in der naturwissenschaftsdidaktischen Forschung

Unter dem Begriff qualitative Inhaltsanalyse werden verschiedene Varianten eines methodischen Verfahrens zusammengefasst, welches auf die „Systematisierung und Interpretation von manifesten und latenten Kommunikationsinhalten unter Verwendung eines Kategoriensystems“ abzielt (Stamann et al. 2016, S. 13). Traditionell wurden qualitativ inhaltsanalytische Verfahren zu den qualitativen Forschungsmethoden gezählt (z. B. Lamnek 2010). Aktuell verortet Mayring (2019) diese allerdings zwischen dem qualitativen und quantitativen Forschungsparadigma, da einzelne Varianten jeweils spezifische Nähe zu quantitativer oder qualitativer Methodologie aufweisen. Eine generelle Einordnung der qualitativen Inhaltsanalyse als qualitative Methode sei demnach nicht möglich (Mayring 2019). Schreier (2014) unterscheidet zwischen acht verschiedenen Varianten der qualitativen Inhaltsanalyse, wobei zwei Varianten von ihr besonders hervorgehoben werden, die sie als Basisformen der qualitativen Inhaltsanalyse bezeichnet. Die erste Basisform, die inhaltlich-strukturierende Inhaltsanalyse, identifiziert die für eine Fragestellung relevanten Aspekte aus vorliegendem Material (z. B. Texten), indem systematisch und iterativ ein Kategoriensystem entwickelt, erprobt und modifiziert wird (vgl. Kuckartz 2016; Mayring 2015; Schreier 2012). Hierbei zeigen aktuelle Diskussionen jedoch weiteren Abgrenzungsbedarf (Mayring 2019). So unterscheidet sich zum Beispiel auch innerhalb der Verfahren, die von Schreier (2014) zur Basisform der inhaltlich-strukturierenden qualitativen Inhaltsanalyse zugeordnet werden, das Verhältnis von deduktiv und induktiv abgeleiteten Kategorien. Dies kann je nach Forschungsgegenstand variieren (vgl. Kuckartz 2016; Schreier 2012; Mayring 2015), wobei Mayring (2015) die Bedeutung der deduktiven Kategorienbildung für die inhaltlich-strukturierende qualitative Inhaltsanalyse besonders betont. Die zweite Basisform, die qualitative Inhaltsanalyse durch Extraktion (vgl. Gläser und Laudel 2013), zielt auf den Einbezug des gesamten untersuchten Materials unter möglichst hoher ökonomischer Effizienz ab. Deduktiv entwickelte Kategorien dienen als Rahmen für die induktive Verortung aller in den Texten enthaltenen und durch Extraktion zusammengefassten Informationen. Zur weiteren Systematisierung der verschiedenen Varianten schlagen Stamann et al. (2016) vor, neben der Basisform (inhaltlich-strukturierend, extrahierend), der Art der Kategorien (formal, skalierend, inhaltlich) oder des Kategoriensystems (statisch, dynamisch, linear-hierarchisch, netzwerkartig) und den oben genannten Modi der Kategorienbildung (induktiv, deduktiv) auch die weitere Vorgehensweise mit den qualitativ-inhaltsanalytisch gewonnenen Daten (z. B. die Analyse von Kodierhäufigkeiten oder die Entwicklung einer Typologie) als Bezugspunkte zu betrachten. Diese Vielfalt an Varianten der qualitativen Inhaltsanalyse illustriert, dass unterschiedliche methodologische Positionen zur qualitativen Inhaltsanalyse bestehen, die sich auch in aktuellen Diskussionen und Abgrenzungsversuchen wiederfinden (z. B. Mayring 2019).

Für die qualitative Inhaltsanalyse als etabliertes Verfahren der erziehungswissenschaftlichen und fachdidaktischen Forschung sind klar definierte Qualitätskriterien erforderlich, die für die Planung und Umsetzung von Forschungsvorhaben, für die Rezeption und Einordnung von Forschungsergebnissen sowie für die externe Begutachtung (z. B. peer-review, Forschungsförderung) leitend sein können (Helsper et al. 2016). Vergleichbar mit der Vielfalt qualitativer Forschungsmethoden im Allgemeinen (Howe und Eisenhart 1990), erschwert auch die Vielfalt der qualitativ-inhaltsanalytischen Verfahren im Besonderen die Antwort auf die Frage danach, was eine gute qualitative Inhaltsanalyse ausmacht und welche Gütekriterien an qualitativ-inhaltsanalytische Verfahren angelegt werden sollten. So argumentieren einige AutorInnen, dass die qualitative Inhaltsanalyse aus einer quantitativen Tradition hervorgeht und demnach auch klassische Gütekriterien wie Reliabilität und Validität bei deren Umsetzung angelegt werden sollten (vgl. Krippendorff 1980; Schreier 2012; Mayring 2015), wobei Objektivität meist auf Grund des hohen interpretativen Anteils der qualitativen Inhaltsanalyse mit Intersubjektivität gleichgesetzt (Mayring 2015) oder als Gütekriterium für die qualitative Inhaltsanalyse abgelehnt wird (Schreier 2012). Weitere Gütekriterien orientieren sich am Prozess des Verfahrens und können spezifische Maßnahmen zur Qualitätssicherung umfassen. So nennt Mayring (2002) beispielsweise die Verfahrensdokumentation, die argumentative Interpretationsabsicherung, die Regelgeleitetheit, die Nähe zum Gegenstand, die kommunikative Validierung und die Triangulation als Gütekriterien der inhaltlich-strukturierenden qualitativen Inhaltsanalyse. Etwas allgemeiner und orientiert an den zentralen Prinzipien der qualitativen Sozialforschung beschreibt Lamnek (2010) darüber hinaus Offenheit, Kommunikativität, Naturalistizität und Interpretativität als Merkmale einer guten qualitativen Inhaltsanalyse. Insgesamt wird damit deutlich, dass vielfältige Vorschläge zu Gütekriterien und entsprechenden Maßnahmen der Qualitätssicherung vorliegen. Diese Vielfältigkeit wird dem Anspruch klar definierter Qualitätskriterien (Helsper et al. 2001) allerdings nicht gerecht. Beispielsweise weist Mayring (2015) darauf hin, dass die oftmals als Inter-Koderreliabilität bezeichnete Beurteilerübereinstimmung ein Maß für die Auswertungsobjektivität ist, während Schreier (2012) die Beurteilerübereinstimmung entsprechend ihrer Bezeichnung der Reliabilität zuordnet.

Ziel und Fragestellungen

Vor dem Hintergrund der oben dargestellten Relevanz qualitativ-inhaltsanalytischer Verfahren in der naturwissenschaftsdidaktischen Forschung ist es das Ziel dieser Analyse, einen Überblick über die in der deutschsprachigen naturwissenschaftsdidaktischen Forschung gängige Praxis bei der Beschreibung von Gütekriterien und qualitätssichernden Maßnahmen im Hinblick auf qualitativ-inhaltsanalytische Verfahren zu geben. Die vorliegende Analyse identifiziert häufig genannte Gütekriterien und qualitätssichernde Maßnahmen und stellt damit eine exemplarische Sammlung erprobter Forschungspraxis als Orientierung für Forschungsprojekte dar (Helsper et al. 2001). Ziel ist es ferner, damit die qualitative Inhaltsanalyse in der naturwissenschaftsdidaktischen Forschung weiter zu etablieren.

Die folgenden Fragen leiteten die vorliegende Analyse:

  1. 1.

    Welche Gütekriterien werden für die qualitative Inhaltsanalyse in der deutschsprachigen naturwissenschaftsdidaktischen Forschung beschrieben?

  2. 2.

    Welche Maßnahmen der Qualitätssicherung von qualitativen Inhaltsanalysen werden in der deutschsprachigen naturwissenschaftsdidaktischen Forschung beschrieben?

  3. 3.

    Inwieweit werden für die qualitative Inhaltsanalyse in der deutschsprachigen naturwissenschaftsdidaktischen Forschung einzelne Maßnahmen der Qualitätssicherung konsistent bestimmten Gütekriterien zugeordnet?

Methoden

Um im Sinne eines systematischen Reviews (vgl. Bennett et al. 2005) die gängige Praxis der deutschsprachigen naturwissenschaftsdidaktischen Forschung beschreiben zu können, wurden als Stichprobe alle bis zum 16.10.2018 publizierten Artikel der Zeitschrift für Didaktik der Naturwissenschaften mit dem Stichwort „Inhaltsanalyse“ im Fließtext ausgewähltFootnote 1. Als Datengrundlage wurde die Zeitschrift für Didaktik der Naturwissenschaften gewählt, da sie als Verbandszeitschrift der Gesellschaft für Didaktik der Chemie und Physik (GDCP) und der Fachsektion Didaktik der Biologie (FDdB) im Verband Biologie, Biowissenschaften und Biomedizin (VBIO) als repräsentativ für deutschsprachige naturwissenschaftsdidaktische Forschung aufgefasst werden kann. Weitere Zeitschriften wurden aus forschungsökomischen Gründen nicht in die Analyse miteinbezogen. Zudem wurde nicht weitergehend zwischen verschiedenen Varianten der qualitativen Inhaltsanalyse unterschieden (Schreier 2014), da in den identifizierten Artikeln größtenteils keine Angabe hierzu gemacht wurde.

58 der 256 insgesamt in diesem Zeitraum publizierten Artikel entsprachen dem Auswahlkriterium. Acht dieser 58 Artikel wurden nach der ersten Sichtung ausgeschlossen, da in ihnen die qualitative Inhaltsanalyse nicht als primäre Methode beschrieben, sondern zum Beispiel nur im Ausblick diskutiert wurde. Die 50 verbliebenen Artikel wurden anschließend qualitativ-inhaltsanalytisch untersucht (siehe separates Literaturverzeichnis; Anhang A). Hierbei wurde entsprechend der inhaltlich-strukturierenden Variante der qualitativen Inhaltsanalyse nach Schreier (2012) verfahren, um beschriebene Gütekriterien (Frage 1) und Maßnahmen zur Qualitätssicherung (Frage 2) in den Artikeln (Analyseeinheit) zu identifizieren, zu konzeptualisieren und die Artikel im Hinblick darauf zu beschreiben (vgl. Schreier 2014).

Ein Kategoriensystem bestehend aus Gütekriterien und Maßnahmen zur Qualitätssicherung wurde deduktiv-induktiv entwickelt. Als theoretische Grundlage für die deduktive Kategorienentwicklung wurden alle Texte herangezogen, die in den Methodenbeschreibungen der 50 analysierten Artikel im Zusammenhang mit der qualitativen Inhaltsanalyse referenziert werden. Das deduktive Vorgehen wurde gewählt, um die Beschreibung der Gütekriterien und Maßnahmen der Qualitätssicherung in der qualitativen Inhaltsanalyse in einzelnen Studien mit methodologischen Empfehlungen kontrastieren zu können. Da oft verschiedene Ausgaben des gleichen Textes referenziert wurden, wurden hier die älteste und die jüngste angegebene Auflage untersucht (N = 21, siehe separates Literaturverzeichnis; Anhang B). Es wurden nur diejenigen Gütekriterien und Maßnahmen in das Kategoriensystem aufgenommen, die von den AutorInnen des jeweiligen Artikels explizit der qualitativen Inhaltsanalyse zugeordnet wurden. Weitere Gütekriterien und Maßnahmen der Qualitätssicherung, etwa die Datenerhebung betreffend, sind nicht Gegenstand der vorliegenden Analyse.

Die induktive Erweiterung des Kategoriensystems erfolgte auf der Basis der Kodierung von 50 % der analysierten Artikel. Dabei wurden Abschnitte kodiert, die mindestens einen ganzen Satz umfassen (Kodiereinheit). Zur weiteren Einordnung von Beschreibungen wurde gegebenenfalls die referenzierte methodologische Literatur herangezogen (Kontexteinheit). Die Artikel wurden unabhängig durch zwei Personen ausgewertet (Erstauswertung: Erstautor des Artikels; Zweitauswertung: geschulte studentische Hilfskraft) und es wurde die Interrater-Übereinstimmung geprüft, wobei Cohens Kappa als zufallskorrigiertes Maß der Beurteilerübereinstimmung gewählt wurde (Cohens Kappa = 0,70; „gut“, Wirtz und Caspar 2002). Nichtübereinstimmungen wurden im Rahmen einer diskursiven Konsensfindung gelöst, dabei wurden gegebenenfalls weitere Kategorien hinzugefügt, und die bisherigen Kategorien um Definitionen, Kodierhinweise, Stichworte und Ankerbeispiele ergänzt.

Das sich hieraus ergebende Kategoriensystem wurde innerhalb der eigenen Arbeitsgruppe im Sinne eines Peer-Debriefings diskutiert (vgl. Steinke 2013), dabei wurde es insbesondere hinsichtlich seiner Vollständigkeit, der Struktur und den Kodierhinweisen bewertet (vgl. Lisch und Kriz 1978). Anschließend wurde das beschriebene Verfahren auf die übrigen 50 % der Artikel angewendet (Cohens Kappa = 0,60; „gut“, Wirtz und Caspar 2002). Für das finale Kategoriensystem (Anhang C) ergaben sich so 27 Kategorien, wobei 11 Kategorien auf die Gütekriterien entfallen und 16 Kategorien Maßnahmen der Qualitätssicherung beschreiben (Tab. 1).

Tab. 1 Übersicht über die im Kategoriensystem enthaltenen Gütekriterien und Maßnahmen der Qualitätssicherung (das vollständige Kategoriensystem ist Anhang C zu entnehmen)

Alle Kodierungen wurden computergestützt mit dem Programm MAXQDA vorgenommen. Zur Beantwortung der Forschungsfragen 1 und 2 wurde jeweils eine Häufigkeitstabelle erstellt, die anzeigt in wie vielen Artikeln die einzelnen Gütekriterien (Frage 1) und qualitätssichernden Maßnahmen (Frage 2) beschrieben werden. Für die Gegenüberstellung von Gütekriterien und qualitätssichernden Maßnahmen (Frage 3) wurde eine Kreuztabelle erstellt, die aufzeigt, wie oft welche Gütekriterien mit welchen qualitätssichernden Maßnahmen zusammenhängend genannt werden.

Ergebnisse

Gütekriterien (Frage 1)

Insgesamt beschreiben 50 % der untersuchten Artikel mindestens eines der betrachteten Gütekriterien (Tab. 2). Validität wird in 15 Artikeln (30 %) beschrieben und stellt damit das am häufigsten beschriebene Gütekriterium dar. Hierbei kann Validität als Gütekriterium an das gesamte Verfahren der Auswertung (z. B. Gropengießer 1997), an das Kategoriensystem (z. B. Kühn 2011), an einzelne Kategorien (z. B. Kulgemeyer und Tomczyszyn 2015), an den Entwicklungsprozess der Kategorien (z. B. Mittelsten Scheid und Hößle 2008), an die Untersuchungsergebnisse (z. B. Weitzel und Gropengießer 2009) oder an die Interpretation der Untersuchungsergebnisse angelegt werden (z. B. Kulgemeyer und Tomczyszyn 2015). Zusätzlich werden verschiedene Validitätsaspekte unterschieden, beispielsweise die interne und externe Validität (z. B. Brovelli 2014) oder die Inhaltsvalidität, Kriteriumsvalidität, Handlungsvalidität und prognostische Validität (z. B. Kulgemeyer und Tomczyszyn 2015).

Tab. 2 Nennung der Gütekriterien in den 50 ausgewählten Artikeln der ZfDN, mehrere Kodierungen des gleichen Gütekriteriums werden pro Artikel nur einmal gezählt

In elf Artikeln (22 %) und somit jeweils ähnlich häufig wie die Validität werden die beiden anderen klassischen Gütekriterien Reliabilität und Objektivität beschrieben. Reliabilität wird hierbei ausschließlich im Zusammenhang mit bestimmten qualitätssichernden Maßnahmen beschrieben (vgl. Tab. 4). In den betrachteten Artikeln treten Objektivität und Intersubjektivität nicht gemeinsam auf, beide Begriffe werden jedoch als Gütekriterium für das Kategoriensystem (z. B. Kodierungen anhand von objektiven Textmerkmalen; Starauschek 2006), einzelne Kategorien (z. B. Baur 2018) oder einzelne Kodierungen und davon abgeleitete Interpretationen (z. B. Nehring et al. 2016) verwendet. Schmelzing et al. (2010) nennen darüber hinaus die Auswertungsobjektivität als einen Teilaspekt der Objektivität.

Die Nähe zum Gegenstand (Mayring 2015), auch Authentizität (vgl. Brovelli et al. 2013) oder Naturalistizität genannt (vgl. Lamnek 2010), wird in 10 % der untersuchten Artikel beschrieben. Als Gütekriterium kann die Nähe zum Gegenstand dabei zum einen an die Datenaufnahme angelegt werden, zum Beispiel indem eine besonders authentische Situation geschaffen wird (z. B. Brovelli et al. 2013). Zum anderen wird die Nähe zum Gegenstand im Zusammenhang mit Kategoriensystemen beschrieben, in denen eine „möglichst authentische Erfassung des Bedeutungsgehaltes“ stattfindet (z. B. Kasper und Mikelskis 2008).

Praktikabilität oder ökonomische Überlegungen werden vor allem in Hinsicht auf formale Aspekte oder vorbereitende Schritte der qualitativen Inhaltsanalyse beschrieben. Solche Überlegungen umfassen zum Beispiel die Begründung des Einsatzes von Computerprogrammen (z. B. Reitschert und Hößle 2007), die Reduzierung des Umfangs von eingesetzten Instrumenten zur Datenaufnahme (z. B. Kulgemeyer und Tomczyszyn 2015) sowie den Stichprobenumfang und die Stichprobenbeschaffenheit (z. B. Uhden 2016). Beschreibungen der praktischen Relevanz, die im Zusammenhang mit der qualitativen Inhaltsanalyse getroffen werden, umfassen Implikationen für die schulische (Baur 2018) und universitäre Lehre (Kulgemeyer und Tomczyszyn 2015) sowie für die Gestaltung von Prüfungsanforderungen (Florian et al. 2015).

Die weiteren von Lamnek (2010) definierten Gütekriterien Offenheit, Kommunikativität und Interpretativität, die sich an den zentralen Prinzipien der qualitativen Sozialforschung orientieren, werden seltener beschrieben. So begründet Offenheit in drei Artikeln die Auswahl der qualitativen Inhaltsanalyse als Auswertungsmethode (Baalmann et al. 2004; Riemeier et al. 2010; Baur 2018), während Kommunikativität (z. B. Mittelsten Scheid und Hößle 2008) und Interpretativität (Baalmann et al. 2004) als Eigenschaften der qualitativen Inhaltsanalyse hervorgehoben, aber nicht weiter ausgeführt werden.

Ethische Überlegungen zum Einsatz der qualitativen Inhaltsanalyse werden in zwei Artikeln expliziert und heben die Rolle der ProbandInnen als Forschungspartner hervor (z. B. Gropengießer 1997; Uhden 2016).

Maßnahmen der Qualitätssicherung (Frage 2)

In 45 Artikeln (90 %) werden eine oder mehrere Maßnahmen der Qualitätssicherung beschrieben, dabei wird eine Zunahme der Anzahl beschriebener Maßnahmen mit der Zeit deutlich (Abb. 1), wobei vor allem Gropengießer (1997) und Brovelli et al. (2013) relativ umfänglich Maßnahmen entgegen diesem Trend beschreiben. Es ergibt sich ein signifikant positiver Zusammenhang (Pearson Korrelation) zwischen dem Publikationsjahr und der Zahl der durchschnittlich beschriebenen Maßnahmen zur Qualitätssicherung (N = 50; r = 0,51; p < 0,001; großer Effekt).

Abb. 1
figure 1

Anzahl beschriebener Maßnahmen je untersuchtem Artikel

Die beschriebenen Maßnahmen der Qualitätssicherung (Tab. 3) beziehen sich am häufigsten auf den Modus der Kategorienbildung (vgl. Stamann et al. 2016). In acht Artikeln (16 %) wird eine rein induktive Bildung des Kategoriensystem beschrieben. Sieben Artikel (14 %) beschreiben eine rein deduktive Bildung des Kategoriensystems. Der Großteil der Artikel (21 Artikel, 42 %) kombiniert eine induktive und deduktive Bildung des Kategoriensystems.

Tab. 3 Beschreibung qualitätssichernder Maßnahmen in den 50 ausgewählten Artikeln der ZfDN, mehrere Kodierungen der gleichen Maßnahme werden pro Artikel nur einmal gezählt

Die nächsthäufige Maßnahme der Qualitätssicherung der qualitativen Inhaltsanalyse in den untersuchten Artikeln ist die Prüfung der Interrater-Übereinstimmung (21 Artikel, 42 %). Zu den hierbei berechneten Maßen gehören Cohens Kappa (z. B. Engl et al. 2015) sowie die prozentuale Beurteilerübereinstimmung (z. B. Starauschek 2006). Eine Prüfung der Intrarater-Übereinstimmung wird in keinem der untersuchten Artikel beschrieben.

Relativ häufig werden auch die von Mayring (2002) vorgeschlagenen qualitätssichernden MaßnahmenFootnote 2 Verfahrensdokumentation (12 Artikel, 24 %), argumentative Interpretationsabsicherung (5 Artikel, 10 %), systematisches Vorgehen (12 Artikel, 24 %), kommunikative Validierung (10 Artikel, 20 %) und Triangulation (10 Artikel, 20 %) beschrieben. Zu den expliziten Beschreibungen der Verfahrensdokumentation gehören die Entwicklungsprozesse von Kodierregeln (z. B. Reitschert und Hößle 2007) oder Kodiermanualen (z. B. Marsch et al. 2009) sowie die Begründung der Form der Datenaufnahme (z. B. Riemeier 2005) und deren Limitationen (z. B. Jelemenská 2012). Argumentative Interpretationsabsicherung wird von verschiedenen AutorInnen genannt, aber nicht näher ausgeführt (z. B. Schönfelder und Bögeholz 2009). Systematisches Vorgehen wird entweder als Grundvoraussetzung für die Datenauswertung (z. B. Mittelsten Scheid und Hößle 2008) beschrieben oder begründet Teile des Vorgehens wie die Durchführung einer Pilotstudie (z. B. Mittelsten Scheid und Hößle 2008) oder andere Maßnahmen der Qualitätssicherung wie eine kommunikative Validierung oder die Diskussion der Kodierungen (z. B. Riemeier et al. 2010). Kommunikative Validierungen und Triangulationen werden jeweils in zehn Artikeln (20 %) beschrieben. Zur kommunikativen Validierung werden zumeist retrospektiv Interviews mit ProbandInnen genutzt (z. B. Kulgemeyer und Tomczyszyn 2015), zum Teil auch in Verbindung mit Struktur-Lege-Techniken (z. B. Jelemenská 2012). Zur Triangulation werden sowohl verschiedene Methoden der Datenerhebung und -auswertung (z. B. Gropengießer 1997) als auch Daten verschiedener Erhebungszeitpunkte genutzt (z. B. Schwedler 2017).

Hinsichtlich diskursiver Maßnahmen der Qualitätssicherung können die interne, zwischen den BeurteilerInnen stattfindende Diskussion der Kodierungen (Kulgemeyer und Tomczyszyn 2015) sowie die Diskussion des Kategoriensystems mit mehr oder weniger externen ExpertInnen (Brovelli et al. 2013) unterschieden werden. Beide Maßnahmen werden in jeweils neun Artikeln (18 %) beschrieben. Weniger oft werden dagegen Prozesse der Konsensbildung (7 Artikel, 14 %) oder das Training der BeurteilerInnen erläutert (4 Artikel, 8 %). Auch formale Aspekte des Kategoriensystems (5 Artikel, 10 %) wie beispielsweise eine vorgegebene Länge der Kodiereinheiten, sowie die Standardisierung des Settings (1 Artikel, 2 %) werden selten beschrieben.

Zuordnung von Gütekriterien und Maßnahmen der Qualitätssicherung (Frage 3)

Die 174 insgesamt beschriebenen Maßnahmen der Qualitätssicherung werden zu einem Großteil (74 Maßnahmen, 43 %) explizit Gütekriterien zugeordnet, allerdings unterscheiden sich die zugeordneten Gütekriterien in den betrachteten Artikeln. Keine der betrachteten Maßnahmen wird konsistent über mehrere Artikel hinweg einem einzigen Gütekriterium konsistent zugeordnet (Tab. 4).

Tab. 4 Kreuztabelle der zusammenhängend beschriebenen Gütekriterien und qualitätssichernden Maßnahmen. Zeilen (Maßnahmen der Qualitätssicherung) und Spalten (Gütekriterien) sind absteigend nach ihrer Häufigkeit sortiert

Die Interrater-Übereinstimmung wird der Validität (in 4 Artikeln), der Reliabilität (in 7 Artikeln) sowie der Objektivität (in 6 Artikeln) zugeordnet. Dabei findet eine Zuordnung zu mehreren Gütekriterien teilweise auch innerhalb eines Artikels statt, zum Beispiel schreibt Baur (2018): „Fünfundzwanzig Prozent der Daten (Losprinzip) wurden bei der Kategoriensystementwicklung nochmals von einer zweiten Raterin ausgewertet, um die Objektivität und Reliabilität zu bestimmen.“ Auch die induktive Bildung des Kategoriensystems wird der Validität (in 3 Artikeln), der Reliabilität (in 7 Artikeln) und der Nähe zum Gegenstand (in 2 Artikeln), sowie in jeweils einem Artikel der Objektivität, Praktikabilität und Offenheit zugeordnet. Insgesamt werden die meisten beschriebenen Maßnahmen auch dem am häufigsten beschriebenen Gütekriterium der Validität zugeordnet.

Werden nur diejenigen Maßnahmen berücksichtigt, die explizit einem beliebigen Gütekriterium zugeordnet wurden (Abb. 2), ergibt sich ebenso ein signifikant positiver Zusammenhang zwischen dem Publikationsjahr und der Zahl der durchschnittlich beschriebenen und einem Gütekriterium zugeordneten Maßnahmen (N = 50; r = 0,44; p < 0,01; mittlerer Effekt).

Abb. 2
figure 2

Anzahl beschriebener Maßnahmen je untersuchtem Artikel, die einem Gütekriterium zugeordnet wurden

Diskussion

In der qualitativen Forschung werden Gütekriterien nach wie vor umfangreich diskutiert (z. B. Steinke 2013) und auch für die qualitative Inhaltsanalyse existieren vielfältige theoretische Vorschläge, Gütekriterien und Maßnahmen der Qualitätssicherung anzulegen (Mayring 2015; Schreier 2012; Lamnek 2010). Die vorliegende Untersuchung zeigt für die publizierten Artikel in der Zeitschrift für Didaktik der Naturwissenschaften, dass auch in der praktischen Umsetzung im Laufe der letzten Jahre vermehrt Gütekriterien und Maßnahmen der Qualitätssicherung für die qualitative Inhaltsanalyse beschrieben werden (Abb. 1). Dieser positive Trend könnte auf eine umfassendere Qualitätssicherung der qualitativen Inhaltsanalyse in der naturwissenschaftsdidaktischen Forschung hindeuten, die mit der zunehmenden Etablierung der Fachdidaktiken als eigenständige, empirisch arbeitende Disziplinen zusammenhängen kann (Bayrhuber et al. 2011; Leuders 2015). Als Gütekriterien werden dabei, entgegen der theoretischen Vielfalt, vorwiegend Validität, Reliabilität und Objektivität angelegt, die sonst klassischerweise der quantitativen Forschung zugeordnet werden (Tab. 2). Die dominierende Position der Gütekriterien Validität, Reliabilität und Objektivität könnte dabei Hinweis auf die zunehmende Etablierung methodologischer Positionen (Mayring 2015; Schreier 2012) oder eine vermehrte Nutzung integrativer Ansätze sein, die quantitative und qualitative Methoden zusammenführen (Kelle 2008). Die Dominanz der Validität als meistgenanntes Gütekriterium passt außerdem zu aktuellen Entwicklungen in der quantitativen Forschung. Hier wird ein „argument-based approach to validation“ vorgeschlagen (Kane 2013), nach dem durch Berücksichtugung verschiedener Evidenzquellen der argumentative Nachweis erbracht werden soll, dass die intendierten Testwertinterpretationen legitim sind. Dabei werden vielfältige Argumente für die Validität der intendierten Interpretation eines Testwertes geprüft. Hierbei kann nicht von der Validität einer Methode oder eines Tests im Allgemeinen gesprochen werden, diese ist vielmehr in Abhängigkeit des gegebenen Untersuchungskontexts darzulegen (Hartig, Frey und Jude 2012).

Betrachtet man die verschiedenen identifizierten Maßnahmen der Qualitätssicherung ergibt sich auf den ersten Blick ein ebenfalls relativ einheitliches Bild: Die Modi der Kategorienbildung und die Interrater-Übereinstimmung stellen klar die am häufigsten genannten Maßnahmen dar (Tab. 3), was sich auch theoretisch wiederfindet, so weist beispielsweise Mayring (2015) der Interrater-Übereinstimmung eine besondere Bedeutung zu. Auf den zweiten Blick zeigen sich zwischen den Artikeln Unterschiede im Hinblick auf den Zusammenhang zwischen den beschriebenen Maßnahmen der Qualitätssicherung und ihrer Zuordnung zu den Gütekriterien. Hier existiert weder theoretisch (vgl. „Objektivität“ Mayring 2015; Schreier 2012) noch praktisch (Baur 2018; Kulgemeyer und Tomczyszyn 2015; Kühn 2011) ein methodologischer Konsens, der als erprobte Forschungspraxis aufgefasst werden kann (vgl. Helsper et al. 2001). Diese Unterschiede könnten in der qualitativen Inhaltsanalyse selbst begründet sein, die durch ihren Variantenreichtum immer wieder Begriffsbestimmungen und Systematisierungsversuchen unterliegt (Ramsenthaler 2013; Schreier 2014; Stamann et al. 2016). Allerdings findet sich hierfür in den untersuchten Artikeln kaum ein Hinweis, da bis auf den Modus der Kategorienbildung selten klar definiert oder benannt wird, welche Variante der qualitativen Inhaltsanalyse dem jeweiligen Forschungsprojekt zugrunde liegt. Weiterhin könnten diese Unterschiede in der Natur der qualitativen Forschungsprojekte liegen, wobei abgewogen werden muss, in welcher Detailliertheit Methoden, Gütekriterien und Maßnahmen der Qualitätssicherung überhaupt konkretisiert werden können, ohne dass die Offenheit und Flexibilität qualitativer Methoden zu Gunsten von Systematik und Transparenz verloren geht (Denzin 2016). Um eine Diskussion über die Zusammenhänge zwischen spezifischen Gütekriterien und Maßnahmen der Qualitätssicherung zu vermeiden, können letztere auch hier analog zur quantitativen Forschung im Sinne eines „argument-based approach to validation“ (Kane 2013) als Argumente für die Validität der abgeleiteten Interpretationen aufgefasst werden. So kann jede Maßnahme der Qualitätssicherung als eine Evidenzquelle für eine valide Interpretation der Untersuchungsergebnisse aufgefasst werden. Dies bedeutet aber auch, dass ein Zusammenspiel mehrerer Maßnahmen der Qualitätssicherung sowie deren umfassende qualitative Beschreibungen an Bedeutung gewinnen. Gerade in der Anzahl der beschriebenen Maßnahmen der Qualitätssicherung und deren qualitativer Beschreibung unterscheiden sich auch die hier untersuchten Artikel, wobei sich die Unterschiede mitunter aus den spezifischen Projekten heraus ergeben. So werden forschungsökonomisch begründet häufig nur Teile der Daten oder sogar nur das Kodiermanual (z. B. Schmelzing et al. 2010) auf Interrater-Übereinstimmung hin überprüft, obwohl kleine Werte der Beurteilerübereinstimmung auch als Indikator und Entscheidungshilfe für weitere qualitätssichernde Maßnahmen genutzt werden können (z. B. Kulgemeyer und Tomczyszyn 2015). Häufig schwer zu begründen sind darüber hinaus die Grenzwerte der Beurteilerübereinstimmung, die sich im Allgemeinen nach der Komplexität des vorliegenden Datenmaterials beziehungsweise des zu erfassenden Merkmals richten (Wirtz und Caspar 2002). Hier kann eine inhaltliche Begründung (z. B. in Nehring et al. 2016) für Nachvollziehbarkeit und Transparenz sorgen. Insgesamt werden Maßnahmen der Qualitätssicherung, die vor und nach der eigentlichen Kodierung stattfinden, selten und wenig ausführlich beschrieben, hierzu gehören besonders diskursive und daher komplex zu dokumentierende Prozesse wie das Training der BeurteilerInnen, das Vergleichen der Kodierungen und die Bildung eines finalen Konsenses. Hierbei spielt natürlich der zeitliche Aufwand eine große Rolle und sollte für jede qualitätssichernde Maßnahme abgewogen werden (Praktikabilität/Ökonomie). Beispielsweise erfordert die Überprüfung der Intrarater-Übereinstimmung, die in keinem der analysierten Artikel durchgeführt wurde (Tab. 3), einen zusätzlichen Kodierdurchgang. Von der naturwissenschaftsdidaktischen Community als besonders hochwertig eingeschätzte Forschungsprojekte können hier aufzeigen, wie detailliert methodenspezifische Gütekriterien beschrieben sein können, um eine flexible, systematische und transparente Evaluation zu ermöglichen.

Natürlich unterliegen die Ergebnisse des vorliegenden Artikels auch einigen Limitationen. So ist die qualitative Inhaltsanalyse nicht nur Gegenstand, sondern auch Methode der vorliegenden Analyse, was auf einer methodologischen Ebene paradox erscheint: Die qualitative Inhaltsanalyse als Forschungsmethode wird auf Gütekriterien und Maßnahmen der Qualitätssicherung hin untersucht, wobei methodisch selbst eine qualitative Inhaltsanalyse genutzt wird, die wiederum die Gütekriterien und Maßnahmen der Qualitätssicherung berücksichtigen soll. In der praktischen Umsetzung konnten so viele Gütekriterien und Maßnahmen der Qualitätssicherung berücksichtigt und reflektiert werden (vgl. Methode), wobei auch hier aus forschungsökonomischen Gründen auf die Überprüfung der Intrarater-Übereinstimmung verzichtet wurde. Darüber hinaus ergeben sich weitere methodische Einschränkungen. Die Zeitschrift für Didaktik der Naturwissenschaften wurde als Datengrundlage ausgewählt, unter der Annahme, dass diese als Verbandszeitschrift der GDCP und FDdB im VBIO eine geeignete Zeitschrift für qualitativ hochwertige und repräsentative naturwissenschaftsdidaktische Forschung im deutschsprachigen Raum darstellt. Zur weiteren Generalisierung der hier beschriebenen Ergebnisse wäre eine Ausweitung auf weitere Zeitschriften nötig; zum Beispiel internationale Journals, Zeitschriften mit einem explizit qualitativen Fokus oder solche, die über die naturwissenschaftsdidaktische Forschung hinausgehen (z. B. Journal of Research in Science Teaching, Zeitschrift für interpretative Schul- und Unterrichtsforschung). Dabei könnten auch weitere Gütekriterien und Maßnahmen der Qualitätssicherung berücksichtigt werden und die vorliegenden Ergebnisse erweitern, zum Beispiel bezüglich der Datenerhebung. Zusätzlich zu bedenken sind natürlich auch formale und stilistische Einflüsse auf die Beschreibung der Gütekriterien und Maßnahmen der Qualitätssicherung. So ist es denkbar, dass in den jeweiligen Forschungsprojekten durchaus Gütekriterien angelegt und Maßnahmen der Qualitätssicherung durchgeführt worden sind, diese dann im publizierten Artikel aber nicht beschrieben wurden.

Fazit

Die vorliegende Analyse gibt einen Überblick über die in der deutschsprachigen naturwissenschaftsdidaktischen Forschung etablierten Gütekriterien und Maßnahmen zur Qualitätssicherung bei der Umsetzung von Verfahren der qualitativen Inhaltsanalyse. Dabei können die hier beschriebenen Ergebnisse WissenschaftlerInnen bereits als Ansatzpunkt für Gütekriterien und Maßnahmen der Qualitätssicherung dienen, die an die eigene Forschung angelegt werden können. Zugleich sollen die vorliegenden Ergebnisse aber vor allem zu Diskussionen in den Fachdidaktiken anregen und so zur weiteren Etablierung und Systematisierung des Verfahrens der qualitativen Inhaltsanalyse in der naturwissenschaftsdidaktischen Forschung beitragen. Die Güte qualitativ inhaltsanalytischer Forschung kann im Sinne des „argument-based approach to validation“ (Kane 2013) im Einzelfall und unter Berücksichtigung der intendierten Interpretation von Forschungsergebnissen bewertet werden. Hierdurch zeigt sich die Umsetzung von Maßnahmen zur Qualitätssicherung nicht als Routineverfahren, für das allgemeingültige Regeln vorgeschrieben werden könnten (Hartig et al. 2012). Vielmehr sollte Gütesicherung als ein theoriegeleiteter und komplexer Prozess verstanden werden, bei dem in Abhängigkeit des Forschungskontexts begründet und entschieden werden muss, welche Maßnahmen zur Qualitätssicherung Evidenz für die intendierte Interpretation von Daten liefern können. Neben der Erarbeitung von Gütekriterien für die externe Begutachtung (vgl. Helsper et al. 2016) wird damit einmal mehr die Forderung nach einer umfassenden und gut zugänglichen Sammlung erprobter Forschungspraxen unterstützt (Helsper et al. 2001), die für WissenschaftlerInnen auch bei der Planung und Umsetzung von Forschungsvorhaben in den Fachdidaktiken leitend sein kann.