Jugend und Sport

Jugend und Sport (J + S) ist das größte Schweizer Sportförderungssystem und europaweit einzigartig. Es vereint über 90 Sportarten in einem staatlich subventionierten Ausbildungssystem, das strategisch und inhaltlich vom Bundesamt für Sport (BASPO) geregelt wird. Das Ziel des J + S-Sportförderungsmodells ist es, das Sport- und Bewegungsverhalten junger Menschen langfristig positiv zu beeinflussen. Dabei sollen sich Kinder und Jugendliche ganzheitlich entwickeln und sich in eine Sportgemeinschaft integrieren können. J + S-Leiter*innen werden in ihrer Sportart ausgebildet und bieten Aktivitäten für 5‑ bis 20-jährige Kinder und Jugendliche in organisierten, außerunterrichtlichen und freiwilligen schulischen Sportangeboten an. Die Grundausbildung zu J + S-Leiter*in dauert sechs Tage und wird in der jeweiligen Sportart durchgeführt. Die Teilnehmenden werden in den drei Kompetenzbereichen „Sich als J + S-Leiter*in engagieren“, „Die Sportart verstehen“ und „Die Sportart unterrichten“ ausgebildet. Nach dieser Grundausbildung können sich die J + S-Leiter*innen in der modularen Weiterbildung in diesen drei Kompetenzbereichen sportartspezifisch oder sportartübergreifend vertiefen (Bundesamt für Sport 2023).

Für die Qualitätssicherung von J + S-Aktivitäten wurde ein J + S-Ausbildungsverständnis entwickelt, welches sich am Magglinger Ausbildungsmodell (Bundesamt für Sport 2019) orientiert und die dortigen Handlungsbereiche integriert. Das J + S-Ausbildungsverständnis richtet sich an wissenschaftlichen Ansprüchen der Unterrichtsforschung und dem etablierten Angebot-Nutzungs-Modell (Helmke 2017) schulischer Wirkungsforschung aus. Entsprechend werden qualitätsvolle J + S-Aktivitäten als effektive Lernangebote begriffen, die fachspezifische (sportartbezogene) und fachübergreifende (persönlichkeitsbildende) Kompetenzen sowie erzieherische Effekte anstreben. Bisher fehlt ein validiertes Evaluationsinstrument, um die Erreichung dieser Ziele empirisch zu überprüfen. In diesem Beitrag soll mit der Konzeption, Entwicklung und Validierung eines Evaluationsinstruments zur Erfassung der Qualität des Lehrens und Lernens bei J + S ein Beitrag dazu geleistet werden, diese normativ-theoretischen Wirkungsannahmen empirisch zu evaluieren.

Qualität des schulischen und außerschulischen Sports

Qualitätsverständnis der Unterrichtsforschung

Die Unterrichtsqualitätsforschung entwickelte verschiedene Konzeptualisierungen zur Beschreibung von Unterrichtsqualität, welche weitgehend stufen- und fachübergreifend verstanden wird (im Überblick Charalambous und Praetorius 2018). In verschiedenen Studien (u. a. TIMSS, Klieme und Baumert 2001; DESI, Klieme 2008; COACTIV, Kunter et al. 2013) wurden drei Basisdimensionen von Unterrichtsqualität identifiziert und zu einem theoretisch und empirisch fundierten Modell verknüpft (im Überblick Praetorius et al. 2018). Qualitätsvoller Unterricht zeichnet sich durch (a) strukturierte, klare und störungspräventive Unterrichts- und Klassenführung, (b) unterstützendes, schülerorientiertes Sozialklima und (c) das Potenzial zur kognitiven Aktivierung aus. Diese Dimensionen können als eine empirisch verankerte Systematik didaktischer Prinzipien verstanden werden, die als geeignet erscheint, um sowohl theoretische Konzepte als auch Wirkungsannahmen der Unterrichtsforschung zu vereinen (Klieme 2008). Diese drei international etablierten Basisdimensionen wurden mittlerweile sowohl theoretisch wie auch empirisch in verschiedenen Fachdidaktiken ausdifferenziert (im Überblick Praetorius et al. 2018).

Auch in der Unterrichtsqualitätsforschung im schulischen und außerschulischen Sport werden die Basisdimensionen als theoretisches Rahmenmodell genutzt (im Überblick Herrmann und Gerlach 2020). Dabei stellt sich die Frage, inwiefern dieses Modell und entsprechende Evaluationsinstrumente aus der Sportunterrichtsforschung auf außerunterrichtliche Sportangebote übertragen werden können. Hier argumentieren Richartz, Maier und Kohake (2021b), dass das außerschulische, sportliche Training ähnliche Ziele wie der schulische (Sport‑)Unterricht verfolgt. Dazu gehören nicht nur motorische Kompetenzen und sportspezifische Fertigkeiten, sondern auch motivationale Aspekte und sozial-kognitive Lernprozesse.

Qualitätsverständnis bei Jugend und Sport

Das J + S-Ausbildungsverständnis (Abb. 1; ausführliche Informationen unter www.jugendundsport.ch), basiert auf den vier Handlungsbereichen Innovieren, Vermitteln, Fördern und Umfeld pflegen (farbige Rechtecke). Diese Handlungsbereiche sind der pädagogisch-didaktische Kern der J + S-Ausbildung und bilden den Kompetenzbereich „Sportart unterrichten“ ab. Jeder der oben genannten vier Handlungsbereiche wird durch konkrete Handlungsfelder, in denen die J + S-Leitenden aktiv werden, weiter untergegliedert. Danach haben J + S-Leitende vor allem die Sportart zu vermitteln und die Teilnehmenden zu fördern. Durch Reflektion und Innovation tragen sie zur persönlichen Entwicklung, zur Weiterentwicklung der Sportart oder des Vereinslebens bei. Weiter sollen sie den Austausch mit dem naheliegenden Umfeld pflegen (Vereinszugehörige, Eltern, Verband etc.).

Abb. 1
figure 1

J + S-Ausbildungsverständnis Jugendausbildung. (Abbildung: Bundesamt für Sport BASPO)

Die drei Basisdimensionen der Unterrichtsqualität (Klassenführung, schüler*innenorientiertes Klima und kognitive Aktivierung) sind im J + S-Ausbildungsmodell im Handlungsbereich Vermitteln verankert und werden in den folgenden vier Handlungsfeldern auf den Kontext von J + S adaptiert (J + S-Ausbildungsteam 2019; Tab. 7):

  • „Lernförderliches Kima ermöglichen“,

  • „Lernziele priorisieren und Struktur schaffen“,

  • „Gruppe sicher und effizient führen“,

  • „Attraktive Aufgaben stellen und Rückmeldungen geben“.

Damit das konkrete Handeln der J + S-Leitenden greifbar wird, wurden für alle vier Handlungsfelder praxisrelevante Handlungsempfehlungen formuliert, welche in der Unterrichtsqualitätsforschung den Subdimensionen oder Unterrichtsmerkmalen entsprechen. Beispielsweise wird das Handlungsfeld „Lernförderliches Kima ermöglichen“ in die Handlungsempfehlungen (a) Teilnehmende wertschätzen, (b) Teilnehmende einbeziehen, (c) Fehler nutzen und (d) Freude wecken ausdifferenziert (Tab. 7).

Maßnahmen zur Qualitätssicherung bei Jugend und Sport

Ausgehend von den theoretischen Überlegungen der Unterrichtsforschung entsteht der Bedarf nach Instrumenten zur empirischen Qualitätssicherung von Sportunterrichts- und -angeboten. In den vergangenen Jahren wurden aufeinander aufbauende Studien durchgeführt, um ein Evaluationsinstrument zur Bewertung der Unterrichtsqualität im Fach Sport zu entwickeln (u. a. Herrmann und Gerlach 2017; Herrmann et al. 2018, 2015). Auf Basis dieser Vorarbeiten wurde das QUALLIS-Instrument zur Evaluation der Qualität des Lehrens und Lernens im Sportunterricht entwickelt (Herrmann 2019; Herrmann et al. 2023a). Es beinhaltet zentrale Dimensionen und Merkmale von Unterrichtsqualität, die fachspezifisch ausdifferenziert wurden (Herrmann und Gerlach 2020; Herrmann et al. 2020) und welche für die Erreichung der Erziehungs- und Lernziele des Sportunterrichts von Bedeutung sind.

Das QUALLIS-Instrument erfasst die Unterrichtsqualität über die Einschätzung von Unterrichtsmerkmalen anhand konkreter beobachtbarer Fragebogenitems. Die Einschätzungen werden dabei von (1) Lehrpersonen, (2) externen Beobachter*innen und von (3) Schüler*innen vorgenommen. Der Vergleich dieser drei Perspektiven und die Identifikation von Unterschieden zwischen den Einschätzungen bietet die Möglichkeit, den Sportunterricht systematisch und kriteriengeleitet weiterzuentwickeln (Helmke und Lenske 2013; Herrmann 2019).

Inwiefern bestehende Evaluationsinstrumente zur Erfassung der Unterrichtsqualität im Fach Sport auf den organisierten, außerunterrichtlichen und freiwilligen schulischen Sport übertragen werden können, ist noch wenig diskutiert. Das Ziel dieses Beitrags war daher die Entwicklung eines Evaluationsinstruments zur Erfassung der Qualität des Lehrens und Lernens bei Jugend und Sport. Dazu wurde das bereits etablierte QUALLIS-Evaluationsinstrument für den Sportunterricht (Herrmann 2019; Herrmann et al. 2023a) an den Kontext von J + S-Aktivitäten angepasst.

Bei der ersten inhaltlichen Prüfung der Dimensionen, Subdimensionen und Testitems des QUALLIS-Evaluationsinstruments schien die Erfassung der relevanten J + S-Handlungsfelder und Handlungsempfehlungen zunächst hinreichend präzise zu sein, sodass zunächst von einer inhaltlichen Validität ausgegangen werden konnte. Jedoch waren Anpassungen der Testitems erforderlich (bspw. von Lehrer*innen auf Leiter*innen), um das QUALLIS-Evaluationsinstrument im Rahmen der J + S-Aktivitäten anwenden zu können. Zudem wurde das J + S-Evaluationsinstrument nach den sprachlichen Anpassungen – aufgrund der Mehrsprachigkeit in der Schweiz – auf Französisch und Italienisch übersetzt. Die Qualität und Eindeutigkeit der Übersetzungen wurde von Mitarbeitenden des BASPO mit Muttersprache Italienisch bzw. Französisch geprüft. Die vollständige Auflistung der Items findet sich in der online verfügbaren Itemdokumentation (Herrmann et al. 2023b). Für eine bessere Lesbarkeit werden im Folgenden die deutschsprachigen Items benannt, wenngleich sich die Analysen auf alle drei Sprachversionen beziehen.

Validierung des J + S-Evaluationsinstruments

Zur Validierung des J + S-Evaluationsinstruments wurden drei qualitative und eine quantitative Studie durchgeführt. Die qualitativen Studien dienten der Überprüfung der Verständlichkeit und Umsetzbarkeit des auf J + S-Aktivitäten übertragenen QUALLIS-Instruments und zielten auf die inhaltliche Validität ab, indem untersucht wurde, ob die ausgewählten QUALLIS-Items die J + S-Handlungsempfehlungen inhaltlich korrekt erfassen. Nach jeder qualitativen Studie erfolgten Anpassungen am Fragebogen. Die quantitative Studie prüfte die faktorielle Validität und Reliabilität des entwickelten J + S-Evaluationsinstruments. Nachfolgend werden die Validierungsstudien und deren Resultate erläutert.

Qualitative Pilotierungsstudien

Für die erste qualitative Validierungsstudie wurden drei Fokusgruppeninterviews geführt. Ziel war es zu prüfen, ob die Operationalisierung der Handlungsempfehlungen (z. B. Teilnehmende wertschätzen) in Items inhaltlich passend und vollständig vorgenommen wurde (Inhaltsvalidität). Dafür wurden insgesamt 16 Personen ausgewählt: acht Ausbildungsverantwortliche verschiedener Sportverbände, fünf J + S-Mitarbeiter*innen in der Funktion „Leiter*innen-Ausbildung Sportarten“ sowie drei Fachwissenschaftler*innen aus den Bereichen Erziehungswissenschaft, Sportpädagogik und Educational Measurements. In jedem der drei Interviews nahmen fünf bis sechs Personen mit diesen unterschiedlichen Hintergründen teil, um eine maximale Kontrastierung der Rückmeldungen zu erreichen. Die Fokusgruppeninterviews wurden mittels eines halbstrukturierten Leitfadens (u. a. „Denken Sie, dass die Items die Qualität einer J + S-Aktivität in Ihrer Sportart gut repräsentieren?“; „Sehen Sie Probleme beim Einsatz des Instruments?“) durchgeführt und kategorienbasiert inhaltsanalytisch ausgewertet (Mayring 2015).

Die Expert*innen bestätigten die inhaltliche Passung des Evaluationsinstruments in Bezug auf den Handlungsbereich „Vermitteln“ des J + S-Ausbildungsverständnisses (Bundesamt für Sport 2023). Die Übertragung des bereits empirisch validierten QUALLIS-Instruments aus dem Schulsportkontext auf J + S wurde als sinnvoll erachtet.

Die Sportartenvertreter*innen bezeichneten die Qualitätskriterien überwiegend als passend für ihre Sportart. Abweichende Meinungen (z. B. in Bezug auf den Aspekt Sicherheit) wurden für die Überarbeitungsphase aufgenommen. Weiter wiesen die Expert*innen auch auf mögliche selbstdienliche Verzerrungen hin, die bei Selbstbeurteilungen durch die J + S-Leitenden auftreten könnten. Die Beurteilung aus den drei unterschiedlichen Perspektiven (a) Leitende, (b) Beobachter*innen und (c) Teilnehmende wurde als sinnvoll erachtet. Nach den Fokusgruppeninterviews erfolgte eine erste Überarbeitung, um die inhaltliche Validität des Fragebogens zu verbessern. Es wurden 15 Items angepasst und sechs neue Items hinzugefügt, wobei auf die Erhaltung der Struktur der Handlungsfelder und Handlungsempfehlungen geachtet wurde.

Die zweite qualitative Validierungsstudie prüfte das sprachliche Niveau, die Itemschwierigkeit sowie die Verständlichkeit der Items und Antwortmöglichkeiten aus Sicht der Kinder und Jugendlichen. Teilnehmerinnen dieser Pilotierungsstudie waren sieben Mädchen einer Geräteturn-Trainingsgruppe im Alter von zehn bis 13 Jahren. In zwei Gruppen wurde jeweils die Hälfte des Fragebogens (35–36 Items) wie folgt bearbeitet: Die Versuchsleiter*innen baten die Teilnehmerinnen, je ein Item laut vorzulesen. Dabei wurden bereits erste schwierige Begriffe oder Verständnisprobleme identifiziert. Im Anschluss wurden die Verständlichkeit der Fragen sowie Redundanzen innerhalb des Fragebogens diskutiert und schriftlich von den Versuchsleiter*innen protokolliert. In den Kleingruppen wurde zweimal 20 Minuten an den Fragebogenitems gearbeitet. Dazwischen organisierte das Versuchsleiter*innenteam eine zehnminütige Bewegungspause.

Die differenzierten Rückmeldungen der Teilnehmerinnen erlaubten die Identifizierung und anschließende Optimierung schwieriger oder unpräziser Begriffe und Satzkonstruktionen. Beispielsweise wurden Begriffe wie „(Lern‑)Aufgabe“ im Rahmen der sportlichen Aktivtäten missverstanden und in den Items durch den Begriff „Übung“ ersetzt.

Für die inhaltliche Prüfung wurde in einer dritten qualitativen Studie das Evaluationsinstrument in neun J + S-Aktivitäten (drei deutsch-, drei französisch- und drei italienischsprachige J + S-Aktivitäten) aus allen drei Perspektiven (Teilnehmende, Leitende, Beobachter*innen) geprüft. Der Fokus lag auf der Umsetzbarkeit und der Verständlichkeit des J + S-Evaluationsinstruments.

Während der J + S-Aktivität hatten die Beobachter*innen den Auftrag, das Evaluationsinstrument auszufüllen. Um zu prüfen, ob die Items auch wirklich die intendierten Inhalte erfragen und diese Inhalte auch im Trainingsalltag beobachtbar sind, wurden die Beobachter*innen gebeten, alle ihre Gedanken während der Kursevaluation laut auszusprechen. Diese Methode des lauten Denkens (Think-Aloud) dient dazu, die mentalen Prozesse sichtbar zu machen, welche die Befragten bei der Beantwortung des Fragebogens anwenden. Um den Prozess des lauten Denkens zu erleichtern, wird der Einsatz des gezielten Nachfragens (Probing) empfohlen. In der vorliegenden Studie verwendeten die Versuchsleitenden entsprechend Probes wie „Was denkst du gerade?“ oder „Auf was schaust du jetzt?“ (Collins 2003).

Am Ende der J + S-Aktivität wurden die Teilnehmenden und die Leitenden gebeten, den J + S-Fragebogen auszufüllen. Während des Ausfüllens wurde ein Behavior Coding (Oksenberg et al. 1991) vorgenommen, indem alle Rückfragen, Störungen, Unsicherheiten und das Verhalten der Teilnehmenden schriftlich festgehalten wurden. Nach dem Ausfüllen des Fragebogens wurden den Teilnehmenden im Plenum gezielte Fragen zur Länge und Verständlichkeit des Evaluationsinstruments sowie itemspezifische Fragen gestellt. Nach der Verabschiedung der Teilnehmenden wurden die Leitenden zu ihrer allgemeinen Einschätzung zum Evaluationsinstrument sowie zu einzelnen Items befragt.

Die Resultate des Think-Aloud-Prozesses der Beobachter*innen wie auch die Rückmeldungen der Leitenden und Teilnehmenden wurden in einer Protokollvorlage handschriftlich festgehalten. Diese Vorlage war in vorab definierten Kategorien zur Verständlichkeit und Umsetzbarkeit gegliedert. Die Protokolle wurden im Anschluss digitalisiert und kategorienbasiert inhaltsanalytisch ausgewertet (Mayring 2015).

Die Beobachter*innen schätzten das J + S-Evaluationsinstrument für die Qualitätsbeurteilung von J + S-Aktivitäten als sinnvoll ein. Hingegen empfanden sie den vollständigen Fragebogen, welcher alle vier Handlungsfelder abdeckt, als zu lang. Auch wünschten sich die Beobachter*innen einen Aufbau des Fragebogens entlang des üblichen Ablaufs der Trainingsaktivität (Aufwärmen, Hauptteil, Abschluss).

Zudem wurden Inhalte identifiziert, die in einer einzelnen Einheit möglicherweise schwer zu beobachten sind, wie beispielsweise die Regelklarheit, die nur bei einem Regelverstoß beobachtbar wäre. Bei den Teilnehmenden ergab das Behavior Coding wichtige Erkenntnisse für die Durchführung der Befragung (Klarheit der Instruktion, genügend Abstand zwischen den Teilnehmenden beim Ausfüllen). Die Leitenden beurteilten die Instruktion und die Items als selbsterklärend, wiesen aber auch auf die Redundanzen und Wiederholungen hin. Als Beispiel wurden Fragen zur Freude, wie „Den Teilnehmenden macht das Training Spaß“ und „Die Teilnehmenden sind vom Training begeistert“, als gleichbedeutend betrachtet. Gleiches galt für die Fragen zum Umgang mit Störungen: „Im Training erhalte ich schnell Aufmerksamkeit, wenn ich etwas sage“ und „im Training hören die Teilnehmenden auf mich“. In der Überarbeitung wurde entsprechend nur je eines der beiden Items im Fragebogen behalten. Die Leitenden gaben auch wichtige Hinweise zur Umsetzung, insbesondere wie und wann die Evaluationen in die J + S-Aktivitäten integriert werden können.

In der Summe ergaben die qualitativen Studien, dass der Fragebogen in allen getesteten Aktivitäten eingesetzt werden kann. Die Methode des lauten Denkens zeigte, dass die gewählten Qualitätskriterien für die Beobachter*innen in verschiedenen Sportarten und Settings beobachtbar sind. Für die Leitenden und die Teilnehmenden konnte eine geplante Bearbeitungszeit des Fragebogens von 15–20 min eingehalten werden, wobei die J + S-Teilnehmenden in dieser Zeit rund 25 Items gewissenhaft beantworteten. Sämtliche sprachlichen und inhaltlichen Rückmeldungen sowie Erkenntnisse bezüglich Durchführbarkeit und Ökonomie der Befragung wurden in die erneute Überarbeitung einbezogen.

Quantitative Validierungsstudie

Die quantitative Studie prüfte die psychometrischen Qualitätskriterien des J + S-Evaluationsinstruments aus der Perspektive der Teilnehmenden. Dabei wurde die Fragestellung bearbeitet, ob die J + S-Handlungsfelder (z. B. Lernförderliches Klima ermöglichen) und dazugehörigen Handlungsempfehlungen (z. B. Teilnehmende wertschätzen) durch die erfassten Item s (z. B. „Unser/e Leiter/in beachtet mich“, Tab. 7) faktoriell valide und reliabel abgebildet werden. Eines der wichtigsten Kriterien für ein zukünftiges Evaluationssystem zur Messung der Qualität in J + S-Aktivitäten ist die Testökonomie. Unter Einhaltung der psychometrischen Qualitätskriterien sollen daher möglichst wenig Items zur Erfassung eingesetzt werden (Raubenheimer 2004). Entsprechend wurde eine systematische Itemreduktion auf drei Items pro Handlungsempfehlung vorgenommen.

Methodisches Design und Datenerhebung

Aus der J + S-Datenbank wurden für vier Sportarten zufällig 40 Trainingsgruppen ausgewählt. Damit bestand die Grundgesamtheit aus 160 Trainingsgruppen. Darin vertreten waren Aktivitäten aus der deutsch-, französisch- und italienischsprachigen Schweiz.

Mit Fußball und Volleyball wurden zwei „klassische“ Sportarten für die Validierung gewählt, welche bei gleichbleibender Gruppenzusammensetzung wöchentlich durchgeführt werden und an einem festen Ort stattfinden. Zusätzlich wurden die zwei Sportarten Gerätturnen und Skifahren ausgewählt, die in gewissen Punkten andere Charakteristika aufweisen. Beim Gerätturnen trainieren meist sehr viele Teilnehmende gleichzeitig und mit mehreren Leitenden. Skifahren unterscheidet sich vor allem im wechselnden Trainingskontext (Indoor, Outdoor, auf dem Schnee, Alternativtraining ohne Schnee) und in der Art der Raumnutzung.

Derselbe J + S-Fragebogen wurde in jeder Trainingsgruppe zu zwei Erhebungszeitpunkten im Abstand von vier bis sechs Wochen eingesetzt. Aufgrund rechtlicher Bestimmungen, dass die Datenerhebung vollständig anonymisiert erfolgen musste, konnten keine individuellen Personendaten erhoben werden, welche es ermöglichen würden, die Daten der beiden Erhebungen auf Individualebene zu verknüpfen. Entsprechend liegen zwei querschnittliche Stichproben vor, die sich in ihrer Zusammensetzung unterscheiden können, da nicht kontrolliert werden konnte, ob zu beiden Erhebungen dieselben Teilnehmenden anwesend waren. Die Daten der ersten Erhebung wurden für explorative Analysen, die Daten der zweiten Erhebung für konfirmatorische Analysen eingesetzt.

Aus testökonomischen Gründen und aufgrund der Ergebnisse der qualitativen Studien wurde den Teilnehmenden nicht der vollständige Fragebogen zur Beantwortung vorgelegt. Pro Trainingsgruppe wurden zu beiden Erhebungen jeweils zwei der vier Handlungsfelder befragt. Die Zuordnung erfolgte randomisiert. Durch dieses Vorgehen entstanden insgesamt sechs verschiedene Kombinationen der abgefragten Handlungsfelder (Klima & Gruppe, Klima & Ziel, Klima & Aufgabe, Gruppe & Ziel, Gruppe & Aufgabe, Ziel & Aufgabe).

Die einleitende Instruktion im Fragebogen lautete: „Wie hast du das Training in den letzten 4 Wochen wahrgenommen?“ bzw. „Wie hast du das Training seit den letzten Ferien wahrgenommen?“. Alle Items wurden auf einer fünfstufigen Likert-Skala beantwortet (0 = trifft nicht zu, 1 = trifft eher nicht zu, 2 = trifft teils teils zu, 3 = trifft eher zu, 4 = trifft zu), wobei ergänzend ein Antwortfeld „weiß ich nicht“ integriert wurde.

Die Durchführung und Begleitung der Evaluation vor Ort wurde von geschulten Beobachter*innen vorgenommen, welche im Rahmen der J + S-Ausbildung als J + S-Expert*innen fungieren und bei der Entwicklung des Evaluationsinstruments beteiligt waren. Die Datenerhebung erfolgte per Tablet oder Handy online am Ende des Trainings. Beim zweiten Erhebungszeitpunkt sollten alle Trainingsgruppen der ersten Erhebung erneut befragt werden, wobei die Datenerhebung identisch ablief.

Stichprobe

Von den geplanten 160 Aktivitäten konnten zur ersten Erhebung Daten von insgesamt 141 J + S-Gruppen mit N = 1230 Kindern und Jugendlichen (53,7 % weiblich) in einer Altersspanne von zehn bis 20 Jahren (M = 13,99, SD = 2,36) erfasst werden. Die Rücklaufquote auf Gruppenebene betrug 88 %. Die Datenerhebung erfolgte in den folgenden Anteilen: 29,9 % im Fußball, 30,5 % im Volleyball, 23,3 % im Gerätturnen und 16,3 % im Skifahren. Bei der zweiten Erhebung wurden von den 141 J + S-Gruppen der ersten Erhebung 120 erneut befragt (Rücklaufquote 85 %). Dabei wurden N = 851 Kinder und Jugendliche (53,7 % weiblich) im Alter von M = 13,96 Jahren (SD = 2,18) erfasst (26,9 % Fußball, 29,5 % Volleyball, 25,5 % Gerätturnen, 18,1 % Skifahren).

Die acht Teilstichproben (vier Stichproben der ersten und vier Stichproben der zweiten Erhebung), welche sich aus Handlungsfelder-Kombination ergaben, können Tab. 1 entnommen werden. Jede Stichprobe bezieht sich somit auf eine der vier Handlungsempfehlungen. Auf Basis der 95 %-Konfidenzintervalle zeigte sich, dass sich die Altersverteilungen zwischen den Stichproben nicht bedeutsam unterschieden.

Tab. 1 Stichprobenbeschreibung

Datenauswertung

Die Häufigkeits- und Korrelationsanalysen wurden mit SPSS 28 (IBM Corp. 2021) durchgeführt, die latenten Strukturgleichungsmodelle mit Mplus 8,3 (Muthén und Muthén 2017). Bei allen Strukturgleichungsmodellen wurden potenzielle Abhängigkeiten innerhalb der vorhandenen Mehrebenenstruktur (Teilnehmer*innen genestet in Trainingsgruppen) berücksichtigt, indem die Standardfehler mit der Mplus-Funktion type=complex für geschachtelte Datensätze angepasst wurden.

Der Anteil an fehlenden Werten pro Item lag zwischen 0,5 und 7,0 % (M = 2,60 %, SD = 1,73 %), wobei auch Werte der Antwortkategorie „Weiß ich nicht“ mitzählten. Fehlende Werte wurden anhand des Full-Information-Maximum-Likelihood (FIML)-Algorithmus geschätzt. Die Beurteilung der Anpassungsgüte der verschiedenen Modelle erfolgte auf Basis der in der Literatur vorgeschlagenen Fit-Indices (Weiber und Mühlhaus 2014).

Zur konfirmatorischen Prüfung der faktoriellen Validität wurden für jedes der vier Handlungsfelder konfirmatorische Faktoranalysen (CFA) in drei Analyseschritten durchgeführt:

  1. 1.

    CFA mit allen Items (CFA-1): Im ersten Schritt wurden die Stichproben des ersten Messzeitpunkts analysiert. Für jedes der vier J + S-Handlungsfelder wurden separate CFAs berechnet. Die latenten Faktoren bildeten die J + S-Handlungsempfehlungen ab, welche konzeptionell die Zuordnung der Items zu einem Faktor bestimmten (Anhang Tab. 8, 9, 10 und 11). Die Faktorladungen der Items auf die latenten Faktoren wurden frei geschätzt, Nebenladungen wurden nicht zugelassen.

  2. 2.

    CFA mit drei Items pro Merkmal (CFA-2): Im zweiten Schritt wurde die Itemzahl pro latentem Faktor auf drei Items reduziert. Hierfür wurden die Items mit den geringsten Faktorladungen der CFA‑1 inhaltlich geprüft und folglich eine Auswahlentscheidung zur Itemreduzierung getroffen. In einer CFA mit den Stichproben der zweiten Erhebung wurde das Modell mit reduzierter Itemzahl erneut geprüft und die Interkorrelationen der latenten Faktoren berechnet.

  3. 3.

    CFA mit drei Items pro Merkmal und latenten Faktoren zweiter Ordnung: Im dritten Schritt wurde geprüft, ob die latenten Faktoren erster Ordnung (im Sinne der Handlungsempfehlungen) die übergeordneten J + S-Handlungsfelder abbilden. Dazu wurden Faktoren zweiter Ordnung in die CFA‑2 einbezogen.

Zur Überprüfung der Reliabilität der erfassten Handlungsempfehlungen wurden auf Basis der Stichproben der zweiten Erhebung die Cronbach’s α‑Werte (mit gekürzter Itemzahl) berechnet. Idealerweise sollten die α‑Werte über 0,70 liegen, wobei sie abhängig von der Itemanzahl sind (Weiber und Mühlhaus 2014). Die Unterrichtsqualität in einer Klasse oder Gruppe gilt als ein Maß für eine geteilte Umwelt, die in Beziehung zu anderen Konstrukten (z. B. Verhalten der Lehrenden) steht. Hierfür wurden individuelle Einschätzungen der Teilnehmenden gruppenweise gemittelt. Die Unterschiede in den Einschätzungen der Teilnehmenden zwischen den Gruppen werden durch den ICC charakterisiert, welcher ebenfalls berechnet wurde (Lüdtke et al. 2006). Abschließend wurden auf manifester Ebene Mittelwerte (M), Standardabweichung (SD) sowie Pearson-Korrelationen der Handlungsempfehlungen innerhalb eines Handlungsfelds ermittelt.

Ergebnisse

Nachfolgend werden die Ergebnisse der quantitativen Validierungsstudie dargestellt. Tab. 2 liefert einen Überblick über die Modellanpassung der durchgeführten konfirmatorischen Faktorenanalysen. Anschließend werden die Ergebnisse für die vier Handlungsfelder separat dargestellt.

Tab. 2 Modellanpassungen der konfirmatorischen Faktoranalysen (CFA)

Faktorielle Validität „Lernförderliches Klima ermöglichen“

Das Handlungsfeld „Lernförderliches Klima ermöglichen“ wurde mittels vier Faktoren und 15 Items erfasst. Die CFA‑1 zeigte eine gute Anpassung der vierfaktoriellen Struktur auf die vorliegenden Daten (Tab. 2). Die resultierenden Faktorwerte lagen bei 0,655 ≤ β ≤ 0,819 (Anhang Tab. 8). Bei den Faktoren mit vier Items wurde das Item mit der geringsten Faktorladung gelöscht. Die verbleibenden zwölf Items wurden mit der CFA‑2 erneut geprüft, wobei die Modellanpassung wiederum gute Werte erreichte (Tab. 2) mit Faktorwerten von 0,705 ≤ β ≤ 0,900 (Anhang Tab. 8).

Die interne Konsistenz der vier Handlungsempfehlungen war mit 0,835 ≤ α ≤ 0,868 sehr gut. Auf Basis der Modellanpassung und gegebenen Reliabilität konnte die faktorielle Validität angenommen werden, sodass die Bildung von (manifesten) Faktormittelwerten zulässig war. Die Mittelwerte lagen zwischen 2,72 ≤ M ≤ 3,56. Die mittleren ICC-Werte zeigten auf, dass 9,6–23,7 % der Varianz in den Faktoren durch die Zugehörigkeit zu einer Trainingsgruppe erklärt werden kann (Tab. 7). Entsprechend gibt es bedeutsame Unterschiede in der Wahrnehmung des Klimas zwischen den Gruppen.

Die Interkorrelationen der Handlungsempfehlungen zeigten mittlere manifeste und hohe latente Zusammenhänge (Tab. 3). Entsprechend konnte gezeigt werden, dass die Faktoren zwar verbunden sind, jedoch ausreichend trennscharf abgebildet werden können. Die vier Faktoren, welche aus den theoretischen Überlegungen heraus dem Handlungsfeld „Lernförderliches Klima ermöglichen“ zugeordnet wurden, bildeten ebenfalls mit hohen Faktorwerten einen latenten Faktor zweiter Ordnung ab (Tab. 3), womit die Zuordnung der Handlungsempfehlungen zum übergeordneten Handlungsbereich empirisch bestätigt werden konnte.

Tab. 3 Korrelationen der J + S-Handlungsempfehlungen zum „Lernförderlichen Klima ermöglichen“

Faktorielle Validität „Gruppe sicher und effizient führen“

Das Handlungsfeld „Gruppe sicher und effizient führen“ wurde mittels sechs Faktoren und 23 Items erfasst. Die CFA‑1 (Tab. 2) zeigte eine ausreichende Passung der sechsfaktoriellen Struktur auf die vorliegenden Daten. Niedrige CFI-/TLI-Werte wiesen auf unpassende Itemzuweisungen und potenzielle Nebenladungen hin. Entsprechend lagen teils Faktorwerte (0,373 ≤ β ≤ 0,782) mit niedrigen Werten vor. Basierend auf den Faktorladungen wurden alle Handlungsempfehlungen auf drei Items gekürzt. Ausnahme bildeten die Items zur Handlungsempfehlung „Sicherheit gewährleisten“. Hier zeichneten sich drei Items (sich1–sich3) ab, welche eher eine wahrgenommene Sicherheit abbildeten sowie drei Items (sich4–sich6), welche auf Sicherheitsregeln abzielen. Auf Basis der Faktorwerte und inhaltlichen Überlegungen wurden die drei Items zu den Sicherheitsregeln im Modell belassen (Anhang Tab. 9).

Die verbleibenden 18 Items wurden in der CFA‑2 erneut geprüft. Die Modellanpassung erreichte nun zufriedenstellende Werte (Tab. 2) mit mittleren bis hohen Faktorwerten (Anhang Tab. 9). Die interne Konsistenz der sechs Handlungsempfehlungen fiel zufriedenstellend aus. Zwar lagen die Faktoren „Allgegenwärtigkeit“ und „Lern- und Bewegungszeit“ unter dem Richtwert von α = 0,700, was aber für Skalen mit nur drei Items als noch akzeptabel gewertet werden kann. Insgesamt konnte auch für die Handlungsempfehlungen dieses Handlungsfelds die faktorielle Validität angenommen werden. Die Faktormittelwerte betrugen 3,33 ≤ M ≤ 3,65. Die niedrigen bis mittleren ICC-Werte zeigten, dass 5,3–15,4 % der Varianz in den Faktoren durch die Zugehörigkeit zu einer Trainingsgruppe erklärt werden kann (Tab. 7).

Die Interkorrelationen der Handlungsempfehlungen zeigten mit mittleren manifesten und mittleren bis hohen latenten Zusammenhängen (Tab. 4), dass die Faktoren ausreichend trennscharf sind. Weiterhin bildeten die sechs Faktoren mit hohen Faktorwerten einen latenten Faktor zweiter Ordnung ab, welcher das übergeordnete Handlungsfeld „Gruppe sicher und effizient führen“ abbildet.

Tab. 4 Korrelationen der J + S-Handlungsempfehlungen zu „Gruppe sicher und effizient führen“

Faktorielle Validität „Lernziele priorisieren und Struktur schaffen“

„Lernziele priorisieren und Struktur schaffen“ wurde mittels drei Faktoren und zwölf Items erfasst. Die CFA‑1 (Tab. 2) zeigte eine nicht zufriedenstellende Modellanpassung mit drei Faktoren, wenngleich die Faktorwerte mit 0,575 ≤ β ≤ 0,872 mittel bis hoch und weitestgehend homogen ausfielen (Anhang Tab. 10). Zur Reduzierung auf drei Items pro Handlungsempfehlung wurden insgesamt drei Items gelöscht.

Die verbleibenden neun Items erreichten in der CFA‑2 (Tab. 2) eine gute Modellanpassung mit durchgängig hohen Faktorwerten (Anhang Tab. 10). Die interne Konsistenz fiel bei allen drei Handlungsempfehlungen hoch aus. Entsprechend konnte die faktorielle Validität angenommen werden. Die Faktormittelwerte lagen zwischen 3,13 ≤ M ≤ 3,51, die ICC-Werte bei 13,5–21,2 %, bedeutend, dass die Ausprägung dieser Handlungsempfehlungen stärker von der Zugehörigkeit zu einer bestimmten Trainingsgruppe erklärt wird (Tab. 7).

Die drei Faktoren zeigten hohe manifeste und latente Interkorrelationen und konnten mit hohen und homogenen Faktorwerten den latenten Faktor zweiter Ordnung des übergeordneten Handlungsfeldes abbilden (Tab. 5).

Tab. 5 Korrelationen der J + S-Handlungsempfehlungen zu „Lernziele priorisieren und Struktur schaffen“

Faktorielle Validität „Attraktive Aufgaben stellen und Rückmeldungen geben“

Das Handlungsfeld „Attraktive Aufgaben stellen und Rückmeldungen geben“ wurde mittels vier Faktoren und 14 Items erfasst. Die Modellanpassung der CFA‑1 (Tab. 2) fiel mit Faktorwerten von 0,619 ≤ β ≤ 0,867 gut aus (Anhang Tab. 11). Da die Faktorwerte keine klaren Hinweise zur Itemreduktion boten, wurden die zwei Items gelöscht, welche sprachlich schwieriger verständlich erschienen. Die Modellanpassung der verbleibenden zwölf Items erreichte in der CFA‑2 (Tab. 2) sehr gute Werte. Die internen Konsistenzen fielen ebenfalls gut aus, so dass die faktorielle Validität angenommen werden konnte. Die Faktormittelwerte lagen zwischen 2,85 ≤ M ≤ 3,62, die ICC-Werte zwischen 1,9 und 27,2 % (Tab. 7).

Die vier Faktoren zeigten mittlere manifeste und latente Interkorrelationen, wobei die Korrelationen mit „Vielseitige Lernarrangements planen und umsetzen“ etwas geringer ausfielen als die Korrelationen zwischen den weiteren drei Handlungsempfehlungen. Auch der Faktorwert zur Bildung eines latenten Faktors zweiter Ordnung fiel mit β ≤ 0,486 tiefer aus als die anderen drei Faktorwerte (0,769 ≤ β ≤ 0,874) (Tab. 6). Dies resultierte in einer geringeren Anpassung der CFA zweiter Ordnung, wenngleich die Werte immer noch gut ausfielen (Tab. 2).

Tab. 6 Korrelationen der J + S-Handlungsempfehlungen zu „Attraktive Aufgaben stellen und Rückmeldungen geben“
Tab. 7 J + S-Handlungsempfehlungen mit Beispielitems und psychometrischen Kennwerten

Zusammenfassung, Diskussion und Ausblick

Der vorliegende Beitrag stellt die Entwicklung und Validierung des J + S-Evaluationsinstruments zur Erfassung der Lehr- und Lernqualität bei J + S-Aktivitäten dar. Auf theoretisch-konzeptioneller Ebene zeigten sich große Überschneidungen zwischen den von J + S definierten Handlungsfeldern und -empfehlungen und den in der Unterrichtsqualitätsforschung definierten Unterrichtsdimensionen und -merkmalen. Folglich wurde basierend auf dem bereits validierten QUALLIS-Evaluationsinstrument für den Sportunterricht (Herrmann 2019; Herrmann et al. 2023a, 2015) das J + S-Evaluationsinstrument für J + S-Aktivitäten (weiter-)entwickelt.

Die qualitativen Pilotstudien ergaben, dass die J + S-Handlungsfelder und -empfehlungen inhaltlich valide operationalisiert werden konnten. Durch systematische Item-Weiterentwicklung entstand ein verständlicher Fragebogen, der von Kindern, Jugendlichen und J + S-Leitenden verstanden, akzeptiert und als nützlich anerkannt wurde.

Die umfangreiche quantitative Validierungsstudie bestätigte die psychometrischen Gütekriterien des J + S-Evaluationsinstruments. Alle vier Handlungsbereiche mit ihren 17 Handlungsempfehlungen konnten mittels 51 Items valide und reliabel abgebildet werden, wodurch das Evaluationsinstrument aus Perspektive der an J + S-Aktivitäten teilnehmenden Kinder und Jugendlichen im Alter zwischen zehn und 20 Jahren empfohlen werden kann.

Eine Stärke des J + S-Evaluationsinstruments liegt auch darin, dass bereits eine deutsch-, französisch- und italienischsprachige Version vorliegt (vgl. online verfügbare Itemdokumentation Herrmann et al. 2023b). Zukünftig sollte mit einer größeren Stichprobe die Konstruktäquivalenz der drei Sprachversionen geprüft werden, um zu klären, ob die faktorielle Struktur über die Sprachen hinweg gleich (invariant) ist und damit das gleiche Konstrukt misst.

Einschränkungen bestehen in der Generalisierbarkeit hinsichtlich Alter und Perspektive. So muss an dieser Stelle offen bleiben, ob die Nutzung des Evaluationsinstruments bei Kindern unter zehn Jahren zu validen Ergebnissen führt. In der Trainingspraxis muss auch geprüft werden, ob und unter welchen Bedingungen die Kinder und Jugendlichen den gesamten Fragebogen mit 51 Items ausfüllen können, oder ob – wie in der Validierungsstudie – eine weitere Auswahl an J + S-Handlungsfeldern und Items in Abhängigkeit von der Erhebungssituation getroffen werden muss. Weiterhin wird zu prüfen sein, ob die mittels des J + S-Evaluationsinstruments vorgenommenen Einschätzungen der J + S-Leitenden und externer Beobachter*innen ebenfalls zu reliablen und validen Ergebnissen führen.

Aus einer wissenschaftlichen Perspektive wäre ein Vergleich der theoretischen Fundierung wie auch der empirischen Ergebnisse zwischen dem niederschwellig einsetzbaren J + S-Evaluationsinstrument und dem hoch inferenten CLASS-Beobachtungstool (Classroom Assessment Scoring System; Pianta et al. 2008) interessant. So konnte das CLASS-Beobachtungstool für den Leistungssport (Richartz und Anders 2016) wie auch für den Breitensport (Kohake et al. 2022) adaptiert und validiert sowie in der Trainer*innenausbildung gewinnbringend eingesetzt werden (Richartz et al. 2021a). Dieser Vergleich könnte weitere Hinweise zur Kriteriumsvalidität der beiden Evaluationsinstrumente sowie zu deren Anwendung und Weiterentwicklung in der Trainingspraxis bieten.

Mit dem vorliegenden Evaluationsinstrument wird es nun möglich sein, die Qualität von Sportangeboten für Kinder und Jugendliche zu beurteilen. Es erscheint unverzichtbar, dass der schulische und außerschulische Sport an der Qualität seiner Maßnahmen arbeitet und darüber Rechenschaft ablegt. Da in dieser Altersgruppe die Weichen für lebenslanges Sporttreiben gelegt werden, obliegt es dem organisierten Kinder- und Jugendsport, qualitätsvolle Sportaktivitäten anzubieten und sicherzustellen. Das entwickelte J + S-Evaluationsinstrument kann einen Beitrag dazu leisten, die Angebote gezielt zu optimieren.

In der Schweiz wird das J + S-Evaluationsinstrument breit implementiert werden. Das Ziel ist, jährlich ca. 1200 Evaluationen von J + S-Aktivitäten durchzuführen, was etwa 10 % aller J + S-Aktivitäten in den nächsten fünf Jahren entspricht. Dabei liegt der Fokus darauf, die Qualität der J + S-Leitenden in ihren J + S-Aktivitäten zu verbessern und die J + S-Ausbildung bedarfsgerecht weiterzuentwickeln. Hierfür sind folgende Maßnahmen vorgesehen: Die Evaluationsdaten werden auf Kursebene unmittelbar nach dem Ausfüllen grafisch aufbereitet. Auf dieser Basis sollen externe Beobachter*innen Feedbackgespräche mit den Leitenden führen, um mögliche Verbesserungen aufzuzeigen. Zudem erfolgt mindestens einmal jährlich eine Auswertung aggregierter Daten, um Handlungsbereiche zur generellen Optimierung der J + S-Ausbildungsangeboten zu identifizieren. Die Daten dienen als Grundlage für neue Inhalte der J + S-Aus- und Weiterbildung.

Die breite Einführung des J + S-Evaluationsinstruments in der Schweiz könnte international als Modell für die systematische und breit angelegte Evaluation ähnlicher Jugend- und Sportprogramme dienen. Dabei könnte vergleichend herausgearbeitet werden, wie das Instrument in unterschiedlichen Sport- und Bildungssystemen adaptiert werden könnte. Dies würde eine Diskussion über Trainingsqualität und deren Evaluation in vielfältigen kulturellen und sprachlichen Kontexten eröffnen. Durch die Verfügbarkeit des Evaluationsinstruments in deutscher, italienischer und französischer Sprache wird die Anpassung an verschiedene Länder erleichtert. Dies könnte zu einem internationalen Austausch bewährter Praktiken führen, der die Qualität des organisierten Kinder- und Jugendsports verbessern könnte.