Problemstellung

Im Rahmen von bundesweiten Talentscreenings und Bewegungschecks besteht eine bedeutsame Zielsetzung darin, die Kinder zu identifizieren und zu fördern, die entweder eine gewisse Bewegungsbegabung respektive sportliches Talent oder gesundheitsrelevante Bewegungsdefizite aufweisen. Zur Identifizierung werden häufig Testbatterien, z. B. der Deutsche Motorik-Test 6–18 [4], eingesetzt, die unterschiedliche sportmotorische Fertigkeiten und Fähigkeiten adressieren, bei denen eine Bewertung über mehrstufige Leistungskategorien unter Berücksichtigung des kalendarischen Alters und Geschlechts erfolgt [17, 36,37,38]. Auf der Grundlage eines Summenwerts oder eines Testprofils kann auf diese Weise zumindest eine zuverlässige kategoriale Einteilung, z. B. eine Dreiteilung von sportlich leistungsstarken („high performer“), differenziert leistungsstarken/-schwachen („average performer“) und leistungsschwachen Kindern („low performer“) vorgenommen werden. Für ein Talentscreening erweist sich die Kategorie leistungsstarker Kinder jedoch als zu unspezifisch, da eine Eignung für eine Sportart oder eine Sportartengruppe, z. B. Basketball oder Sportspiele, eine differenzierte Bewertung bzw. Gewichtung unterschiedlicher Faktoren der sportmotorischen Leistungsfähigkeit erfordert. Ebenso kann der individuelle Förderbedarf leistungsschwacher Kinder nicht aus einem Summenwert oder Leistungskategorien abgeleitet werden, sondern erfordert ein differenziertes Testprofil bzw. ein differenziertes Fertigkeits- und Fähigkeitsprofil. Des Weiteren sind für eine valide Talent- oder Förderdiagnostik und -prognose neben den relevanten sportmotorischen Parametern weitere entwicklungsrelevante Parameter, z. B. die finale Körperhöhe bzw. das biologische Alter, das Trainingsalter, die elterliche Unterstützung usw. zu berücksichtigen [40].

Im Projekt BERLIN HAT TALENT [42] absolvieren jedes Jahr ca. 7000 und ab 2020 flächendeckend alle Kinder der dritten Schulklasse in Berlin den Deutschen Motorik-Test 6–18 [5], um anschließend Talent- bzw. Bewegungsfördergruppen zu bilden, deren Teilnehmer*innen über einen längeren Zeitraum, z. B. 6 oder 12 Monate, spezifisch gefördert werden. Schwerpunktmäßig in der Talentdiagnostik werden bereits seit einigen Jahren Verfahren erfolgreich eingesetzt, die auf multikriteriellen und unscharfen mathematischen Theorien und Methoden beruhen. Statt einer allgemeinen zusammenfassenden Kategorisierung in „Leistungsgruppen“ werden die Kinder innerhalb eines Ordnungsverfahrens auf der Grundlage gewichteter Personenmerkmale in eine „Rangfolge“ gebracht, die auch innerhalb der „besten Gruppe“, aber auch der „schlechtesten Gruppe“ noch zuverlässig differenziert. Als sehr vorteilhaft erweist sich bei diesen Verfahren, dass subjektive Theorien und Wissensstände von Trainer*innen, Lehrer*innen und Sportwissenschaftler*innen explizit einbezogen werden können [40]. Dieses Wissen wird mithilfe diskursiver Validierungen erschlossen und in Bewertungsfunktionen abgebildet, die in der FUZZY-Theorie als sogenannte Zugehörigkeitsfunktionen definiert bzw. interpretiert werden können. Die auf diese Weise jedem Probanden zugeordneten Werte bilden die Grundlage zur Berechnung einer Rangfolge: Das Kind respektive das Talent, welches in dieser Rangfolge an erster Stelle steht, ist bezüglich der vergebenen Bewertungen (Gewichtungen, Substitutionsraten, Kompensationsgrade, Fehlerangaben usw.) der/die Beste, weil die bei ihm/ihr festgestellten Merkmale (Leistungsmerkmale, Körperbaumerkmale, biologisches Alter usw.) den „Gütemodellen“ am besten entsprechen [12, 40, 42]. Die konkrete Vorgehensweise, mit der Talentscreenings und Bewegungschecks durchgeführt werden können, sodass Kinder mit einer möglichen Eignung für eine Sportart oder Sportartengruppe (in unserem Beispiel die Spielsportarten) zu identifizieren sind, wird in diesem Beitrag erläutert.

Die Methodik des multikriteriellen und unscharfen Variantenvergleichs

Für die Bewertung von verschiedenen Varianten/Probanden (hier zum Beispiel den Kindern der dritten Schulklassen in Berlin), die jeweils durch eine endliche Anzahl von Merkmalen, sogenannten Attributen, charakterisiert sind, erscheint ein multikriterieller Variantenvergleich (Multiple Attribute Decision Making, MADM), d. h. ein multiattributives Entscheidungsverfahren, als ein geeigneter Zugang [2, 21, 24]. Ziel ist dabei entweder das Finden der besten Variante, der klassische MADM-Fall, oder die Ermittlung einer Rangfolge der Varianten hinsichtlich einer optimalen „Gesamtgüte“ (hier des Talents für eine Sportart oder eine Sportartengruppe). Seit den 70er-Jahren des vorigen Jahrhunderts beschäftigt sich die Wissenschaft mit dieser Fragestellung und es wurden eine Vielzahl von Grundalgorithmen entwickelt, die bis heute in zahlreichen Varianten weiterentwickelt wurden (siehe z. B. [1, 13, 20, 35]). Eine methodologisch hervorzuhebende Lösung für multikriterielle Entscheidungs- und Optimierungsprobleme ergab sich infolge der Einführung von „unscharfen Mengen“, sogenannte FUZZY-Sets, deren Grundlagen von Zadeh in den 60–70er-Jahren des vorigen Jahrhunderts eingeführt wurden [39].

Die Grundproblematik kann am folgenden einfachen Beispiel beschrieben werden. Falls beispielsweise 5 Varianten (n = 5: V1, V2, V3, V4, V5) durch zwei Kriterien (m = 2: Q1, Q2) beschrieben werden und der Erfüllungsgrad der Kriterien quantifiziert werden kann, z. B. mit den Werten zwischen 0 (unzureichende Ausprägung) und 1 (herausragende Ausprägung), so ist dieses Problem mit der Grafik in Abb. 1 vollständig beschrieben. In einem Koordinatensystem mit den zwei Kriterien kann jede der Varianten ausreichend gut beschrieben werden. Es gibt demnach einen besten Punkt (Idealpunkt) sowie einen schlechtesten Punkt (Nadirpunkt).

Abb. 1
figure 1

Multiple-Attribute-Decision-Making(MADM)-Problem

Unter der Prämisse, dass mit den verwendeten Merkmalen alle güterelevanten Eigenschaften erfasst wurden, kann zunächst keine vollständige Ordnung der Varianten erzeugt werden. Im Beispiel (siehe Abb. 1) ist die Variante V1 schlechter als die Variante V2 und die Variante V3 schlechter als V4. Diese teilweise Ordnung wird als (Vektor‑)Halbordnung bezeichnet. Alle Varianten, die in diesem Sinne nicht durch andere Varianten dominiert werden, bilden die sogenannte Pareto-Menge (auch effiziente Menge). Im vorliegenden Beispiel sind das die Varianten V2, V4 und V5. Welche von diesen wiederum die beste ist, kann ohne zusätzliche Informationen nicht entschieden werden.

Besteht die Fragestellung darin, die beste Variante zu finden, so können alle nicht effizienten Varianten ausgesondert werden, denn die beste Variante muss pareto-optimal sein. Soll jedoch eine Rangfolge erzeugt werden, müssen zusätzliche Informationen berücksichtigt werden, z. B.:

  • Gewichtungsfaktoren (Gewichtungen, Gewichte): Positive Zahlen zwischen Null und Eins, die die Bedeutsamkeit eines Kriteriums in Bezug auf die Gesamtgüte anzeigen.

  • Zufriedenheitsgrade: Bewertung der Ausprägung eines Kriteriums hinsichtlich der angestrebten Zielerreichung.

  • Substitutionsraten: Positive Verhältniszahlen, die angeben, um wie viele Einheiten ein Kriterium verbessert werden muss, wenn sich ein anderes Kriterium um eine gewisse Anzahl von Einheiten verschlechtert hat und die weiteren Kriterien konstant geblieben sind.

  • Fehler- oder Toleranzangaben: Messfehler, die aus der Problemstellung resultieren.

  • Empfindlichkeits- und Schwellenwerte: Die Angabe einer Differenz in einer Merkmalsausprägung, die groß genug ist, dass eine Variante gegenüber einer anderen Variante eindeutig präferiert werden kann.

  • Zielstrukturen: Die Angabe einer Zielstruktur, anhand derer Unterattribute strukturiert werden können.

  • Kompensationsgrade: Kann ein Verlust bei einem Kriterium durch den Zugewinn bei einem anderen Kriterium überhaupt kompensiert werden?

  • Wunschwerte, Wunschintervalle, Mindestausprägungen u. a. m.

Notwendige zusätzliche Informationen lassen sich durch diskursive Validierungen mit Verfahrensbeteiligten oder Expert*innen (in unserem Falle also insbesondere Trainer*innen, Lehrer*innen und Sportwissenschaftler*innen) generieren. Die damit zwingend erforderliche Auseinandersetzung mit den Daten begünstigt einerseits eine fundierte und bewusste Position des „Untersuchenden“ sowohl zu den Analyseinhalten als auch zu den Analyseergebnissen. Die unterschiedliche Art von Zusatzinformationen führt andererseits dazu, dass sich mehrere, jeweils plausible und zweckmäßige, aber doch deutlich unterschiedliche Vorgehensweisen und Methoden entwickeln lassen, die auch zu veränderten Analyseergebnissen führen. Das liegt insbesondere daran, dass sich die Wirkung der einzelnen Parameter auf eine Gesamteinschätzung zur sportmotorischen Begabung bzw. zum sportlichen Talent beispielsweise nicht durch relative Häufigkeiten, sondern insbesondere durch unscharfe, vage, subjektive Abschätzungen beurteilen lassen. Es lohnt sich deshalb nicht, zwischen diesen Methoden a priori auszuwählen und sich auf eine einzige beschränken zu wollen. Ziel sollte es vielmehr sein, die Vielfältigkeit der Methoden zu nutzen, um das (komplexe) Problem aus verschiedenen Perspektiven zu beurteilen. Das kann ein Vorteil gegenüber der Nutzung von herkömmlichen statistischen Verfahren sein, weil im Vergleich eine gewisse „Entfremdung“ eintritt, da die Ergebnisse vieler statistischer Analysen meist nur angenommen oder verworfen werden können. In den letzten Jahren wurden dazu in Berlin entsprechende Verfahren entwickelt und in der Software MAOE (Modellieren, Analysieren, Optimieren, Entscheiden [12]) umgesetzt, die u. a. im Rahmen des Projekts BERLIN HAT TALENT [32] systematisch eingesetzt wird. Während in der Literatur immer wieder über bemerkenswerte Anwendungsfälle multikriterieller, unscharfer Optimierungsverfahren auf den unterschiedlichsten Gebieten berichtet wird, z. B. auf dem Gebiet der Planung robuster Flugrouten [19], der Meteorologie [8], der Lösung von Logistikproblemen [14] sowie der integrierten Technikbewertung [15, 16], und sich auch vielfältige Workshops mit diesem Gegenstand beschäftigen (zum Beispiel der Workshop der GOR-Arbeitsgruppe „Entscheidungstheorie und -praxis“ 2017 in Wien), beschränken sich vergleichbare Ergebnisse innerhalb der deutschen Sportlandschaft insbesondere auf Arbeiten im Umfeld von Jürgen Perl [23, 25] und Joachim Mester [33]. Die über viele Jahre systematisch weiterentwickelte Software MAOE und die integrierten Möglichkeiten zu deren interaktiven Nutzung sowie die inhaltliche Zusammenarbeit der Autoren (und Institutionen) dieses Beitrags vor allem zur Abbildung der diskursiven Analyse auf verschiedene Typen von Zugehörigkeitsfunktionen, Hierarchien und Gewichtungen zeigen darüber hinaus die übergreifende Nützlichkeit dieser Herangehensweise für ein theoriegeleitetes und systematisches Talentscreening. Ein weiterer bedeutsamer Anwendungskontext, auch im Sport, ergibt sich, wenn bei (leistungs-)diagnostischen Untersuchungen differenzierte, komplexe Problemstellungen in (oftmals „aufgeblähte“) Datenmatrizen überführt werden, bei der Analyse subjektive Bewertungen zu berücksichtigen sind und integrative Ergebnisse (auch interaktiv) entwickelt werden sollen.

Vorbereitende Verfahrensschritte

Für die Methoden des multikriteriellen Variantenvergleichs sind zwei vorbereitende Schritte angezeigt:

  • Normierung:

    Jedes der verwendeten Attribute/Merkmale wird in seinem „Erfüllungsgrad“ bei jeder Variante mit einer Maßzahl aus einer Kardinalskala, d. h. metrischen Skala, ausgedrückt. Diese natürliche Bewertung, z. B. einer Länge kann in m, mm, km usw. erfolgen. Um den Einfluss einer solchen willkürlich gewählten Maßeinheit auf eine Vergleichsrechnung mit anderen Kriterien zu korrigieren, ist es notwendig, die Bewertung jedes einzelnen Kriteriums zu „entdimensionieren“, d. h. zu normieren. Im Idealfall wird die jeweils denkbar beste Ausprägung (Qb) und die jeweils denkbare schlechteste Ausprägung (Qw) mit dazwischen liegendem linearen Anstieg genutzt, um die Variantenbewertung auf das Intervall [0,1] zu normieren. Folglich bezeichnet im Weiteren Q das Kriterium mit einer natürlichen Skala sowie Q′ das normierte Kriterium.

  • Bewertungsfunktionen:

    Im Rahmen der Nutzentheorie [21] wurde u. a. der Gedanke entwickelt, dass die Bewertung einer Kriteriumsausprägung nicht linear sein muss (vgl. rote Linie in Abb. 2). Häufig ist davon auszugehen, dass eine Verbesserung bei kleinen Ausprägungen stärker bewertet wird. In diesem Fall wird die Bewertung (lila Kurve) konvex von oben gekrümmt sein (sog. „pessimistische Bewertung“). Der umgekehrte Fall (blaue Kurve) wird als „optimistische Bewertung“ bezeichnet.

Abb. 2
figure 2

Lineare (rot, A = 1), pessimistische (lila, A < 1) und optimistische (blau, A > 1) Bewertung B = f(Q′,A)

Die Bewertungen kann auch weiter differenziert werden, z. B. Sprungfunktionen, Stufenfunktionen, Schwellenfunktionen u. a. Eine Bewertungsfunktion kann als Zugehörigkeitsfunktion zur Menge der besten Lösungen in Bezug auf das Merkmal Q gewertet und behandelt werden.

Methoden des multikriteriellen Variantenvergleichs

Rückwärtsfilterung

Die Grundidee der Rückwärtsfilterung [10, 34] lässt sich wie folgt formulieren:

Derjenige ist in der Rangfolge vorn, der am „nächsten“ am Ideal liegt, wobei die Kompensation zwischen den Merkmalen mit dem verwendeten Abstandsmaß gesteuert wird.

Die Idee klingt einfach. Alle Varianten/Probanden werden nach ihrem Abstand zu einem Idealpunkt im Zielraum geordnet. Wer am nächsten zum Ideal liegt, ist der Beste, und wer am weitesten weg liegt, ist der Schlechteste. Kann man also einen „Wunsch“-Punkt (QREF) vorgeben oder wählt man in Ermangelung eines Wunschpunkts den Idealpunkt (QIdeal), so entsteht die Frage nach der Wahl des Abstandsmaßes zu diesem Referenzpunkt. Das muss nämlich nicht der meist intuitiv gewählte „normale“ euklidische Abstand sein. Mit dieser Wahl legt man dann auch den Kompensationsgrad und die Substitutionsraten fest.

Ein hinreichend allgemeines Abstandsmaß A ist die sogenannte gewichtete Lp-Norm

$$A=\left| \underline{Q},\;\underline{Q}^{\mathrm{REF}}\right| =\left[\sum _{i}\left| \left(g_{i}\left(Q_{i}^{\mathrm{REF}}-Q_{i}\right)\right)\right| ^{P}\right]^{1/p}\quad \infty >p\geq 1,\quad g_{i}\geq 0,\;\sum _{i}g_{i}=1$$
(1)

mit dem zu bewertenden Merkmalsvektor

  • \(\underline{\mathrm{Q}}=(\mathrm{Q}_{1},\ldots ,\mathrm{Q}_{\mathrm{m}})\)

und dem Referenzpunkt QREF ≥ QIdeal (im Sinne der Vektorhalbordnung)

  • \(\underline{\mathrm{Q}}^{\mathrm{REF}}=\left(Q_{1}^{\mathrm{REF}},\ldots ,\mathrm{Q}_{\mathrm{m}}^{\mathrm{REF}}\right).\)

In Abb. 3 sind für m = 2 und g1 = g2 = 0,5 die Niveaulinien der Lp-Norm für unterschiedliche Werte von p dargestellt. Dabei sind insbesondere die folgenden Sonderfälle zu verzeichnen:

  • p = 2: Euklidische Norm

  • p = 1: City-Block-Norm

  • p = ∞: Tschebyscheff-Norm

Abb. 3
figure 3

Wirkung des Parameters p auf die Form der Abstandsfunktion (die Niveaulinien der Abstandsfunktion sind grau dargestellt und der Referenzpunkt befindet sich in der oberen rechten Ecke)

Es sind fünf Varianten zusammen mit der jeweiligen Richtung des steilsten Abfalls eingetragen. Bei der braunen Variante ist gezeigt, wie das sogenannte Substitutionsdreieck entsteht. Im rechten Winkel zur Richtung des steilsten Anstiegs liegt die Tangente der Niveaulinie, deren Anstieg bzw. Abfall das Substitutionsdreieck festlegt. Die jeweilige Substitutionsrate ist das Verhältnis der ∆‑Werte. Bei p = 1 ist dieses Verhältnis ortsunabhängig. Bei p = 2 und darüber hinaus erkennt man eine Ortsabhängigkeit: Bei großen Werten von Q1 und kleinen Werten von Q2 ist das Dreieck so beschaffen, dass eine geringe Verschlechterung von Q2 nur durch eine große Verbesserung von Q1 kompensiert werden kann. Das entspricht einem „vernünftigen“ Entscheidungsverhalten. Andererseits heißt das aber auch, dass in den „Randgebieten“ die Kompensierbarkeit immer mehr abnimmt, womit das Substitutionsdreieck immer flacher wird. Als bewährtes Beispiel für dieses Entscheidungsverhalten dient die „Hunger-Durst-Problematik“: Wer Hunger leidet, tauscht viel Wasser für wenig Brot, wer an Durst leidet, tauscht viel Brot gegen wenig Wasser.

Mit p wird auf diese Weise also die Kompensierbarkeit zwischen den Kriterien „gesteuert“: Erhöht man p, so verschlechtert sich diese, bei p = 1 (City-Block-Norm) ist vollständige Kompensierbarkeit gegeben, bei p = 5 kann man von merklicher Kompensierbarkeit nur noch innerhalb des gelben Kegels sprechen, bei p = ∞ (Tschebyscheff-Norm) ist nirgends mehr eine Kompensierbarkeit vorhanden und die Bewertung richtet sich immer nach der jeweils schlechtesten Ausprägung; unabhängig davon, wie gut oder schlecht die anderen Kriterien ausgeprägt sind.

In Bezug auf unser Sportbeispiel ergibt sich daraus:

Bei p=1 ist der beste Mehrkämpfer und bei p=∞ der mit der besten schlechtesten Disziplin vorn („Eine Kette ist so stark, wie ihr schwächstes Glied!“).

Mithilfe des totalen bzw. vollständigen Differenzials lässt sich zeigen, dass folgender Zusammenhang für die Substitution von i‑Werten durch j‑Werte gilt:

$$S_{ij}=\left(\frac{g_{j}}{g_{i}}\right)^{p}\cdot \left(\frac{Q_{j}^{\mathrm{REF}}-Q_{j}}{Q_{i}^{\mathrm{REF}}-Q_{i}}\right)^{p-1}=\frac{1}{S_{ji}}$$
(2)

Für p = 1 ergibt sich eine konstante Substitutionsrate als Verhältnis der beiden Gewichtungsfaktoren, wodurch in diesem Fall beide Informationen ineinander umgerechnet werden können. Außerdem erkennt man, dass an den Stellen, wo eine Güteausprägung den Referenzwert hat (QiREF = Qi), die dazugehörigen Substitutionsraten 0 oder ∞ sind, d. h. eine Substitution nicht möglich ist.

Unscharfe Dominanzmengen

Die Grundidee der unscharfen Dominanzmengen [10] drückt sich wie folgt aus:

„Derjenige ist in der Rangfolge vorn, der die meisten anderen dominiert und von den wenigsten dominiert wird; mit anderen Worten der ‚bescheidene‘ Gewinner!“

Für jede Variante bzw. jeden Probanden gibt es eine Menge im Merkmalsraum, die in Bezug auf eine „Gesamtgüte“ besser als diese ist, d. h. die dominierende Menge, und eine Menge im gleichen Merkmalsraum, die in Bezug auf diese „Gesamtgüte“ von dieser Variante dominiert wird und als dominierte Menge bezeichnet wird. Da es sich um eine Halbordnung handelt, gibt es aber auch Bereiche, die weder zur dominierenden noch zur dominierten Menge gehören (siehe Abb. 4).

Abb. 4
figure 4

Dominanzmengen der Vektorhalbordnung für eine Variante \(\underline{\mathrm{Q}}_{\mathrm{V}}\)

Eine Variante ist dann am besten, wenn sie für alle anderen Varianten zur dominierenden Menge D gehört und zu den dazugehörigen nicht dominierten Mengen N. Man muss für jede Variante diese Mengen ermitteln. In Anbetracht der Tatsache, dass alle Vorstellungen zu einem Gütemodell vage und unscharf sind, liegt der Gedanke nahe, diese Mengen gleich als unscharfe Mengen, d. h. FUZZY-Sets, mit dazugehörigen Zugehörigkeitsfunktionen („membership functions“) zu modellieren.

Als Basisinformationen zur Konstruktion einer solchen Zugehörigkeitsfunktion werden die Substitutionsraten Si und die geschätzten absoluten Messfehler Fi für jede Variante i genutzt. Die geforderten Eigenschaften für eine Zugehörigkeitsfunktion µDv(Q1, Q2), welche die Menge der dominierenden Varianten (rechte obere Ecke in Abb. 4) einer beliebigen Vergleichsvariante im Kriterienraum beschreibt, werden in Abb. 5 dargestellt.

Abb. 5
figure 5

Zugehörigkeitsfunktion („membership function“) der Menge dominierender Varianten einer Vergleichsvariante \(\underline{\mathrm{Q}}_{\mathrm{V}}\) (3D-Darstellung der Zugehörigkeitsfunktion über zwei Merkmale)

Eigenschaften:

  1. 1.

    Der Wert der Zugehörigkeitsfunktion muss mit zunehmender Ausprägung gleichfalls steigen (asymptotisch von Null auf asymptotisch Eins, siehe die Schnitte längs der Kriterien-Achsen).

  2. 2.

    Am Punkt der Lage der Vergleichsvariante QV muss die Zugehörigkeit 0,5 sein (eine andere Variante mit exakt den gleichen Ausprägungen kann chancengleich besser oder schlechter sein).

  3. 3.

    Der im gleichen Punkt vorhandene Gradient der Zugehörigkeitsfunktion wird in seiner Richtung durch das vorzugebende Substitutionsdreieck bestimmt und in seinem Betrag (Steilheit) von den geschätzten „Mess“-Fehlern.

Die angegebenen Stützfunktionen werden wie folgt berechnet [8]:

$$\begin{array}{l} SF_{i}=\frac{1}{\pi }\arctan \left(C_{i}\left(Q_{i}-Q_{vi}\right)+\frac{\pi }{2}\right),\quad i=1\left(1\right)m\\ \mu _{Dv}\left(\underline{Q}\right)=\left(\prod _{i=1}^{m}SF_{i}\right)^{1/m} \end{array}$$
(3)

Die m freien Parameter Ci werden so berechnet, dass die drei oben genannten Eigenschaften erfüllt sind.

Unscharfe Güte

Bei der Grundidee der unscharfen Güte [10] ist zu beachten, dass die Vorgehensweise der Methode der unscharfen Dominanzmengen ähnelt, jedoch die verwendeten Substitutionsraten von der „Lage“ des Probanden im Koordinatensystem abhängig sind (siehe „Hunger-Durst-Problematik“ bei der Methode der Rückwärtsfilterung).

Ziel ist die Konstruktion einer Zugehörigkeitsfunktion zum denkbar besten Element (Idealpunkt) und die anschließende Ordnung der Varianten nach dem Wert dieser Zugehörigkeit. Als Basisinformationen werden hier die Substitutionsraten für alle Varianten benötigt. Bei diesem Verfahren wird auch die Gl. 1 für die Lp-Norm verwendet, wobei die Gewichtungsfaktoren und der Exponent nicht vorgegeben, sondern aus den angegebenen Substitutionsraten für jede Variante berechnet werden. Dabei ist es möglich, dass auch Werte kleiner als Eins, evtl. Null oder kleiner als Null, für den Exponenten entstehen. Über einen nicht linearen Regressionsansatz werden die freien Parameter in der Formel für die Lp-Norm gesucht, die die Summe der quadrierten Winkelabweichungen der Substitutionsdreiecke jeder Variante über alle Varianten minimieren.

Betrachtet man die Gl. 1, benutzt als Referenzpunkt den Nadirpunkt und arbeitet mit normierten Ausprägungen, so ergibt sich als Bewertungsfunktion µ:

$$\mu =\left[\sum _{i}\left(g_{i}\left| Q_{i}\right| \right)^{p}\right]^{1/p},g_{i}\geq 0.\sum _{i}g_{i}=1,\infty \geq p\geq -\infty$$
(4)

Setzt man hier formal p = 0, so ergibt sich ein in dieser Form nicht berechenbarer Ausdruck. Man kann aber mithilfe einer Grenzwertbetrachtung [11] zeigen, dass

$$\lim _{p\rightarrow 0}\left[\sum _{i}\left(g_{i}\left| Q_{i}\right| \right)^{P}\right]^{1/p}=\prod _{i}\left| Q_{i}\right| ^{{g_{i}}}$$
(5)

Für p = 1 erhält man die Formel für einen gewichteten arithmetischen Mittelwert (Summenbewertung) und für p = 0 ergibt die Gl. 5 einen gewichteten geometrischen Mittelwert (faktorielle Bewertung). Abb. 6 zeigt, dass mit einem Referenzpunkt (Nadir-Punkt) p jeden reellen Wert annehmen kann.

Abb. 6
figure 6

Wirkung des Exponenten p auf die Niveaulinien der Zugehörigkeit (siehe zum Vergleich Abb. 3)

Zwei weitere Grenzwertbetrachtungen führen zu den beiden Extremfällen, Maximum- und Minimumnorm.

Für p = ∞ erhält man die Maximumnorm (Bewertung entspricht der besten Ausprägung)

$$\mu =\max _{i}\left(g_{i}Q_{i}\right),\;g_{i}\geq 0,\;\sum _{i}g_{i}=1$$
(6)

und für p = −∞ erhält man die Minimumnorm (Bewertung entspricht der schlechtesten Ausprägung).

Gl. 4 beschreibt für p < 1 streng genommen auch keine Norm mehr.

$$\mu =\min _{i}\left(g_{i}Q_{i}\right),\;g_{i}\geq 0,\;\sum _{i}g_{i}=1$$
(7)

In diesem Verfahren werden die Substitutionsraten für jede Variante (individuell) verwendet. Sie hängen also von der Lage der Varianten im Koordinatensystem ab. Mit Bezug auf die „Hunger-Durst-Problematik“ ergibt sich die Analogie: Zwei Wanderer in der Wüste haben unterschiedliche Rationen von Essen und Trinken. Im Extremfall gibt ein Verdurstender für einen Schluck Wasser seine gesamte Essensration und ein Verhungernder für einen Bissen Brot seinen gesamten Wasservorrat. Könnte man die Substitutionsraten für jede Variante exakt vorgeben, wäre dieses Verfahren sehr vorteilhaft und faktisch fehlerlos. Da das aber in der Regel nicht möglich ist, kann man das beispielsweise durch die Veränderung von p simulieren, um zu prüfen, ob die entstehenden Substitutionsraten den praktischen Gegebenheiten entsprechen.

PROMETHEE-Verfahren

Die Grundidee des PROMETHEE-Verfahrens [3, 6, 7, 35] lässt sich wie folgt beschreiben:

Derjenige ist in der Rangfolge vorn, der die meisten dominiert, egal wie oft er selbst dominiert wird. Es ist derjenige im Turnier, der nicht nur die meisten Spiele gewinnt, sondern dabei noch die höchste Trefferquote erreicht, d. h. der „narzisstische“ Gewinner.

Hier handelt es sich um ein Outranking-Verfahren, wie sie insbesondere unter den Namen ELECTRE [Elimination Et Choix Traduisant la Realité] eingeführt und in vielen Varianten weiterentwickelt wurden [26,27,28]. Im Folgenden werden nur die Varianten I (Kerngrad) und II („net-flow“) dargestellt, für die Informationen über Schwellenwerte und Gewichtungsfaktoren benötigt werden (Abb. 7).

Abb. 7
figure 7

Indifferenzschwelle (IndSW) und Präferenzschwelle (PrefSW) und dazugehöriger Verlauf eines Präferenzwertes

Die Indifferenzschwelle hat den Charakter einer Toleranz, innerhalb derer eine Präferenz mit Sicherheit nicht ausgesprochen werden kann und die Präferenzschwelle gibt die Wertedifferenz an, ab der mit Sicherheit die Vergleichsvariante in Bezug auf das einzelne Kriterium Q′ dominiert wird. Bei konstantem Kriteriumswert Qj einer Variante gibt die rote Kurve den Präferenzwert Prefij dafür an, dass eine Variante mit der Ausprägung Qi bei diesem Kriterium gegenüber j zu präferieren ist. Das entspricht der Überführung der binären „>“ Relation in eine graduelle Relation, die auch als Zugehörigkeitsfunktion betrachtet werden kann. Der Verlauf zwischen den Schwellen muss nicht notwendigerweise linear, jedoch streng monoton sein. Die Schwellenwerte können auch von den Ausprägungen der Vergleichsvariante abhängig oder jeder Variante direkt zugeordnet sein. Jede Variante erhält bei jedem Kriterium von jeder anderen Variante einen Präferenzwert: Ist dieser Wert positiv, so wird das „Pluskonto“ mit diesem Wert, der mit dem Gewichtungsfaktor multipliziert wird, erhöht, und die andere Variante erhöht um den gleichen Wert ihr „Minuskonto“. Am Ende dieser Berechnung hat also jede Variante ein Siegeskonto und ein Niederlagenkonto. Wenn beim Vergleich zweier Varianten eine dieser Varianten ein höheres Siegeskonto und ein niedrigeres Niederlagenkonto hat, so wird die andere als „ausgemustert“ bezeichnet. Die Berechnung der Rangfolge erfolgt für PROMETHEE I (Kerngrad) dahingehend, dass der Beste die meisten ausmustert und der Schlechteste die wenigsten ausmustert, wohingegen für PROMETHEE II („net-flow“) bei jeder Variante das Niederlagenkonto vom Siegeskonto abgezogen und anschließend nach der Größe dieser Zahl geordnet wird.

Zielstrukturen und hierarchische Methoden

Bei der Grundidee der Zielstrukturen und hierarchischen Methoden [9, 18, 29,30,31,32] wird davon ausgegangen:

Derjenige ist vorn, der jeweils in den Strukturknoten am „nächsten“ an der idealen Ausprägung ist und damit den „strukturiertesten“ Gewinner darstellt.

Die bekannteste Methode, die Zielstrukturen verwendet, ist der sogenannte „analytische Hierarchieprozess“ [29], der seine Weiterentwicklung im „analytischen Netzwerkprozess“ [32] gefunden hat. Eine Bewertungshierarchie der körperlichen Leistungsfähigkeit könnte beispielsweise wie in Abb. 8 aussehen.

Abb. 8
figure 8

Beispiel für eine Bewertungshierarchie zur körperlichen Leistungsfähigkeit

Beim analytischen Hierarchieprozess wird bei der Bestimmung aller Bewertungszahlen davon ausgegangen, dass sich diese aus einem paarweisen Vergleich aller direkt untergeordneten Elemente eines Knotens berechnen. Das ist natürlich keine Bedingung für die Verwendung einer solchen Bewertungshierarchie. Im Fall der oben dargestellten Hierarchie sind die Zahlen der Bewertungsebene 1 konkrete Messergebnisse (manifeste Variablen). Bei den Übergängen zu den höheren Ebenen (latente Variablen) kann es durchaus sein, dass ein paarweiser Vergleich der Wichtigkeit der untergeordneten Kriterien in Bezug auf den darüber liegenden Knoten notwendig wird. Je nach „Perspektive“ der einbezogenen Experten kann man so vorgehen, oder man erstellt ein Ranking der involvierten Kriterien oder man fasst das Ganze als neuronales Netz auf, das durch die Vorgabe von Eingangs- und Ausgangsmustern angelernt wird [12].

Die Bewertung eines Knotens berechnet sich ab Bewertungsebene 2 (QO) aus dem diesem Knoten direkt untergeordneten m‑Knoten (Qi O). Im Beispiel berechnet sich der Erfüllungsgrad für „Koordination“ aus den Werten für „rückwärts Balancieren“ und „Rumpfbeugen“, für die üblicherweise eine Linearkombination [35] verwendet wird.

$$Q_{O}=\sum _{i=1}^{n_{O}}g_{i}^{O}Q_{i}^{O},\quad g_{i}^{O}\geq 0,\sum _{i=1}^{n_{O}}g_{i}^{O}=1$$
(8)

Dieser Ansatz setzt vollständige Kompensierbarkeit voraus. Will man diese eher unrealistische Voraussetzung negieren, bietet sich eine Bewertungsfunktion entsprechend der Gl. 1 an.

$$Q_{O}=\mu _{O}=1-\left[\sum _{i}\left(g_{i}^{O}\left(1-Q_{i}^{O}\right)\right)^{{P_{O}}}\right]^{1/{p_{O}}}\quad \infty >p_{O}\geq 1,\quad g_{i}^{O}\geq 0,\;\sum _{i}g_{i}^{O}=1$$
(9)

Für pO = 1 ergibt sich die Gl. 8. Diese einfache Form der Berechnung einer Bewertung, die den Charakter einer Zugehörigkeitsfunktion hat, setzt voraus, dass man die normierten Ausprägungen in der Basisebene (Bewertungsebene 1, Messebene) benutzt. Der Idealpunkt 1 kann dann als Referenzpunkt verwendet werden. Zur Bestimmung der freien Parameter, Gewichtungsfaktoren und Exponenten kann man in jedem Knoten so vorgehen, wie im Modell der „Unscharfen Güte“.

Eine weitere Möglichkeit, diese Parameter zu bestimmen, besteht darin, durch die Vorgabe einer Anzahl n von „Muster“-Varianten und deren Bewertung nach dem Gesamtkriterium (Notenvergabe) diese freien Parameter mittels Fehlerminimierung zu bestimmen (11), um sie dann auf das gesamte Entscheidungsproblem anzuwenden (Auffassung der Bewertungshierarchie als künstliches neuronales Netz).

$$\min _{\underline{g},\underline{p}}\left\{F=\sum _{j=1}^{n}\left[B_{j}-Q^{j}\left(\underline{g},\underline{p}\right)\right]^{2}\right\}$$
(10)

Dabei stellt Bj die vergebene Benotung und Qj die berechnete Bewertung für die j‑te Mustervariante dar. Der Vektor g bezeichnet alle Gewichtungen in allen Knoten und p bezeichnet die Exponenten in allen Knoten. Algorithmisch berechnet man Qj in der Hierarchie aufsteigend ab Bewertungsebene 2 so, dass immer alle untergeordneten Bewertungen vorliegen. Da bei jedem Knoten die Normierung der Gewichtsfaktoren berücksichtigt werden muss und auch für gi keine negativen Werte zugelassen sind, stellt (10) eine Aufgabe der nicht linearen Optimierung mit Gleichungs- und Ungleichungsbeschränkungen dar. Wegen der schwierigen Bestimmung der Ableitungen von F sollte zur Lösung von (10) ein gradientenfreies Suchverfahren mit numerisch gewonnenen Anstiegsinformationen verwendet werden.

Kombination von Auswahlverfahren und Auswertung unterschiedlicher Rangfolgen

Die Anzahl der Methoden zur Erzeugung einer Rangfolge bei multikriteriellen Aufgaben der Variantenauswahl ist hoch. Allein in den vorliegenden Ausführungen werden bereits mehr als 5 Möglichkeiten dargestellt, die z. B. mittels des Exponenten p auch noch parametrisiert werden können. Die dargestellten multikriteriellen Verfahren beruhen im Wesentlichen auf analytischer Geometrie und sind in diesem Sinne „scharfe“ Verfahren. Die „Unschärfe“ ergibt sich insbesondere durch die Einbeziehung subjektiver Theorien der involvierten Experten. Des Weiteren verarbeiten die Verfahren unterschiedliche Informationen, d. h. Gewichtungen, Substitutionsraten, Fehlerangaben, Schwellenwerte usw. Doch allen ist gemein, dass vermutlich keines der Verfahren den tatsächlichen Beitrag eines Einzelmerkmales zur Erreichung einer Gesamtzielstellung in realiter korrekt nachbilden kannFootnote 1.

Insofern sind alle Methoden zuvorderst gleichberechtigte Näherungsmodelle. Der nächste Schritt besteht deshalb darin, die von den verschiedenen Verfahren mit unterschiedlichen Ausgangsinformationen berechneten Rangfolgen zu vergleichen und daraus verallgemeinernde Schlussfolgerungen zu ziehen. In diesem Schritt können Beurteilungen über die Eignung der unterschiedlichen Verfahren bzw. die unterschiedlichen Grundideen abgeleitet und in diesem Zusammenhang Gewichtungen für die Rangfolgen von den „Experten“ vergeben werden. In einem weiteren Verfahrensschritt lassen sich dann die parallel ermittelten Rangfolgen zu einem Gesamtergebnis kombinieren, beispielsweise dahingehend, dass die Einzelergebnisse bzw. Rangfolgen entsprechend gewichtet und gemittelt werden. Somit kann man die Rangfolgen der Verfahren, die auf der Basis von Ersatzzielfunktionen beruhen, stärker gewichten, als jene Rangfolgen, die auf Ordnungsprinzipien beruhen und deshalb instabiler sind.

Für jede Variante bzw. jeden Probanden kann final ein (gewichteter) mittlerer Platz berechnet und eine Gesamtrangfolge der mittleren Platzierungen festgehalten werden. Dieses Vorgehen kann auch als kompensatorisches Modell verstanden werden, da Vor- und Nachteile der verschiedenen Verfahren ausgeglichen werden. Sollten sich jedoch Informationen hinsichtlich der besseren Eignung eines bestimmten Verfahrens ergeben, so kann man diese durch eine Ungleich- bzw. Höhergewichtung von Rangfolgen bei der Berechnung der mittleren Platzierung der Varianten/Probanden berücksichtigen.

Die Anwendung des multikriteriellen und FUZZY-Vorgehens auf das Talentscreening im Projekt BERLIN HAT TALENT

Im Schuljahr 2017/18 wurden 3718 Jungen aus den dritten Schulklassen im Alter von 8–10 Jahren in Berlin mit dem Deutschen Motorik-Test 6–18 (DMT [5]) untersucht. Mithilfe eines Screenings sollten die Kinder gesichtet werden, die ein gewisses Talent für die Spielsportarten haben könnten.

Im ersten Schritt der diskursiven Validierung wurden mit verschiedenen Sportwissenschaftlern, Trainern und Lehrern zunächst die aus deren Sicht für die Spielsportarten wichtigsten Parameter aus dem DMT ausgewählt, die um die spielsportrelevanten Parameter Körperhöhe (KH), geschätzte finale Körperhöhe (FKH), biologisches Alter (BA), kalendarisches Alter (AM) und den Body-Maß-Index (BMI) ergänzt wurden. Für jeden dieser Parameter wurde nun eine Fehlerbreite, die auch biologisch verursacht sein könnte, ermittelt, z. B. für die Körperhöhe das Maß von 1 cm, und eine prinzipielle Optimierungsrichtung abgeleitet, z. B. für die Körperhöhe (KH) das Maximum, d. h. je größer, desto besser. Auf dieser Basis erfolgte die Normierung der Parameter. Alle Parameter wurden linear normiert, jedoch wurde für den BMI die Normierung in Anlehnung an Kromeyer-Hauschildt et al. [22] so gewählt, dass der Mittelwert für deutsche Kinder dieses Alters und Geschlechts (16,65) als Wunschwert gilt (Bewertung 1) und Abweichungen nach oben und unten gleichermaßen schlechter gewertet wurden.

Im nächsten Schritt wurde dann ein Strukturdiagramm entwickelt und das Gewicht jedes Parameters in Bezug auf den jeweils zugehörigen Knoten geschätzt. Beispielsweise konnte man sich darauf einigen, im „Knoten“ der Kondition die Parameter 20-m-Sprint (20 m), Standweitsprung (SW), Liegestütz (LS) und den 6‑min-Lauf (6 min) anzulegen und dabei dem Parameter 20 m mit 100 % die höchste Priorität und LS mit 85 % die niedrigste Priorität zuzuordnen (siehe Abb. 9). Abschließend wurden noch die Präferenzen für die Parameter vergeben (Abb. 10) und Bewertungsfunktionen vereinbart (Abb. 11). Beispielsweise wurden Kinder nur „in die Wertung“ genommen, wenn unter der Annahme einer exponentiellen Zugehörigkeitsfunktion im Parameter 20-m-Sprint eine Leistung von schneller als 5 s erreicht wurde. Darüber hinaus wurde erst ein Ergebnis von besser als 4 s als ausreichend bewertet. Auf diese Weise gelingt es, auch linguistische Informationen, die eben durch Ungenauigkeiten gekennzeichnet sind, in berechenbare Problemstellungen umzuwandeln [8].

Abb. 9
figure 9

Diskursiv abgeleitetes hierarchisches und gewichtetes Strukturdiagramm für Spielsportarten

Abb. 10
figure 10

Normierung am Beispiel des Parameters BMI (Wunschwert: 16,65)

Abb. 11
figure 11

Bewertung am Beispiel des Parameters 20-m-Sprint. Es „interessiert“ praktisch erst eine Zeit unter 5 s, ab dann werden alle Varianten entsprechend einer exponentiellen Zugehörigkeitsfunktion bewertet. Ab einer Zeit von vier Sekunden wird die Leistung als ausreichend eingeschätzt, die Bewertung liegt bei 50 %. Die erreichten Sprintzeiten sind auf der x‑Achse sowohl als normierte Werte sowie – auszugsweise – auch als absolute Werte (von 7,08 s bis zu 3,1 s) aufgetragen

Mithilfe des Softwaresystems MAOE, das speziell zur Lösung von multikriteriellen Aufgaben entwickelt wurde, konnten daraus die notwendigen Informationen wie Gewichtungen, Kompensationsgrade, Schwellenwerte usw. ermittelt und mit den vorgestellten Verfahren verifiziert und realisiert werden. So wurden acht Rangfolgen der Probanden hinsichtlich ihres Talents für die Spielsportarten bestimmt, die zu einer Gesamtrangfolge der mehr als 3500 untersuchten Schüler aggregiert wurden, Diese Vorgehensweise führte zu einer guten Differenzierung und Diskriminierung insbesondere im Bereich der „am meisten talentierten“ bzw. der „am wenigsten talentierten“ Kinder in den Spielsportarten (Abb. 12) – auch in Abgrenzung z. B. zur allgemeinen Fitness [37]. Ob die „am meisten talentierten Kinder“ nun aber ihr Potenzial langfristig tatsächlich ausschöpfen können und im Sport erfolgreich sein werden, hängt von vielen weiteren Einflussgrößen ab. Der (prognostische) Wert der ermittelten Rangfolge wird sich letztlich erst in der Zukunft zeigen. Die Bedeutung für zu treffende Förderentscheidungen ist dennoch im Spiegel der oftmals divergierenden Meinungen von Trainer*innen und Lehrer*innen bei der Zusammenfindung von Talentsichtungsgruppen unstrittig, da weder motorisch leistungsstarke noch motorisch leistungsschwache Kinder übersehen, sondern gleichermaßen mit unterschiedlichen Programmen gefördert werden sollten (zur Plausibilität der Rangfolge siehe [41]).

Abb. 12
figure 12

Differenzierung und Diskriminierung im Bereich der „am meisten talentierten“ (links) und der „am wenigsten talentierten“ Kinder (rechts) in den Spielsportarten

Fazit

Zusammenfassend ist festzuhalten, dass die in einem integrativen Team von Sportwissenschaftler*innen, Trainer*innen und Lehrer*innen erarbeiteten Annahmen respektive Hypothesen hinsichtlich der Bewertung von Merkmalsausprägungen im Programmsystem MAOE immer interaktiv angepasst und geprüft werden können. Expert*innen – und nicht nur im und aus dem Sport – haben damit die Möglichkeit, auf der Basis quantifizierter Ergebnisse subjektive Urteile zu modifizieren und damit neue, weiterführende Ergebnisse zu begründen. Auf diese Weise ist das hier beschriebene komplexe multikriterielle FUZZY-Vorgehen eine verlässliche und vielversprechende Methode zur Ergebnisgenerierung unter Unsicherheit: Die Untersuchenden treten in den Dialog mit der Lösung, sie können zielgerichtet in der „Pareto-Menge wandern“ bzw. Rangfolgen beurteilen. Insgesamt verdeutlichen Plausibilitätsbetrachtungen die Unterschiede in der subjektiven Einschätzung verschiedener Expert*innen und es lässt sich empirisch begründet über deren Vor- und Nachteile „streiten“, was in der Regel zu einem tieferen Verständnis der Problemsituation führt.

Die innovative Idee dieser Methodik ist das Zusammenführen der Resultate verschiedenartiger, an sich bekannter Entscheidungsmodelle, bei einer sehr benutzerfreundlichen Einbindung unterschiedlicher Informationen von Experten. Die Vorgehensweise ist allgemein auf alle MADM-Probleme anwendbar. Die entwickelte Software MAOE [12] gestattet ein effektives und schnelles, interaktives Arbeiten zur Berechnung von Gesamtrangfolgen und deren differenzierte Auswertung, was bei der Komplexität und dem Umfang der notwendigen Daten einen theoretisch-inhaltlichen und praktisch relevanten Mehrwert hat.