1 Einleitung

Der vorliegende Beitrag betrachtet aus der Sicht eines Praktikers die Zielsetzungen und Probleme der Evaluation medizinischer Forschung und der hierauf basierenden Leistungsorientierten Mittelvergabe (LOM) bzw. der Indikatorgestützten Mittelallokation (IMA). Nach einer allgemeinen Einführung ins Thema stellt er, insbesondere unter Bezugnahme auf eine aktuelle Stellungnahme der Deutschen Forschungsgemeinschaft (DFG), methodische Probleme der Publikationsbewertung als eines zentralen Leistungsindikators und unerwünschte Effekte bibliometrisch definierter Anreiz- und Steuerungssysteme dar. In einem Exkurs wird dabei auch auf die durch extrinsische Incentivierungen erzeugten Interessenkonflikte und ihre potenziell schädlichen Effekte auf das Wissenschaftssystem eingegangen. Im zweiten Teil werden Probleme aktueller Anreiz- und Incentivierungssysteme im spezifischen Kontext medizinischer Forschung skizziert. Er geht aus von einem vom Autor federführend mitverfassten Positionspapier der Arbeitsgemeinschaft Wissenschaftlicher Medizinischer Fachgesellschaften (AWMF) hervor und bezieht Befunde des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts QuaMedFo, die im vorliegenden Sammelband zusammengetragen werden, sowie eine aktuelle Stellungnahme des Medizinischen Fakultätentags (MFT) mit ein. Dabei werden sowohl Besonderheiten der Bewertung medizinischer Publikationen, etwa klinischer Leitlinien als auch mögliche Indikatoren diskutiert, die sich auf Aspekte von Wissenstransfer und Drittmitteleinwerbungen stützen, hinsichtlich Aussagekraft und möglicher Steuerungswirkung erörtert. Abschließend werden Anregungen für eine Weiterentwicklung wissenschaftsadäquater und multidimensionaler Evaluations- und Anreizsysteme formuliert.

2 Leistungsbewertung und Incentivierung medizinischer Forschung

Die Bewertung wissenschaftlicher Leistung in der Medizin verfolgt unterschiedliche Zielsetzungen: Sie dient der nachträglichen Überprüfung des zweckmäßigen Einsatzes öffentlicher Forschungsmittel, der prospektiven Entscheidung über die Förderung von Forschungsprojekten oder über strategische Schwerpunktsetzungen an Forschungseinrichtungen sowie dem Auswahlprozess für akademische Positionen. Sie ergänzt idealtypischerweise die in der Regel hohe intrinsische Motivation der Forschenden durch externes Feedback und ggfs. durch hierauf basierende materielle Anreize, etwa im Rahmen der LOM bzw. IMA (Medizinischer Fakultätentag, 2022).

Sie wendet dabei derzeit vorwiegend eine ursprünglich aus den Naturwissenschaften bzw. der Ökonomie stammende Methodik auf wissenschaftliche Prozesse und Ergebnisse an, was vielfach kritisiert wurde. So spricht Binswanger (2011) von einem künstlichen Wettbewerb ohne Markt. Typische Merkmale von Märkten wie z. B. Transparenz und eine klare Preisbildung fehlen aber in der Forschung. Anders als in der Ökonomie, in der es um Profitmaximierung einzelner Akteure geht, ist Wissenschaft zudem geprägt durch die Produktion öffentlicher Güter und durch eine grundlegende Ungewissheit bzgl. der Ergebnisse (Osterloh et al., 2015). Binswanger (2015) verweist auf den durch Evaluationen und Incentivierungen erzeugten Publikationsdruck sowie die hierdurch erzeugten Fehlanreize, möglichst vieles aber ggfs. Unsinniges zu publizieren. So werde es immer schwieriger, in der wachsenden Masse an Publikationen wirklich relevante Arbeiten zu identifizieren.

Die LOM spielt mittlerweile trotz dieser mahnenden Worte eine feste Rolle in der Ressourcenallokation an medizinischen Fakultäten. Dabei ist bemerkenswert, dass die damals vorgeschlagenen Indikatoren, die von der Deutschen Forschungsgemeinschaft (Deutsche Forschungsgemeinschaft, 2004) explizit einfach gewählt wurden und nicht als Patentrezepte verstanden werden sollten, noch nach fast 20 Jahren als quasi Fixgrößen der Evaluation betrachtet werden. Dabei war von der DFG intendiert worden, sie als lediglich vorläufige Indikatoren für einen Prozess zur Entwicklung besser geeigneter Metriken zur Diskussion zu stellen. Dass an der damaligen DFG-Empfehlung bis heute weitgehend festgehalten wird, verwundert umso mehr als völlig ungewiss ist, ob eine hierauf basierende LOM überhaupt die Qualität und Effizienz medizinischer Forschung erhöht (Krempkow et al., 2013), zumal auch unerwünschte Effekte der einseitigen Betonung von Journal Impact Factor (JIF) und Drittmitteleinwerbungen in der DFG-Empfehlung von 2004 bereits seit längerem bekannt sind und selbst von der DFG mittlerweile kritisch konstatiert werden (Deutsche Forschungsgemeinschaft | AG Publikationswesen, 2022).

Vor diesem Hintergrund steht eine verantwortungsvolle Wissenschaftsbewertung, wie sie in diesem Zusammenhang von der Deutschen Forschungsgemeinschaft (2022) aktuell gefordert wird, vor mehreren grundsätzlichen Fragen:

  1. 1.

    Kann die Qualität der Forschung überhaupt durch quantitative Indikatoren bewertet werden?

  2. 2.

    Wenn quantifizierende Metriken herangezogen werden sollen, worauf ist hierbei zu achten? Und:

  3. 3.

    Welche Effekte ergeben sich aus den hierauf aufbauenden Anreizsystemen?

Diesen Fragen wird im Weiteren zunächst nachgegangen.

3 Einige methodische Probleme der Publikationsbewertung

Die Deutsche Forschungsgemeinschaft (2022) weist darauf hin, dass es kein eigentliches Ziel wissenschaftlichen Publizierens sei, eine Begutachtungsgrundlage für Zuwendungs- und Personalfinanzierungssysteme zu schaffen. Eigentliche Ziele des wissenschaftlichen Publizierens seien vielmehr die Bekanntmachung, Qualitätssicherung, Dokumentation und Zuschreibung von Urheberschaft. Insofern handelt es sich bei einer Verwendung von Publikationen für Evaluationszwecke um eine Zweckentfremdung.

Die etablierten Metriken sind aus Sicht der DFG in Bezug auf das zu vermittelnde Bild der Wirkung von Forschung unvollständig, da sie völlig von den konkreten Inhalten abstrahierten. Die Bewertung von Publikationen nach der Reputation des Verlags oder dem Impact-Faktor einer Zeitschrift könne sogar gänzlich ohne deren inhaltliche Rezeption erfolgen.

Oft bestünden übertriebene Erwartungen an die Aussagekraft, Gerechtigkeit und Objektivität bibliometrischer Indikatoren. Diese seien aber leicht zu manipulieren. Die Zahl der Zitationen einer Publikation deute zudem nicht automatisch auf ihre Güte hin, sondern sei durch diverse konfundierende Variablen wie Zugänglichkeit und Länge der Publikation, Artikeltyp, Autorennamen, fachspezifische Publikations- und Diskussionskulturen etc. beeinflusst. Der Journal Impact Factor „erbe“ die Probleme der zitationsbasierten Publikationsbewertung und bilde zudem als Mittelwert die breite Streuung der Zitation einzelner Artikel aus derselben Zeitschrift nicht ab.

Wie bei allen Kennzahlsystemen drohe auch bei bibliometrischen Indikatoren das Maß zum Ziel zu werden, insbesondere wenn sie als Grundlage von Zuwendungssystemen eingesetzt würden. Wenn aber eine Metrik zum Ziel werde, höre sie auf, eine gute Metrik zu sein.

Schließlich gebe es Fachgebiete, die sich grundsätzlich nicht zur Verwendung von Metriken zum Vergleich ihres wissenschaftlichen Outputs eigneten, etwa hochkollaborative Forschungsfelder wie z. B. die Epidemiologie. Metriken eigneten sich auch nicht für Vergleiche über Wissenschaftsgebiete hinweg und sollten hier nicht zum Einsatz kommen.

Kritisch befassen sich die Autor*innen des DFG-Papiers mit der Rolle kommerzieller Anbieter von Metriken und Publikationsplattformen. Sie beobachten Monopolisierungstendenzen auf dem wissenschaftlichen Publikations-, Datenbanken- und Softwaremarkt. Hingewiesen wird auf das Bias, das durch elektronische Literatur-Suchsysteme zwangsläufig erzeugt wird, deren Nutzung freilich angesichts der Publikationsflut zwangsläufig erforderlich ist. Neben der Bindung an digitale Tools eines Anbieters können Wissenschaftler*innen Eingriffen in ihre informationelle Selbstbestimmung durch die Anbieter von Forschungs- bzw. Publikationsdienstleistungen ausgesetzt sein. Die Steuerung der Wissenschaft durch von kommerziellen Anbietern erhobene Daten könne daher grundsätzlich kritisch gesehen werden (Deutsche Forschungsgemeinschaft | AG Publikationswesen, 2022).

Angesichts der erheblichen methodischen Probleme der quantifizierenden Wissenschaftsbewertung entlang der derzeit geläufigen Metriken haben zahlreiche internationale Verbände und Organisationen, etwa im Rahmen der San Francisco Declaration on Research Assessment aus dem Jahr 2012,Footnote 1 in den letzten Jahren das vorherrschende Evaluationssystem als ungeeignet kritisiert. Neben den methodischen Mängeln spielen für diese Einschätzung die resultierenden negativen Steuerungseffekte eine entscheidende Rolle. So wird der Ruf nach einer verantwortungsvollen, also wissenschaftsadäquaten und gesellschaftlich zielführenden Wissenschaftsbewertung und einer Reform der hierauf basierenden Anreizsysteme zunehmend lauter.

4 Unerwünschte Wirkungen bibliometrisch definierter Anreiz- und Steuerungssysteme

Negative Konsequenzen der LOM und anderer auf quantifizierenden Metriken basierenden Anreizsysteme und Entscheidungskulturen, etwa im Rahmen von Karriereentscheidungen und Förderprogrammen, werden seit vielen Jahren kritisch kommentiert. Die Deutsche Forschungsgemeinschaft (2022) benennt hierzu aktuell eine Reihe problematischer Punkte, die sich wie folgt zusammenfassen lassen:

Auf der Ebene von Individuen liefen die Anreize den Standards guter wissenschaftlicher Praxis zuwider, indem sie u. a. die Strategie begünstigten, Manuskripte wiederholt bei Fachjournalen abgestufter Reputation (insbes. nach Journal Impact Factor) einzureichen und damit lange Verzögerungen durch deren Begutachtungs- und Entscheidungsprozesse in Kauf zu nehmen. Forschende würden zur Aufspaltung von Veröffentlichungen in kleinstmögliche Einzelpublikationen und zur Mehrfachpublikation identischer Ergebnisse (mit zunehmender Informationsüberflutung der Rezipient*innen) verführt. Die Marktlogik der Anreizsysteme erzeuge die Gefahr, dass Fragestellung und Dateninterpretation hinsichtlich erwünschter oder erwartbarer Ergebnisse verzerrt und weniger „vermarktungsfähige“ Hypothesen ausgeschlossen würden. Wissenschaftler*innen würden verleitet, dem Mainstream zu folgen, abweichende Meinungen zu unterschlagen, unerwünschte Messwerte wegzulassen oder sogar passende zu erfinden. Auch Selbstzitationen und die Vergabe oder Einforderung von Autor*innenpositionen richte sich neben inhaltlichen Gesichtspunkten zunehmend am Evaluationssystem aus. Insgesamt entstehe der Eindruck, dass sich unter dem Einfluss wirkmächtiger Sachzwänge und Anreize das Publikationswesen auf eine an Surrogaten statt an Inhalten orientierte Wissenschaftsbewertung ausrichte. Die durch bibliometrisch gestützte Wissenschaftsbewertung gesetzten Anreize seien insofern problematisch und könnten eine wissenschaftsadäquate Entwicklung des Publikationswesens und des Wissenschaftssystems insgesamt verhindern.

Wissenschaftler*innen, die der Kennzahlen-orientierten Logik nicht folgten, gerieten rasch ins Hintertreffen, ggfs. einschließlich der von ihnen geleiteten Einrichtungen bzw. der ihnen anvertrauten Nachwuchswissenschaftler*innen (Deutsche Forschungsgemeinschaft | AG Publikationswesen, 2022).

Hieraus resultieren – nicht nur aus Sicht der DFG – mehrere relevante systemische Folgeprobleme:

Zu nennen ist hier zum einen die vielfach beklagte Replikationskrise in den Lebenswissenschaften (z. B. Begley und Ioannidis 2015), zumal das Bewertungssystem zu wenige Anreize setzt, negative Studienergebnisse zu publizieren (mit der Folge eines publication bias) oder Replikationsstudien (mangels „Originalität“, Förderung und erwartbarer „Belohnung“) auch nur durchzuführen. So schätzen Chalmers und Glasziou (2009), dass mehr als 85 % der weltweiten biomedizinischen Forschungsmittel verschwendet sein könnten, indem irrelevante Fragestellungen untersucht, die vorhandene Evidenz nicht angemessen bei der Studienplanung berücksichtigt, ungeeignete Methoden eingesetzt, Protokolle nicht ausreichend beschrieben, Forschungsergebnisse nicht oder unvollständig publiziert sowie Ergebnisse nicht zutreffend interpretiert und in den Kontext der vorhandenen Literatur eingeordnet werden.

5 Exkurs: Anreizsysteme und Interessenkonflikte im Publikationswesen

Indem quantifizierende Anreizsysteme in den meisten Fällen sekundäre Interessen der Forschenden nach Reputation oder finanziellen Vorteilen bedienen, geraten sie in Konflikt mit primären Erkenntnisinteressen und führen somit zu Interessenkonflikten, deren Bedeutung im Kontext industrieller Zuwendungen an die Wissenschaft breit diskutiert wird (z. B. AWMF, 2017; ICMJE, 2021),Footnote 2 da naheliegt und empirisch gezeigt werden konnte, dass solche Interessenkonflikte auch die publizierten Forschungsergebnisse substanziell beeinflussen können (Lundh et al., 2017). Vor diesem Hintergrund ist es erstaunlich, dass Interessenkonflikte und ihre Auswirkungen im Kontext staatlicher und universitärer Anreizsysteme für die Forschung aber nach wie vor kaum explizit problematisiert werden.

Dabei lassen sich die etwa von der Deutschen Forschungsgemeinschaft (2022) konstatierten Nebenwirkungen bibliometrisch begründeter Anreizsysteme im Wissenschafts- und Publikationssystem zu großen Teilen über die hierdurch erzeugten Interessenkonflikte erklären.

Probleme durch Predatory Publishing und predatory-like Journals

Eine Fehlentwicklung stellen die von der DFG zurecht verurteilten Raubveröffentlichungen („predatory publishing“; Moher et al., 2017; Gallent Torres 2022) dar. Hier zeigt sich auch eine Kehrseite der grundsätzlich im Interesse der Forschungstransparenz zu begrüßenden Open-Access-Bewegung:

In klassischen subskriptionsbasierten Journalen werben primär Forschende mit möglichst relevanten und methodisch anspruchsvollen Forschungsarbeiten um die Akzeptanz ihrer Arbeiten durch kritische Gutachter*innen. Da die Herausgeber*innen nur begrenzten Raum für Publikationen zur Verfügung haben, mit denen sie ihrerseits um Leser*innen bzw. Abonnent*innen werben, führt die Begutachtung zu einer – wenn auch wie unten dargelegt methodisch fragwürdigen – „Besten-Auslese“. Dagegen werben Open-Access-Journale mit finanziellem Eigeninteresse und teilweise sehr massiv um Forschungsbeiträge, die dann nach Stückzahl zu bezahlen sind. Bei grundsätzlich nicht begrenzten Online-Publikationsmöglichkeiten legen finanzielle Interessen von Verlagen auf der einen und durch quantifizierende Evaluationen auf Autor*innen einwirkende Anreize auf der anderen Seite eine weniger strenge Auswahl zu publizierender Artikel und die Veröffentlichung möglichst vieler – ggfs. auch qualitativ weniger guter – Artikel nahe. Diese Kollusion kommt im Sinne einer Win–Win-Situation sowohl den materiellen Interessen der Verlage als auch den sekundären Interessen der Autor*innen entgegen.

Dies betrifft nicht ausschließlich und möglicherweise nicht einmal in erster Linie die ganz offensichtlichen Raubjournale, sondern zunehmend auch im Grunde seriöse Open-Access-Journale, die etwa über die zunehmende Herausgabe thematischer Special Issues (Amrein, 2022) gegen Zahlung relativ hoher Publikationsgebühren eine sehr hohe Annahmewahrscheinlichkeit und zugleich einen in der LOM honorierten respektablen Impact-Faktor bieten. Die Aufnahme des Publikationsportals Frontiers in eine verbreitete Liste potenzieller RaubverlageFootnote 3 führte zu einer kontroversen Debatte über diese Art des Publizierens.Footnote 4 Diese Debatte wurde u. a. in Nature geführt, deren Verlag auch Frontiers herausgibt und somit auch in der Debatte nicht frei von Interessenkonflikten ist. Einem weiteren in der Diskussion befindlichen Portal (MDPI) wurden in einer aktuellen Untersuchung (Oviedo-García, 2021) auch empirisch Merkmale des Predatory Publishing bescheinigt.

Auch der klassische Peer-Review-Prozess anerkannter wissenschaftlicher Journale ist nur bedingt in der Lage, wissenschaftliche Qualität zu bewerten. So zeigt sich immer wieder die sehr niedrige Interrater-Reliabilität von Artikelbewertungen durch Reviewer (Walker & Rocha da Silva, 2015). Gutachtenden gelingt es nicht immer, gefälschte oder erfundene Ergebnisse im Begutachtungsprozess zu identifizieren, was selbst in Spitzenjournalen immer wieder zu Retraktionen bereits publizierter Artikel führt. Auch hier spielen letztlich Interessenkonflikte unterschiedlicher Art eine gewisse Rolle, denn auch die Gutachtenden sind nicht frei von Eigeninteressen und Voreingenommenheiten, was zu Verzerrungen von Bewertungen oder zur Aufforderung zur Zitation eigener Werke in den begutachteten Artikeln führen kann. Faktisch besteht ein Interessenkonflikt allein schon darin, dass die i. d. R. kostenlos zu erstellenden Gutachten mit der Arbeit an eigenen Forschungsprojekten um begrenzte Zeitressourcen konkurrieren und so nicht immer die notwendige Sorgfalt erfahren. Auch betrügerische Begutachtungen durch die Autor*innen selbst, die sich unter Pseudonymen und mit teilweise gefälschten E-Mail-Adressen den Herausgeber*innen von Fachzeitschriften als Gutachtende empfahlen und dann für die Annahme ihrer Beiträge plädierten, wurden wiederholt beschrieben (Ferguson et al., 2014). Die Deutsche Forschungsgemeinschaft (2022) verweist zudem auf sogenannte „paper mills“, Netzwerke wissenschaftlich erfahrener Ghostwriter, die gegen Bezahlung Fake-Artikel verfassen. Diese reichen Wissenschaftler*innen dann unter eigenem Namen bei durchaus seriösen Journalen ein, wo sie z. T. erst nach Publikation als Fälschungen erkannt werden und teilweise zu regelrechten Retraktionswellen geführt haben.

6 Besonderheiten der Forschungsevaluation in der Medizin

Die genannten Probleme mit quantifizierenden Evaluationen erlangen insbesondere in der Medizin eine problematische Bedeutung, wenn sie, wie von der DFG konstatiert, Anreize gegen die gute wissenschaftliche Praxis setzen und damit den medizinischen Fortschritt und letztlich die Gesundheit von Menschen beeinträchtigen.

Die Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) hat daher bereits 2014 in einem Positionspapier die gängige Evaluationspraxis medizinischer Forschung kritisiert, da sie u. a. vielfach auf unklaren Zielvorstellungen basiere und so zu Fehlsteuerungen führen könne (Herrmann-Lingen et al., 2014).

Der wichtigste Parameter der Evaluation medizinischer Forschung sei letztlich die Bedeutung von Forschungsleistungen für die Weiterentwicklung der wissenschaftlichen Medizin bzw. eines spezifischen medizinischen Fachgebiets.

Hervorgehoben wird die Bedeutung einer a priori klar kommunizierten Zielsetzung der Bewertung und der aus ihr resultierenden Konsequenzen, die auch über die Art, Intensität und Häufigkeiten der Evaluationen entscheiden müsse.

Neben qualitativen, also inhaltlichen Bewertungen einzelner Forschungsbeiträge oder ganzer Forschungsprojekte bzw. Institutionen durch z. B. informierte Peer-Review-Verfahren können aus Sicht der AWMF quantifizierende Bewertungen vor allem im Rahmen formativer Evaluationen und nur unter bestimmten Voraussetzungen auch im Rahmen summativer Evaluationen eingesetzt werden.

Die unterschiedlichen Aspekte medizinischer Forschungsleistung erforderten dabei ein mehrdimensionales Vorgehen und ein ausreichend breites Indikatorenspektrum.

7 Impact medizinischer Forschung: Mehr als der Journal Impact Factor

Insbesondere der Aspekt des Impacts medizinischer Forschungsleistung muss hier deutlich weiter gefasst werden als die vorherrschende Bewertung von Zeitschriftenaufsätzen anhand des Journal Impact Factors der jeweiligen Zeitschrift. So sollten auch Publikationsformate jenseits der Zeitschriftenpublikation Berücksichtigung finden.

Aman kann allerdings in diesem Band zeigen, dass – mutmaßlich unter dem Einfluss der LOM – die Zahl und der relative Anteil der Journalbeiträge gegenüber anderen Publikationsformen an den untersuchten Pilotfakultäten über die Jahre zugenommen hat. Dies dürfte mutmaßlich zur Benachteiligung solcher medizinischen Fächer beitragen, die klassischerweise auch oder sogar überwiegend in anderen Formaten (etwa Buchbeiträgen oder Monographien) publizieren. Bei seit Einführung der LOM insgesamt geringerer (oder fehlender) Bewertung dieser Formate nimmt ihr relativer Wert in der LOM-Logik weiter ab, wenn bei gedeckelten LOM-Mitteln immer mehr Journalpublikationen den Gegenwert der einzelnen Publikation sinken lassen, was schwerlich ohne Qualitätsverlust durch eine (quantitative) Produktivitätssteigerung bei der Verfassung von Monographien kompensiert werden kann. Fächerunterschiede konnte Aman (in diesem Band) auch hinsichtlich der Rezeption von Forschungsarbeiten belegen, was der seit Jahren u. a. von der AWMF geforderten Berücksichtigung einer Feldnormierung für die quantifizierende Publikationsbewertung Nachdruck verleiht.

Publikationen sollten aus Sicht der AWMF nicht nur auf der Basis ihrer Zitationen durch Zeitschriftenartikel, sondern z. B. auch auf Grundlage ihres tatsächlichen Einflusses auf die klinische Medizin bewertet werden. So kann etwa die Zitation durch hochwertige medizinische Leitlinien als Maß für den Transfer in die medizinische Anwendung berücksichtigt werden.

Im Rahmen des QuaMedFo-Projekts, das auch diesem Sammelband zugrunde liegt (Biesenbender in diesem Band) konnten Traylor und Herrmann-Lingen (2023) kürzlich zeigen, dass die Zitation durch deutsche Leitlinien der höchsten Entwicklungsstufen S2e und S3 weder hinsichtlich des Zeitfensters, dem die zitierten Arbeiten entstammen noch hinsichtlich der Zitationshäufigkeit bestimmter Journale der Logik des Journal Impact Factors folgt und somit als weitgehend von diesem unabhängiger Indikator zu werten ist. Die Fallstudie von Traylor und Aman (in diesem Band) erweitert diese Analysen, indem sie auf Artikelebene zeigt, dass die Zitation durch zwei exemplarisch ausgewählte Leitlinien beim Vergleich mit anderen jeweils im selben Journal und Jahr publizierten Artikeln mit einer deutlich und signifikant überdurchschnittlichen Zitationszahl durch andere Journalbeiträge einhergeht, was ebenfalls unterstreicht, dass nicht der JIF eines Journals, sondern die Resonanz einzelner Forschungsarbeiten entscheidend für ihren Impact in der Praxis ist.

Aber auch andere Beiträge zum Praxistransfer wie z. B. die Ausrichtung von Fachtagungen und industrieunabhängigen Fortbildungsveranstaltungen oder die Publikation von Lehrbüchern sollten aus Sicht der AWMF als Leistungsmerkmale bewertet werden. Zu berücksichtigen sind ferner Aufgaben in der Steuerung bzw. Selbstverwaltung der Wissenschaft, ihrer Organisationen und Fachgesellschaften sowie das Engagement in der Nachwuchsförderung.

8 Drittmittel als Indikatoren

Bei der Bewertung von Drittmitteln sind laut AWMF neben der Fördersumme das Vorhandensein eines kompetitiven Ausschreibungsverfahren und der aus der Förderung resultierende wissenschaftliche Output zu berücksichtigen.

Unklar bleibt freilich erstens, wie das Drittmittelaufkommen am sinnvollsten in die Evaluation einfließen kann. Wie Hartstein (in diesem Band) ausführt, stellt schon eine einheitliche Verfügbarkeit geeigneter Drittmitteldaten an den Fakultäten eine Herausforderung dar.

Zweitens ist eine Analyse des Zusammenhangs zwischen Personal-„Input“ und Publikations-Output auf die Verfügbarkeit ausreichend differenzierter Angaben zum wissenschaftlichen Personal angewiesen, was an medizinischen Fakultäten zu Problemen führen kann, wenn im Rahmen des Integrationsmodells nicht eindeutig zwischen wissenschaftlichem und klinischem Personal unterschieden werden kann.

Drittens zeigt sich, dass es zwischen den Fächergruppen signifikante Unterschiede im Zusammenhang zwischen der Zahl der Personalstellen und den Drittmittelausgaben gibt. Hierfür könnten u. a. unterschiedliche faktische Belastungen des wissenschaftlichen Personals durch Lehre und Krankenversorgung eine Rolle spielen: So kann einerseits wissenschaftliches Personal in unterschiedlichem Umfang in der Krankenversorgung gebunden sein, andererseits kann gerade in großen Kliniken das klinische Personal durch (quasi nebenberufliche) Beteiligung an Forschung und Lehre das im engeren Sinne wissenschaftliche Personal unterstützen bzw. von Lehraufgaben entlasten.

Und viertens können die Prämissen klassischer Input–Output-Analysen, etwa die Annahme linearer Zusammenhänge, in komplexen rückgekoppelten Systemen wie sie der dynamischen Realität medizinischer Einrichtungen und ihrer Forschung entsprechen, durchaus infrage gestellt werden. Während Hartstein (in diesem Band) argumentiert, dass die moderate Korrelation zwischen Drittmittelausgaben und Drittmittelpersonal nahelegen könnte, bei der Betrachtung des Input-Output-Verhältnisses auf die Verwendung der Drittmittelausgaben als Input-Indikator zu verzichten, um eine zu komplexe Modellierung zu vermeiden, könnte dieser Ansatz zur Abbildung der realen Dynamiken unterkomplex erscheinen, wie die schematische Darstellung dieser Dynamiken in Abb. 1 dargestellt:

Abb. 1
figure 1

(Blaue Pfeile: Inputs; Violette Pfeile: Outputs. Zu erkennen sind mehrere z. T. überlappende Input–Output-Zirkel. Abkürzungen: DM = Drittmittel; F&L = Forschung und Lehre; IMA = Indikatorgestützte Mittelallokation; KV = Krankenversorgung)

Input-Output-Beziehungen in der medizinischen Forschung unter Zugrundelegung eines typischen Publikations- und Drittmittel-basierten IMA-Algorithmus.

Ein Großteil der verausgabten Drittmittel wird (als Input) für (Drittmittel-)Personal eingesetzt, das dann (als Output) seinerseits sowohl Publikationen verfassen als auch selbst Drittmittel einwerben kann. Da zudem die Drittmittelausgaben via LOM-/IMA-Algorithmus zur erhöhten Zuweisung von Planmitteln führen, nehmen sie als Inputvariable eine wichtige Rolle in einem rückgekoppelten System ein, in dem sich mehrere selbstverstärkende Kreislaufprozesse entwickeln:

Der primäre fakultäre Input in Form von Mittelzuweisungen für Forschung (und ggfs. Lehre) befähigt eine Einrichtung – beeinflusst durch die unter drittens genannten „Störeffekte“ durch das Engagement in Klinik und Lehre und abhängig von ihrer Effizienz in der Nutzung des basalen Inputs – Drittmittelanträge zu stellen (als Output), die bei Bewilligung nach kompetitivem Peer Review als qualifizierter Output anerkannt werden. Dies leuchtet ein, da hierfür u. a. (neben z. B. der Passung zu einem bestimmten Förderinteresse sowie Interessenkonflikten von Gutachtenden) die Qualität des Antrags eine Rolle spielt. Allerdings ist schon hier einschränkend zu erwähnen, dass insbesondere industrielle Drittmittelzuwendungen oft nicht als qualifizierter Output der universitären Einrichtung, sondern als Ausdruck des Eigeninteresses einer Firma zu werten sind und z. T. ja nicht einmal eine eigenständige Antragstellung als „Leistung“ voraussetzen, dennoch aber die Forschungsressourcen einer Einrichtung erhöhen.

Zugleich stellen die auf die Mittelbewilligung folgenden Prozesse, also die Bereitstellung bzw. Verausgabung der Drittmittel (insbesondere, aber keineswegs nur bei Industrie-Drittmitteln) in zweifacher Weise eine Input-Variable dar: Zum einen fließen sie in den LOM-/IMA-Algorithmus und vermittelt darüber in den Input für (mehr) Stammpersonal ein und zum anderen ermöglichen sie erst die Einstellung von drittmittelfinanziertem Personal, das dann – gute Effizienz vorausgesetzt – als Output wie oben angedeutet sowohl direkt neue Drittmittel einwerben als auch indirekt über Publikationen die LOM-Zuweisung erhöhen kann.

In diesen miteinander verbundenen Selbstverstärkungskreisen spielt jedes Element eine wichtige Rolle. Die Effizienz einer Einrichtung würde sich hier in einer umfassenderen Input–Output-Betrachtung als ein Durchschnittswert der wissenschaftlichen Arbeits-Effizienzen von Stamm- und Drittmittelpersonal (bereinigt um die o. g. Be- bzw. Entlastungsaspekte durch klinische Aufgaben bzw. klinisches Personal) ergeben. Nur gemeinsam können diese Prozesse das Geschehen an der Einrichtung angemessen abbilden. Insofern sollten zukünftig mathematische Modelle der Prozessevaluation entwickelt werden, die bei entsprechender Automatisierung eine sehr viel passgenauere Abbildung der Input–Output-Beziehungen ermöglichen würden als eine einfache Korrelationsanalyse, die insbesondere bei rein querschnittlicher Betrachtung keine hinreichende Differenzierung nach Ursache und Wirkung ermöglicht.

Geeignete Methoden sollten zudem entwickelt werden, um bei interdisziplinären Publikationen oder Mitteleinwerbungen sowohl dem individuellen Beitrag als auch der Gruppenleistung insgesamt (Mehrwert durch Vernetzung, Koordination etc.) Rechnung zu tragen (Herrmann-Lingen et al., 2014).

9 Einige Konsequenzen für Wissenschaft und Forschungsförderung

Die Frage, welche Maßstäbe letztlich in welchem Kontext für die Bewertung medizinischer Forschung in welchem Verhältnis zu gewichten sind, bleibt dabei von den verantwortlichen Akteuren auszuhandeln. Dabei ist wie schon 2014 von der AWMF auch in jüngerer Zeit vielfach betont worden, dass ein breiteres Indikatorenspektrum benötigt wird, das über Maße für Zeitschriftenartikel und Drittmitteleinwerbungen hinausgeht (European University Association, 2022; Medizinischer Fakultätentag, 2022). Hier können und sollten schon aus methodischen Gründen an die Evaluation einzelner Wissenschaftler*innen – etwa im Rahmen von Habilitations- und Berufungsverfahren – andere Kriterien angelegt werden als an die Bewertung ganzer Kliniken, Institute oder Fakultäten.

So könnten zur Evaluation von Einzelpersonen neben individuellen qualitativen Begutachtungen mit den genannten Limitationen auch quantitative Metriken wie Zitationen und kompetitive Drittmitteleinwerbungen benutzt werden. Ergänzt werden sollten sie aber je nach Fachgebiet um etwa die Mitwirkung an und Zitation durch hochwertige Leitlinien, die Anmeldung von Patenten, Aktivitäten zur Förderung der Transparenz in der Wissenschaft (durch z. B. Präregistrierung von Studien und Data Sharing) sowie die Herausgabe von Lehrbüchern oder Sammelbänden. Auch die Ausrichtung von wissenschaftlichen Fachtagungen oder industrieunabhängigen Fortbildungsveranstaltungen und die Mitwirkung in Editorial Boards seriöser Fachzeitschriften, in Fachkollegien oder Gutachtergremien bei Forschungsförderorganisationen oder in der Leitung von Fachgesellschaften sollten Berücksichtigung finden (Herrmann-Lingen et al., 2014). Zusätzlich erscheinen in jüngerer Zeit Aktivitäten zur Verbreitung wissenschaftlicher Erkenntnisse in sozialen Medien oder die Resonanz in diesen Medien als möglichen Indikatoren interessant. Wichtig ist aber die Klärung, wie diese Indikatoren für den praktischen Einsatz mit jeweils vertretbarem Aufwand gewonnen werden können.

Vor diesem Hintergrund erfolgten die Analysen des Projekts QuaMedFo unter Zugrundelegung eines weitgefassten Impact-Begriffs und in Verbindung mit Erwägungen der praktischen Machbarkeit und Anwendbarkeit in konkreten (Evaluations-)Kontexten. Vorschläge zur Berücksichtigung von Patenten machen Lippert und Förstner (in diesem Band) mit ihren Befunden zur automatisierten Zuordnung von Patentanmeldungen zu konkreten Wissenschaftler*innen. Sie legen nahe, dass eine automatisierte Autor*innen-Zuordnung von Patenten vor allem beim Vergleich über Einrichtungen hinweg von Nutzen sein dürfte, während die Zuordnung bei der Bewertung von Einzelpersonen – etwa im Rahmen von Qualifizierungs- oder Berufungsverfahren – ggfs. auch einfach über deren Eigenangaben vorgenommen werden kann. Lemke et al. (in diesem Band) untersuchen die Nutzbarkeit altmetrischer Indikatoren, wobei allerdings auch deren Limitationen deutlich werden. Grundsätzlich könnte ihr Angewiesensein auf große Publikationszahlen (Lemke et al. in diesem Band) zumindest dem Einsatz bei der Bewertung von Individuen im Wege stehen. Hier besteht weiterhin erheblicher Forschungsbedarf.

Während sich die genannten Indikatoren in kumulierter Form auch für die Evaluation von Institutionen eignen dürften, sollten hier zusätzlich stärker als bisher strukturelle Maßnahmen zur Förderung des (klinisch-)wissenschaftlichen Nachwuchses (etwa im Sinne von Forschungsfreistellungen für Nachwuchswissenschaftler*innen oder Clinician-Scientist-Programmen) und deren messbare Ergebnisse (z. B. Zahl erfolgreicher Promotionen und Habilitationen, Drittmitteleinwerbungen durch Nachwuchs-Wissenschaftler*innen) betrachtet werden (Herrmann-Lingen et al., 2014).

Dabei ist zu beachten, dass unterschiedliche Fächerkulturen und Belastungsprofile (etwa durch unterschiedlich ausgeprägte Verpflichtungen in Krankenversorgung und Lehre) auch zu einer differenzierten Bewertung der Evaluationsergebnisse und entsprechend angepassten Mittelzuweisungen führen müssen (Medizinischer Fakultätentag, 2022).

Die Deutsche Forschungsgemeinschaft (2022) fordert von der Wissenschaft, neue Formen der Qualitätsprüfung von Veröffentlichungen zu etablieren, zu nutzen und anzuerkennen sowie die Adressatenorientierung wissenschaftlichen Publizierens auszubauen. Den Forschungsförderorganisationen legt sie nahe, die inhaltliche Bewertung wissenschaftlichen Outputs in den Mittelpunkt zu stellen (Deutsche Forschungsgemeinschaft, 2022). Der Medizinische Fakultätentag schlägt vor, den irreführenden Begriff der „Leistungsorientierten Mittelvergabe“ (LOM) durch den passenderen Begriff der „Indikatorgestützten Mittelallokation“ (IMA) zu ersetzen, wobei die Fakultäten es noch stärker als ihre originäre Aufgabe wahrnehmen sollten, auf die Auswahl sachgerechter Indikatoren zu achten und diese transparent zu kommunizieren (Medizinischer Fakultätentag, 2022). Für die Auswahl geeigneter Indikatoren sollte das QuaMedFo-Projekt (Biesenbender in diesem Band), aus dem dieser Sammelband hervorgegangen ist, einige empirische Befunde bereitstellen.

Allerdings ist wie oben erwähnt nach wie vor nicht geklärt, inwieweit LOM oder IMA als Incentivierungsinstrumente überhaupt ein günstiges Wirkungs-Nebenwirkungsprofil aufweisen (Medizinischer Fakultätentag, 2022) oder ob angesichts der in der Regel hohen intrinsischen Motivation der Forschenden nicht viel stärker (wie auch von der DFG gefordert) auf die inhaltliche Rückmeldung zu den geleisteten wissenschaftlichen Arbeiten und weitere nicht-quantifizierende Aspekte der Reputationszuweisung gesetzt werden sollte. Auf Fakultätsebene könnte das u. a. bedeuten, die verbreitete Post-Hoc-Honorierung stärker auf eine antragsbasierte ex-ante-Förderung aussichtsreicher Forschungsansätze umzustellen.

Letztlich sind es dabei nicht die Zahlen, die zählen, sondern die Frage wie sehr eine medizinische Forschungsleistung tatsächlich zur Weiterentwicklung der Medizin im Allgemeinen und ihres gesellschaftlichen bzw. gesundheitlichen Nutzens beiträgt. Damit kann ihre Bewertung nicht ausschließlich wissenschaftlichen Peers überlassen bleiben, sondern es wäre unter Einbeziehung weiterer Stakeholder wie etwa Patient*innen-Vertretungen und anderer politischer Akteure auch ihr Impact in der medizinischen bzw. gesellschaftlichen Praxis zu ermitteln. Und es wären sowohl geeignete Instrumente zur Erhebung und Auswertung adäquater quantifizierender Metriken als auch neue und praxistaugliche Wege der qualitativen Wissenschaftsbewertung – und eine Kombination beider – zu entwickeln und zu testen, damit ein solches multidimensionales Bewertungssystem Eingang in die Praxis finden kann.