1 Einleitung und Einordnung

Die Leistung medizinischer Forschungseinrichtungen lässt sich nicht nur aus dem Blickwinkel des Publikationsoutputs, sondern auch aus dem Blickwinkel der wirtschaftlichen Verwertbarkeit betrachten und bewerten. Um die wirtschaftliche Verwertbarkeit von Forschung zu messen können insbesondere daraus hervorgegangene Patente betrachtet werden.

Diese Verknüpfung von wissenschaftlichen Publikationen und Patenten ist eine Möglichkeit die Verwertung des wissenschaftlichen Outputs und damit den Wissenstransfer aus der Forschung in die Wirtschaft sichtbar zu machen. Hierbei gilt jedoch zu beachten, dass eine Patentanmeldung keine Garantie für einen wirtschaftlichen Erfolg ist, noch spiegelt eine Patentanmeldung zwingend die Qualität der wissenschaftlichen Arbeit wider. So sind es vorwiegend technische Neuerungen oder Verfahren, welche patentiert werden können und nicht der wissenschaftliche Erkenntnisgewinn. Auch die Fachrichtung und speziell die Forschungsfrage spielen eine entscheidende Rolle bei der Patentierbarkeit von (Teil-)Ergebnissen. Das Ziel des Verbundprojekts QuaMedFo war die ganzheitliche Betrachtung von Forschungsleistung aus verschiedensten Blickwinkeln. Vor diesem Hintergrund beschäftigt sich der vorliegende Artikel mit der Weiterentwicklung von bestehenden Methoden zur Verknüpfung von Forschung und wirtschaftlicher Verwertung durch Betrachtung von Patentaktivitäten.

Der gängige Weg die beiden Textklassen Publikation und Patent in Beziehung zu bringen sind übereinstimmende Vor- und Nachnamen der Autorinnen und Autoren einerseits und der Erfinderinnen und Erfinder andererseits. Da die Vornamen in beiden Textklassen nicht zwingend ausgeschrieben werden müssen, bleibt als kleinster gemeinsamer Nenner nur das Schema Nachname, Initialen des/der Vornamen. Dadurch wird allerdings die Mehrdeutigkeit der Zuordnungen noch einmal deutlich erhöht. Vor allem bei nur einem oder zwei übereinstimmenden Namen gibt es deutlich mehr falsche als richtige Zuordnungen. Dieses Problem der Mehrdeutigkeit wurde bisher wie folgt angegangen:

  1. 1.

    Händische Verarbeitung und Prüfung: Ausgehend von Beschäftigtenlisten der einzelnen Einrichtungen (z. B. van Dongen et al., 2014) bis hin zur Erstellung von Patentdatenbanken mit Verknüpfung zu wissenschaftlichem Personal (z. B. KEINS Datenbank (Lissoni et al., 2008) werden die Publikations-Patent-Verknüpfungen händisch geprüft, z. B. mit Online-Befragungen oder persönlichem Kontakt (Dahlborg et al., 2013).

  2. 2.

    Maschinelle Verarbeitung: Bei großskaligen Untersuchungen müssen verschiedene weitere Unterscheidungsmerkmale aus den Metadaten der beiden Textklassen hinzugezogen werden. So verwenden Dornbusch und Neuhäusler (2015) z. B. einen bestimmten Zeitraum, in dem eine Publikation einem Patent zugeordnet werden darf und zusätzlich eine maximale geographische Distanz von 30 km zwischen wissenschaftlicher Einrichtung und Wohnort des Erfinders als Bestätigung eines gefundenen Publikations-Patent-Paares.

Im Rahmen des QuaMedFo-Projektes wurden zwei weitere Werkzeuge zur Verifizierung der Publikations-Patent-Paare entwickelt bzw. geprüft: Die Untersuchung der gemeinsamen Referenzen in beiden Textarten ist bereits in einem anderen Kontext erfolgreich angewendet worden (Gurulingappa et al., 2010) und konnte mit Erfolg auf diese Aufgabenstellung übertragen werden. Das zweite entwickelte Werkzeug ist der inhaltliche Vergleich der beiden Textarten. Die Untersuchungen zu den beiden Verifizierungsarten und Details zur Implementierung finden sich bei Lippert und Förstner (in Erarbeitung). Der vorliegende Artikel befasst sich nur mit einer der beiden Verifizierungsarten: dem inhaltlichen Vergleich der Texte und der Anwendung auf die drei Pilotfakultäten aus dem QuaMedFo-Projekt.

Der Artikel beginnt mit der Vorstellung der zugrunde liegenden Daten, gefolgt von der Beschreibung der Vorgehensweise sowie dem Ergebnis für die Pilotfakultäten und schließt mit einem Ausblick ab.

Die im Anschluss beschriebene methodische Vorgehensweise lasst sich zusammenfassen als:

  1. 1.

    verschiedene Entwicklungsstufen eines Patentes zu einer Patentfamilie zusammenfassen

  2. 2.

    Publikationen aus den Pilotfakultäten in der medizinischen Literaturdatenbank PubMed matchen

  3. 3.

    Mögliche Paare (Roh-Paare) von Publikationen und Patenten durch gleiche Autoren- bzw. Erfindernamen ermitteln

  4. 4.

    die in den Roh-Paaren enthaltenen Dokumente mit standardisiertem medizinischen Fachvokabular (genauer: MeSH-Ontologie) verschlagworten und die Inhalte der Dokumente anschließend in einen Vektorraum überführen.

  5. 5.

    Verifizierung und Ranking der gefundenen Roh-Paare mittels sogenannter Kosinus-Ähnlichkeit im Vektorraum

  6. 6.

    Filtern der gefundenen Paare mittels internationaler Patentklassen (IPC). Es werden nur Patente mit einer bestimmten Patentklasse anerkannt. Diese wurden statistisch ermittelt.

2 Datengrundlagen und -beschreibung

Als Datengrundlage dienten Publikationsdaten von drei Pilotfakultäten des Projektes aus den Jahren 2005 bis 2018. Die einzelnen Einrichtungen sind medizinischen Fachgruppen zugeordnet worden. Diese Fachgruppen sind in Abb. 1 jeweils links aufgelistet. Die gelieferten Daten sind durch die Pilotfakultäten zum Teil mehreren Einrichtungen (und somit mehreren Fachgruppen) zugeordnet, weil es sich entweder um Forschungskooperationen verschiedener Einrichtungen handelt oder weil die Zuordnung der Finanzierung der Autoren nicht eindeutig ist. Die dadurch entstehende Mehrdeutigkeit ist nicht auflösbar und muss bei der Interpretation der Ergebnisse berücksichtigt werden.

Abb. 1
figure 1

Patent-Einreichungen der Fachgruppen in die TOP 10 der Patentklassen für die drei Pilotfakultäten

Mittels des eindeutigen Bezeichners DOI (Digital Object Identifier) wurden die Publikationen mit dem PubMed-Datensatz verknüpft und somit stehen MeSH-Mainheadings für jeden Artikel zur Verfügung. Diese werden in Abschn. 3 erläutert.

Die Datengrundlage der Patente sind die frei verfügbaren Daten des europäischen Patentamts (EPO)Footnote 1 in der xml-RepräsentationFootnote 2 aus den Jahren 2007 bis 2020. Neben den Metadaten sind dort auch vollständige Beschreibungstexte in einer oder mehreren Sprachen (Englisch, Deutsch, Französisch) vorhanden.

Patentdokumente lassen sich grob in A- und B-Patente einteilen. Wobei A-Patente die Patentanträge sind und B-Patente bewilligte Patente. Eine auf diesen Buchstaben folgende Zahl legt den zeitlichen Ablauf der Einreichungen fest. Das erstmalig eingereichte Patent A1 muss zum Einreichungsdatum (engl. filing date) die sogenannte „Neuerungs-Klausel“ erfüllen, d. h. der zu patentierende Inhalt darf vorher nicht veröffentlicht worden sein. Daraus ergibt sich bei der Verknüpfung Publikation-Patent: Das Einreichungsdatum des Patents muss vor dem Veröffentlichungsdatum der Publikation liegen. An dieser Stelle wird der Argumentation von Dornbusch und Neuhäusler (2015) gefolgt und die Publikation darf zusätzlich maximal 1,5 Jahre nach der Patenteinreichung erfolgen. Die verschiedenen A- und B-Patente haben die gleichen Metadaten und können so als eine Patent-Familie zusammengefasst werden. Die enthaltenden Volltexte der Patentbeschreibung werden in diesen Familien zu einem Text zusammengefasst.

Das europäische Patentamt teilt Patente in die internationalen Patentklassen (IPC) ein, welche durch die Straßburg Vereinbarung von 1975 (Wikipedia, 2022) weltweit standardisiert sind. Ein Patent wird normalerweise mehreren (gleichwertigen) Patentklassen zugeordnet. Die dadurch entstehende Mehrdeutigkeit kann nicht aufgelöst werden und muss bei der Interpretation der Ergebnisse ebenfalls berücksichtigt werden.Footnote 3,Footnote 4 Dies geschieht durch die abschließende Filterung nach Patentklassen.

3 Verknüpfung von Patenten und Publikationen

Für die Verknüpfung der Patente und Publikationen wird nach gleichen Namen der Autoren und Erfinder gesucht. Die einzelnen Namen werden dazu, wie in der obigen Einleitung bereits erwähnt, auf die Form Nachname, Initialen des/der Vornamen vereinheitlicht. Untersuchungen von Milojevic (2013) zeigen die Gültigkeit dieser Vereinfachung.

4 Validierung mittels inhaltlichen Vergleichs der beiden Textklassen

Für den inhaltlichen Vergleich von Dokumenten aus den beiden Textklassen Publikation und Patente wird auf die’Medical Subject Headings’ (MeSH) (National Library of Medicine (US) (NLM), 2022) zurückgegriffen, welche einmal jährlich von der ’National Library of Medicine’ (NLM) in englischer Sprache herausgegeben werden. Dieser hierarchisch aufgebaute Thesaurus ermöglicht es medizinische Begriffe und ihre Synonyme auf einen einheitlichen Bezeichner zurückzuführen und somit den Inhalt eines medizinischen Textes zu beschreiben. Neben der englischen Version des MeSH werden in dieser Arbeit auch die offizielle deutsche (Deutsches Institut für Medizinische Dokumentation und Information (DIMDI), 2019) und die französische (Institut national de la santé et de la recherche médicale (INSERM), 2019) Übersetzung verwendet, weil bei den europäischen Patenten der EPO alle drei Sprachen äquivalent benutzt werden.

So werden aus den Volltexten der Patentbeschreibungen die MeSH-Terme mittels einer einfachen Wörterbuchsuche extrahiert und auf die englischen Hauptbegriffe zurückgeführt. Auf der Publikationsseite können die englischen MeSH-Hauptterme direkt den Metadaten des Datensatzes entnommen werden. So entsteht für jedes Dokument eine Liste von MeSH-Termen, welche den Inhalt beschreibt.

Durch die Verwendung des BERT-Base-Modells (Devlin et al., 2018) können diese Text-Kondensate in einem hochdimensionalen (dim = 300) Vektorraum abgebildet werden und die – per Namensvergleich – gefundenen rohen Patent-Publikations-Paare leicht mathematisch verglichen werden. Diese hochdimensionalen Vektoren (sog. „embeddings“) werden mithilfe der Kosinus-Ähnlichkeit verglichen: Der Wert liegt hierbei immer zwischen 0 und 1, wobei 1 übereinstimmende Dokumente sind und ein Wert von 0 keinerlei inhaltliche Übereinstimmung anzeigt. Untersuchungen mit größeren Datensätzen (Lippert und Förstner in Erarbeitung) haben gezeigt, dass Verknüpfungen mit drei oder mehr gleichen Namen eine hohe Kosinus-Ähnlichkeit (> ca. 0,7) aufweisen. Bei drei oder mehr gleichen Autoren- bzw. Erfindernamen wird also von einer Übereinstimmung ausgegangen und das Publikations-Patent-Paar als gültig angesehen. Der gefundene Schwellenwert wird auf die vorliegenden Daten übertragen.

Somit ist durch den beschriebenen inhaltlichen Vergleich mittels MeSH-Termen und ”word embeddings” ein Werkzeug gefunden, um die gefundenen Roh-Paare zu validieren.

5 Weiterer Filter: „medizinische“ Patentklassen

Die internationalen Patenklassen (IPC) umfassen alle Teilbereiche des menschlichen Lebens, welche patentiert werden können. Sehr viele davon sind für Patente, die aus medizinischer Forschung hervorgegangen sind, undenkbar. Das Vorgehen des Filterns mittels Patentklassen ist üblich und erfolgt durch manuelles Festlegen erlaubter Patentklassen (z. B. bei Dornbusch & Neuhäusler, 2015). Im Unterschied dazu konnten Lippert und Förstner (in Erarbeitung) zeigen, dass sich die Teilmenge der gesicherten medizinischen Patente statistisch von der Gesamtmenge der Patente in ihren IPC-Klassen unterscheidet. Gesicherte medizinische Patente ergeben sich, wenn z. B. eine Universität und/oder Universitätsklinik als Patentbesitzer eingetragen ist. Es wurden dadurch spezielle medizinische Patentklassen gefunden, welche als weitere Filteroption für die rohen Publikations-Patent-Paare verwendet werden.

6 Ergebnis und Diskussion

In Abb. 1 sind die Patenteinreichungen der einzelnen Fachgruppen der drei Pilotfakultäten in die TOP 10 der Patentklassen als absolute Zahlen dargestellt. Auf der linken Seite sind jeweils die einzelnen Fachgruppen zu sehen, auf der rechten Seite die Patentklassen, wobei sich hier auf Sektion, Klasse und Unterklasse beschränkt wurde. Eine Definition dieser Klassen findet sich in Tab. 1.

Tab. 1 Beschreibung der in Abb. 1 dargestellten Patent Klassen (IPC). nach: https://ipcpub.wipo.int

Wegen der oben beschriebenen Mehrdeutigkeiten sind keine quantitative Aussage und auch kein Vergleich der Pilotfakultäten möglich. Die Mehrdeutigkeit auf Publikationsseite durch mehrfache Zuordnung zu einzelnen Einrichtungen wäre durch eine genauere Datengrundlage aufzulösen. Für einen Vergleich der Pilotfakultäten untereinander benötigt es jedoch Daten zu den Größen der einzelnen Einrichtungen, um eine Normierung durchzuführen. Auf der Patentseite liegt die Mehrdeutigkeit in der Natur der Daten und ist somit nicht auflösbar: Ein Patent ist gleichberechtigt in mehreren Patengruppen vertreten.

Dennoch kann ein qualitativer Vergleich der Pilotfakultäten erfolgen, bei dem die unterschiedlichen Forschungsausrichtungen deutlich werden. Im Folgenden einige Beispiele:

Einreichungen in IPC A61P, C07K und G01N: während bei Pilotfakultät 1 die Innere Medizin und die theoretischen Fächer den Hauptanteil liefern, übernehmen bei Pilotfakultät 3 die weiteren klinischen Fächer den Part der theoretischen Fächer. Bei Pilotfakultät 2 sind die Unterschiede der Fachgruppen nicht so prägnant.

Einreichungen aus der Zahnmedizin: Nur in Pilotfakultät 1 und 2 wurden Patente aus dem Bereich der Zahnmedizin eingereicht. In beiden Fällen mit sehr geringer Anzahl.

7 Ausblick

Die im Rahmen dieses Teilprojektes entwickelte Datenverarbeitung (Lippert und Förstner in Erarbeitung) wurde auf die Daten der drei Pilotfakultäten des Projekts QuaMedFo angewandt. Die hierbei eingesetzte automatisierte statistische Einteilung in „erlaubte Patentklassen“ und der inhaltliche Vergleich beider Textklassen stellen sinnvolle Werkzeuge in der Bildung von validen Publikations-Patent-Paaren dar.

Auch wenn ein quantitativer Vergleich der drei Pilotfakultäten des Forschungstransfers in die Wirtschaft aufgrund der Datengrundlage nicht möglich war, stellen die Ergebnisse einen Mehrwert für Recherchen im medizinischen Bereich dar. Die validierten Verknüpfungen von Patenten und Publikationen dieser Piloteinrichtungen und perspektivisch für alle vorhandenen Datensätze sollen in Zukunft bei der Recherche über LIVIVO, das Suchportal für Lebenswissenschaften (Müller et al., 2017), einem breiten Publikum zur Verfügung gestellt werden. Damit wird jeder Nutzende u. a. befähigt Vergleiche auf verschiedenen Aggregationsebenen durchzuführen: angefangen bei Einzelpersonen, über einzelne Projekte und Fachgruppen, bis hin zu Instituten. Mit zusätzlichen Informationen, z. B. Personalschlüsseln, können auch universitätsübergreifend Vergleiche erstellt werden. Neben der Bewertung der allgemeinen wirtschaftlichen Verwertbarkeit auf den beschriebenen Aggregationsebenen, werden die zur Verfügung gestellten Ergebnisse durch die Information der Patentklassen Einblicke in die fachliche Ausrichtung aus Patent-technischer Sicht ermöglichen.