Skip to main content

Bausteine Semantischer Suche

  • Chapter
  • First Online:
Semantische Suche
  • 2132 Accesses

In diesem Kapitel werden vier unterschiedliche Klassen von Bausteinen für semantische Suchfunktionen vorgestellt. Die erste Klasse sind semantische Komponenten, die quasi als Add-on für konventionelle Suchfunktionen verwendet werden können und eine intelligente Vor- bzw. Nachverarbeitung von Suchanfragen resp. Suchergebnissen realisieren. Die zweite Klasse beschreibt Komponenten zur Aufbereitung von Dokumentinhalten, die dritte Klasse umfasst Komponenten der Anfragebearbeitung und die vierte und letzte Klasse umfasst Komponenten, die die Ergebnisdarstellung unterstützen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 39.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Hier mit SPARQL 1.1 Konstrukten realisiert. Das SPARQL 1.1 VALUES Keyword wird anschaulich beschrieben in: „SPARQL 1.1’s new VALUES keyword“, Bob DuCharme, 29.09.2012, 7 http://www.snee.com/bobdc.blog/2012/09/sparql-11s-new-values-keyword.html, letzter Aufruf 12.03.2020.

  2. 2.

    Unter 7 https://query.wikidata.org kann diese Anfrage direkt ausprobiert werden.

  3. 3.

    „20 of Google’s limits you may not know exist“, Patrick Stox, Search Engine Land, 06.09.2017, 7 https://searchengineland.com/20-googles-limits-may-not-know-exist-281387, letzter Aufruf 12.03.2020.

  4. 4.

    7 https://www.ubermetrics-technologies.com/de/, letzter Aufruf 12.03.2020.

  5. 5.

    Basierend auf einer Unternehmenspräsentation im Rahmen des Projekts Qurator und 7 https://www.ubermetrics-technologies.com/wp-content/uploads/Ubermetrics-Faktenblatt.pdf (Stand: 10.04.2020).

  6. 6.

    7 https://www.ubermetrics-technologies.com/de/blog/medienbeobachtung-mit-neuen-features-schneller-effektive-suchagenten-erstellen/ (Stand: 10.04.2020).

  7. 7.

    Abstrakt betrachtet, kann dies als die Ausgabe einer Suchmaschine zur Anfrage SAP betrachtet werden, die täglich die neuesten Stellenanzeigen durchsucht.

  8. 8.

    Zur Auswertung dieser „semantisch erweiterten regulären Ausdrücke“ wurde ein endlicher Automat entsprechend modifiziert.

  9. 9.

    ‚Fingerprinting.ipynb‘ im Github Repository 7 https://github.com/ThomasHoppe/Buch-Semantische-Suche.

  10. 10.

    7 https://deutschegrammatik20.de/wortbildung/fugenelemente/, letzter Aufruf 10.04.2020.

  11. 11.

    Natürlich ist heutzutage zu bezweifeln, ob eine Handelsschule allein für Mädchen überhaupt noch Sinn macht. Nichtsdestotrotz kann ein solcher Begriff immer mal wieder in historischen Dokumenten auftreten.

  12. 12.

    Ein sehr simpler Algorithmus, der nur drei Formen von Fugenelementen berücksichtigt und noch einige Schwächen hat, wird in 7 http://textmining.wp.hs-hannover.de/Korrektur.html#Ausflug:-Komposita-erkennen (letzter Aufruf 10.04.2020) beschrieben.

  13. 13.

    Um auch in solchen Fällen noch Korrekturvorschläge generieren zu können, könnten Bayes’sche Verfahren wie Hidden-Markow-Modelle (HMM), Künstliche Neuronale Netze wie Long-Short-Term-Memories (LSTM) oder N-Gramm-basierte Word Embeddings wie FastText verwendet werden, auf die einzugehen jedoch den Rahmen dieses Buchs sprengen würde.

  14. 14.

    Da hierbei die Schlagworte nicht aus einem kontrollierten Vokabular stammen, müssten wir korrekterweise eigentlich von „Verstichwortung“ sprechen.

  15. 15.

    Mit dem Grad der Genauigkeit ist hierbei die Genauigkeit der Annotation bezüglich der Beschreibung des Dokuments gemeint; mit dem Grad der Reproduzierbarkeit die Eindeutigkeit mit der die gleichen Schlagworte bei Verschlagwortung durch unterschiedliche Autoren bzw. bei wiederholter Verschlagwortung gewählt werden.

  16. 16.

    In 7 Abschn. 4.2.1 hatten wird den Begriff kontrolliertes Vokabular für eine einfache Form von Ontologie genutzt, die im Wesentlichen aus einer Menge von Begriffen besteht. Diese Menge von Begriffen können wir natürlich auch aus anderen Formen von Wissensmodellen ableiten. In einem erweiterten Sinn, stellt damit jedes Wissensmodell auch immer ein kontrolliertes Vokabular bereit.

  17. 17.

    Siehe hierzu auch (d’Aquin et al. 2011), S. 288.

  18. 18.

    7 https://www.berlin.de/polizei/polizeimeldungen/pressemitteilung.834177.php, letzter Aufruf 28.02.2020.

  19. 19.

    Auf die dargestellte Benutzeroberfläche kann unter 7 https://www.dbpedia-spotlight.org/demo/ zugegriffen werden. Eine REST-basierte Schnittstelle ist für DBpedia Spotlight ebenfalls verfügbar. Mit ihr sind die Ergebnisse in Form von XML oder JSON jedoch nicht so anschaulich darstellbar.

  20. 20.

    Dieser Annotator ist nur für englischsprachige Texte ausgelegt. Da mir bisher kein öffentlich zugänglicher, gleichwertiger Annotationsdienst für deutschsprachige Texte bekannt ist, greifen wir an dieser Stelle auf ein englischsprachiges Beispiel zurück.

  21. 21.

    Einige zusätzliche Felder zur Beschränkung der zu verwendenden Ontologie, der UMLS-Typen und der Tiefe der Annotationen werden aus Gründen der Platzersparnis nicht dargestellt.

  22. 22.

    Dokumentiert unter 7 http://data.bioontology.org/documentation#nav_annotator, letzter Aufruf 28.02.2020.

  23. 23.

    Vergleiche dies mit den Anforderungen an Wissensmodelle im Kontext semantischer Suche in 7 Abschn. 4.2.7.

  24. 24.

    Ober-/Unterbegriffsbeziehung können – je nach Wissensmodell – als logische Implikationen interpretiert werden, so dass ein Begriff auch all seine Oberbegriffe impliziert.

  25. 25.

    Auch andere Beziehungen zwischen Begriffen, wie ist_Symptom_von, ist_verwand_mit, arbeitet_in usw. können ebenfalls als logische Implikationen interpretiert werden.

  26. 26.

    7 https://www.dimdi.de/static/de/klassifikationen/icd/icd-10-who/kode-suche/htmlamtl2019/block-t08-t14.htm unter T14.0, letzter Aufruf 28.02.2020.

  27. 27.

    Hierdurch können die Beschränkungen von Morphologielexika bei der Lemmatisierung der im Deutschen häufig auftretenden und beliebig konstruierbaren Komposita teilweise umgangen werden (siehe die in 7 Abschn. 2.13.1.1 beschriebenen Nachteile von Morphologielexika).

  28. 28.

    (Jilek et al. 2018) beschreiben hierzu einen effizienten Erkennungsalgorithmus, der Präfix-Bäume sowohl auf Term-, als auch auf Termsequenz-Ebene verwendet. In (Hoppe et al. 2020) wurde dieser Algorithmus weiter vereinfacht.

  29. 29.

    Einen Trick, wie diese Gewichtungen allein über die Annotationen in die Relevanzbewertungen konventioneller Suchmaschinen einfließen können, werden wir in 7 Abschn. 6.4.3.5 kennen lernen.

  30. 30.

    Eine ausführlichere Diskussion der Problematik und von Ansätzen zur Disambiguierung auf der Basis semantischen Hintergrundwissens in Form von Ontologien findet sich in (Kleb 2012).

  31. 31.

    Die Menge aller Begriffe, die zu einem gegebenen Begriff in direkter Beziehung stehen. Diese illustrierende Bezeichnung geht auf Frauke Weichhardt von der Semtation GmbH zurück

  32. 32.

    Wenn überhaupt, dann nur über ein Unternehmen, das z. B. in der Sahel-Zone ansässig ist.

  33. 33.

    7 https://hds.hebis.de/hda/Search/Results?lookfor=semantic+search&trackSearchEvent=Einfache+Suche&type=allfields&search=new&submit=Suchen, besucht am 10.04.2020.

  34. 34.

    Die semantische Suche im Empolis Service Express beispielsweise verknüpft ausgewählte Facetten unterschiedlicher Begriffskategorien konjunktiv, während Facetten innerhalb einer Kategorie disjunktiv verknüpft werden. Dies ist zwar plausibel, eine Auswahl mehrerer Unterbegriffe einer Kategorie hingegen müsste, wenn überhaupt, wiederum konjunktiv verknüpft werden.

  35. 35.

    7 https://de.wikipedia.org/wiki/Gesundheits-_und_Krankenpfleger, letzter Aufruf 28.02.2020.

  36. 36.

    In einer realen Implementierung, die RDFa korrekt benutzt, müssten noch weitere zusätzliche Deklarationen erfolgen, z. B. dass es sich um den DOCTYPE XHTML+RDFa 1.0 handelt. Zweckmäßig wäre es auch, den Namensraum des verwendeten Vokabulars und ein Präfix dafür zu deklarieren und den in den typeof-Attributen verwendeten Konzepten dieses Präfix voranzustellen. Details hierzu können in (Lewis & Moscovitz 09) nachgelesen werden.

  37. 37.

    Diese könnten z.B. in anderen Weisen hervorgehoben werden.

  38. 38.

    Was natürlich nicht heißen soll, dass diese tolerierbar sind. Dennoch gilt: wo kein Kläger, da kein Richter.

  39. 39.

    Die Empolis Information Management GmbH hat dankenswerterweise den Zugriff auf ihr Demonstrationssystem Heavy Tools ermöglicht, dem dieser Bildschirmauszug entstammt.

Literatur

  • (d’Aquin et al. 2011) “Semantic Web Search Engines”, Mathieu d’Aquin, Li Ding, Enrico Motta, in: “Handbook of Semantic Web Technologies - Semantic Web Applications”, John Domingue, Dieter Fensel, James A. Hendler (eds.), Volume 2, Springer-Verlag, Berlin, Heidelberg, 2011.

    Google Scholar 

  • (Bast 2013) “Semantische Suche”, Hannah Bast, Informatik Spektrum, Vol. 36/2 (2013): 136–143, Springer Verlag 2013. https://link.springer.com/article/10.1007/s00287-013-0678-z (letzter Aufruf 10.4.2020)

  • (Beez et al. 2015), “Semantic AutoSuggest for Electronic Health Records”, Ulrich Beez, Bernhard G. Humm, Paul Walsh, in: Hamid R. Arabnia, Leonidas Deligiannidis, Quoc-Nam Tran (Hrsg.): “Proceedings of the 2015 International Conference on Computational Science and Computational Intelligence”. Las Vegas, Nevada, USA, 7–9 December 2015. IEEE Conference Publishing Services 2015. ISBN 978-1-4673-9795-7/15, DOI 10.1109/CSCI.2015.85

    Google Scholar 

  • (Ewert et al. 2000) “Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine”, Marc Ewert, Thomas Hoppe, Helmut Oertel, Oliver Kai Paulus, DE000010029644, https://depatisnet.dpma.de/DepatisNet/depatisnet?action=pdf&docid=DE000010029644B4 (letzter Aufruf 10.4.2020)

  • (Hoppe 2013) “Semantische Filterung – Ein Werkzeug zur Steigerung der Effizienz im Wissensmanagement”, Thomas Hoppe, Open Journal of Knowledge Management, Ausgabe VII/2013, http://www.community-of-knowledge.de/beitrag/semantische-filterung-ein-werkzeug-zur-steigerung-der-effizienz-im-wissensmanagement/ (letzter Aufruf 10.4.2020)

  • (Hoppe 2015) “Prinzip der Unwahrnehmbarkeit”, Thomas Hoppe, Rubrik: Zur Diskussion gestellt, Informatik Spektrum, Band 38, Heft 5, Oktober 2015.

    Google Scholar 

  • (Hoppe et al. 2020) “Ontology-based Entity Recognition”, Thomas Hoppe, Jamal Al Qundus, Silvio Peikert, http://ceur-ws.org/Vol-2535/paper_4.pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://ceur-ws.org/Vol-2535/), 2020.

  • (Horch et al. 2013), “Semantische Suchsysteme für das Internet”, Andrea Horch, Holger Kett, Anette Weisbecker, Fraunhofer IAO, Fraunhofer Verlag, 2013.

    Google Scholar 

  • (Humm 2020) “Fascinating with Open Data: openArtBrowser”, Bernhard G Humm, http://ceur-ws.org/Vol-2535/paper_2.pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://ceur-ws.org/Vol-2535/), 2020.

  • (Humm & Ossanloo 2018) “Domain-Specific Semantic Search Applications: Example SoftwareFinder”, Bernhard Humm, Hesam Ossanloo, in: “Semantic Applications”, Thomas Hoppe, Bernhard Humm, Anatol Reibold (Hrsg.), Springer-Vieweg, 2018.

    Google Scholar 

  • (Jilek et al. 2018) “Inflection-Tolerant Ontology-Based Named Entity Recognition for Real-Time Applications”, Christian Jilek, Markus Schröder, Rudolf Novik, Sven Schwarz, Heiko Maus, Andreas Dengel, 2nd Conference on Language, Data and Knowledge (LDK 2019), OpenAccess Series in Informatics (OASIcs), Vol. 70, pp. 11:1–11:14 https://arxiv.org/abs/1812.02119 (letzter Aufruf 10.4.2020)

  • (Jonquet et al. 2009) “The Open Biomedical Annotator”, Clement Jonquet, Nigam H. Shah, Mark A. Musen, https://www.researchgate.net/publication/49967845_The_Open_Biomedical_Annotator (letzter Aufruf 10.4.2020)

  • (Jonquet et al. 2009) “NCBO Annotator: Semantic Annotation of Biomedical Data”, Clement Jonquet, Nigam H. Shah, Cherie H. Youn, Mark A. Musen, Chris Callendar, Margaret-Anne Storey, 8th International Semantic Web Conference (ISWC 2009) Posters and Demonstrations, October 25-29 2009, Washington DC, USA, https://www.researchgate.net/publication/228837476_NCBO_Annotator_Semantic_Annotation_of_Biomedical_Data (letzter Aufruf 10.4.2020)

  • (Kleb 2012) “Ontologie-basierte Monoseminierung”, Joachim Kleb, Dissertation, Fakultät für Wirtschaftswissensschaften, Karlsruher Institut für Technologie, KIT, Scientific Publishing, 2012, https://pdfs.semanticscholar.org/4ed5/fedd3c1987ec608266c9a8117622f5b11b36.pdf und https://books.google.de/books?isbn=3866449585 (letzter Aufruf 10.4.2020)

  • (Koehn & Knight 2003) “Empirical Methods for Compound Splitting”, Philipp Koehn, Kevin Knight, Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary, 2003. https://www.aclweb.org/anthology/E03-1076.pdf (letzter Aufruf 10.4.2020)

  • (Mendes et al. 2011) “DBpedia Spotlight: Shedding Light on the Web of Documents, Pablo N. Mendes, Max Jakob, Andrés García-Silva, Christian Bizer, I-SEMANTICS 2011, 7th International Conference on Semantic Systems, Sept. 7-9, 2011,Graz, Austria, https://www.dbpedia-spotlight.org/docs/spotlight.pdf (letzter Aufruf 10.4.2020)

  • (Mihalcea & Tarau 2004) “TextRank:Bringing Order into Texts”, Rada Mihalcea, Paul Tarau, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, p.404–411, Barcelona, Spain, 2004, https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf (letzter Aufruf 10.4.2020)

  • (Oren et al. 2006) “What are Semantic Annotations?” Eyal Oren, Knud Hinnerk Möller, Simon Scerri, Siegfried Handschuh, Michael Sintek, http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf (letzter Aufruf 10.4.2020)

  • (Sack 2010) “Semantische Suche - Theorie und Praxis am Beispiel der Videosuchmaschine yovisto.com“, Harald Sack, in: U. Hentgartner, A. Meier (Hrsg.): Web 3.0 & Semantic Web, HMD - Praxis der Wirtschaftsinformatik, Nr. 271, dpunkt Verlag. Heidelberg, 2010, pp. 13–25, https://hpi.de/fileadmin/user_upload/fachgebiete/meinel/papers/Web_3.0/2010_Sack_HMD.pdf (letzter Aufruf 10.4.2020)

  • (Schumacher et al. 2012) “Semantische Suche”, Kinga Schumacher, Björn Forcher, Thanh Tran, in: “Semantische Technologien”, Andreas Dengel (Hrsg.), Spektrum Akademischer Verlag Heidelberg, 2012.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2020 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Hoppe, T. (2020). Bausteine Semantischer Suche. In: Semantische Suche. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-30427-0_5

Download citation

Publish with us

Policies and ethics