Skip to main content

Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten

  • Chapter
  • First Online:
Big Data Analytics

Part of the book series: Edition HMD ((EHMD))

  • 15k Accesses

Zusammenfassung

Text ist immer noch die vorherrschende Kommunikationsform der heutigen Geschäftswelt. Techniken des Textverstehens erschliessen vielfältiges Wissen zur Verbesserung der Kommunikation zwischen Menschen und Menschen, sowie Menschen und Maschinen. Durch die erhebliche Steigerung der Leistungsfähigkeit moderner Computer haben das automatische Textverstehen und die Extraktion von Semantik bedeutende Fortschritte gemacht. Der Vorteil der Nutzung eines Textanalysesystems für die Überprüfung der Regelkonformität in der Finanzbranche, ist angesichts des Wachstums der Online-Informationen wichtiger denn je. Es ist eine Herausforderung, aktuelle Informationen über Kunden, Unternehmen und Lieferanten zu verfolgen und zu interpretieren. Bei fehlerhaftem Verhalten sind die Auswirkungen auf ein Unternehmen unter Umständen drastisch. Zum Beispiel sind Kundeneröffnungen wegen verordneten Abklärungen für Finanzinstitute oft komplex und kostenintensiv. Um zum Beispiel Missbräuche (Geldwäsche) aufzudecken müssen grosse Mengen an textueller Daten interpretiert werden. Vorgestellt wird ein Anwendungsfall aus der Praxis mit dem Analysewerkzeug Find-it for Person Check, ein von Canoo Engineering entwickeltes Werkzeug mit semantischen Textanalysen. Find-it for Person Check ermöglicht deutlich effizientere Abklärungen in Compliance-Prüfprozessen der Finanzindustrie unter Berücksichtigung internationaler, lokaler und firmeninternen Richtlinien.

Überarbeiteter Beitrag basierend auf Hengartner U (2019) Searching-Tool für Compliance. HMD – Praxis der Wirtschaftsinformatik Heft 329, 56(5): 947–963.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 54.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Als organische Suchergebnisse werden in dieser Arbeit Platzierungen auf einer Suchergebnisseite („Search Engine Result Page“, SERP) bezeichnet, die nicht bezahlt sind, wie zum Beispiel Anzeigen von Google-AdWords.

  2. 2.

    Die Language Tools bestehen aus einer Anzahl unterschiedlicher Analysewerkzeuge und verwenden ein regelbasiertes morphologisches Wörterbuch. Ende 2018 wurde Canoo Engineering AG in die Informatique-MTF SA integriert. Die von Canoo Engineering entwickelten Language Tools werden nicht mehr separat vetrieben. Die Informatique-MTF SA wird aber gemäss den Angaben auf http://www.imtf.com/de/merger/ (Letzter Zugriff: 25. Juni 2020) die Canoo Lösung Find-it weiter pflegen und ausbauen. Ähnliche Analysewerkzeuge bieten u. a. die Firma Karakun AG https://karakun.com/leistungen/#hibu an (Letzter Zugriff: 25. Juni 2020).

  3. 3.

    Der Inflection Analyzer bestimmt die Grundform (Zitatform) und Kategorie eines Wortes und liefert zusätzliche grammatikalische und orthographische Informationen, wie sie von Sprachanalyseprogrammen verwendet werden.

  4. 4.

    LIBSVM – A Library for Support Vector Machines http://www.csie.ntu.edu.tw/~cjlin/libsvm (Letzter Zugriff: 20. Juni 2020).

  5. 5.

    Unter dem Link https://de.wikipedia.org/wiki/Wikipedia:Technik/Datenbank/Download wird beschrieben, wie die Daten der Wikipedia für eine Weiterverarbeitung heruntergeladen werden.

  6. 6.

    Hier bedeutet Flexion Beugung oder Abwandlung eines Wortes, also die Änderung der Gestalt eines Wortes, um grammatische Information auszudrücken. Als Deklination bezeichnet man die Flexion von Nomen, Adjektiven, Artikeln und Pronomen. Die Flexion von Verben wird Konjugation genannt.

  7. 7.

    Im Information Retrieval ist tf-idf oder TFIDF ein Mass zur Beurteilung der Relevanz von Begriffen in Dokumenten einer Dokumentenkollektion, das heißt wie „wichtig“ ein Wort für ein Dokument in einer Textsammlung ist.

  8. 8.

    Weitere Information zur Produktbeschreibung unter http://www.imtf.com/de/loesungen/icos/ (Letzter Zugriff: 26. Juni 2020).

  9. 9.

    Due-Diligence-Prozess bedeutet die sorgfältige Prüfung und Analyse eines Unternehmens auf seine wirtschaftlichen, rechtlichen, steuerlichen und finanziellen Verhältnisse.

  10. 10.

    Das Tool ist an ein Onboarding -Frontend ICOS/2 angebunden. Die hier gezeigten Screenshots sind einem Standalone-Demonstrator (POC) mit Testdaten entnommen. Die gezeigten Screenkomponenten (Widgets) sind für verschiedene Anwendungen konfigurierbar. Aus rechtlichen Gründen werden keine Screenshots der eingesetzten Applikation mit produktiven Daten gezeigt.

  11. 11.

    Bekannte String-Matching Algorithmen sind etwa Levenshtein-Distanz (auch Editierdistanz), N-Gramme und Soundex. Weiterführende Information und Implementierung verschiedener Algorithmen sind im Github Repository (Debatty 2015).

Literatur

  • Aldenderfer M, Blashfield R (1984) Cluster analysis. Sage, Beverly Hills

    Book  Google Scholar 

  • Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) A brief survey of text mining: classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919

    Google Scholar 

  • Apache Lucene (o. J.) Apache Lucene. https://lucene.apache.org. Zugegriffen am 25.06.2020

  • Baeza-Yates R, Ribeiro-Neto B (2011) Modern information retrieval. Addison-Wesley, 2. Aufl. ACM Press, New York

    Google Scholar 

  • Bensberg F, Auth G, Czarnecki C (2018) Einsatz von Text Analytics zur Unterstützung literaturintensiver Forschungsprozesse - Konzeption, Realisierung und Lessons Learned. In E-Journal Anwendungen und Konzepte der Wirtschaftsinformatik (AKWI), 8 Aufl. Wildau/Luzern/Regensburg/Fulda

    Google Scholar 

  • Bunescu R, Pasca M (2006) Using Encyclopedic knowledge for named entity disambiguation. In: Proceedings of the 11th conference of the European Chapter of the Association for Computational Linguistics (EACL-06), Trento, Italy

    Google Scholar 

  • Cucerzan S (2007) Large-scale named entity disambiguation based on Wikipedia data. In: Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2007), Prague, Czech Republic

    Google Scholar 

  • Debatty T (2015) java-string-similarity. GitHub-Repository. https://github.com/tdebatty/java-string-similarity#overview. Zugegriffen am 25.06.2020

  • Dudenredaktion (Hrsg) (o. J.) Onboarding. Duden online. https://www.duden.de/node/105808/revision/105844. Zugegriffen am 25.06.2020

  • Elasticsearch (o. J.) The elastic stack. https://www.elastic.co/elastic-stack. Zugegriffen am 25.06.2020

  • Gabrilovich E, Markovitch S (2006) Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge. In: Proceedings of the twenty-first national conference on artificial intelligence, Boston, MA

    Google Scholar 

  • Gattani A, Lamba DS, Garera N, Tiwari M, Das XCS, Subramaniam S, Rajaraman A, Harinarayan V, Doan A (2013) Entity extraction, linking, classification, and tagging for social media: a Wikipedia-based approach. Proc VLDB Endow 6(11):1126–1137

    Article  Google Scholar 

  • Ghosh J, Strehl A (2006) Similarity-based text clustering: a comparative study. In: Kogan J, Nicholas C, Teboulle M (Hrsg) Grouping multidimensional data. Springer, Berlin, S 73–97

    Chapter  Google Scholar 

  • Haifeng L (2019) Smile (Statistical Machine Intelligence and Learning Engine). https://haifengl.github.io/. Zugegriffen am 25.06.2020

  • Heesen J et al (Hrsg) (2020) Zertifizierung von KI-Systemen – Impulspapier aus der Plattform Lernende Systeme. München. https://www.plattform-lernendesysteme.de/publikationen.html

  • Kaggle (2017) Survey results. https://www.kaggle.com/amberthomas/kaggle-2017-survey-results. Zugegriffen am 25.06.2020

  • Karttunen L (1994) Constructing lexical transducers. In: Proceedings of the 15th international conference on computational linguistics, Coling 94, I, Kyoto, Japan, S 406–411

    Google Scholar 

  • Koskenniemi K (1983) Two-level morphology. A general computational model for word-form recognition and production. Department of General Linguistics/University of Helsinki. http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf

  • Krauss A, Krüger P, Meyer J (2016) Sustainable finance in Switzerland: where do we stand? Swiss Finance Institute – White Paper, Zurich, September

    Google Scholar 

  • Manning CD, Raghavan P, Schütze H (2008) Introduction to information retrieval. Cambridge University Press, New York

    Book  Google Scholar 

  • Müller RM, Lenz H-J (2013) Business intelligence. Springer, Berlin/Heidelberg. ISBN 978-3-642-35560-8

    Book  Google Scholar 

  • Pedrazzini S (1994) Phrase manager: a system for phrasal and idiomatic dictionaries. Olms, Hildesheim

    Google Scholar 

  • Schieber A, Hilbert A (2014) Entwicklung eines generischen Vorgehensmodells für Text Mining. Technische Universität Dresden, Fakultät Wirtschaftswissenschaften

    Google Scholar 

  • Schmid H (1995) Improvements in part-of-speech tagging with an application to German. In: Proceedings of the ACL SIGDAT-workshop, Dublin, Ireland. https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger/. Zugegriffen am 25.06.2020

  • Suthaharan S (2016) Machine learning models and algorithms for big data classification. Thinking with examples for effective learning. Springer Science+Business Media, New York

    MATH  Google Scholar 

  • Zesch T, Müller C, Gurevych I (2008) Extracting lexical semantic knowledge from Wikipedia and Wiktionary. In: Proceedings of the 6th international conference on Language Resources and Evaluation (LREC 2008), Paris, France, S 1646–1652

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Urs Hengartner .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Hengartner, U. (2021). Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_4

Download citation

Publish with us

Policies and ethics