Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten

Hengartner, Urs

doi:10.1007/978-3-658-32236-6_4

Urs Hengartner ORCID: orcid.org/0000-0001-8052-2033¹¹

Part of the book series: Edition HMD ((EHMD))

15k Accesses

Zusammenfassung

Text ist immer noch die vorherrschende Kommunikationsform der heutigen Geschäftswelt. Techniken des Textverstehens erschliessen vielfältiges Wissen zur Verbesserung der Kommunikation zwischen Menschen und Menschen, sowie Menschen und Maschinen. Durch die erhebliche Steigerung der Leistungsfähigkeit moderner Computer haben das automatische Textverstehen und die Extraktion von Semantik bedeutende Fortschritte gemacht. Der Vorteil der Nutzung eines Textanalysesystems für die Überprüfung der Regelkonformität in der Finanzbranche, ist angesichts des Wachstums der Online-Informationen wichtiger denn je. Es ist eine Herausforderung, aktuelle Informationen über Kunden, Unternehmen und Lieferanten zu verfolgen und zu interpretieren. Bei fehlerhaftem Verhalten sind die Auswirkungen auf ein Unternehmen unter Umständen drastisch. Zum Beispiel sind Kundeneröffnungen wegen verordneten Abklärungen für Finanzinstitute oft komplex und kostenintensiv. Um zum Beispiel Missbräuche (Geldwäsche) aufzudecken müssen grosse Mengen an textueller Daten interpretiert werden. Vorgestellt wird ein Anwendungsfall aus der Praxis mit dem Analysewerkzeug Find-it for Person Check, ein von Canoo Engineering entwickeltes Werkzeug mit semantischen Textanalysen. Find-it for Person Check ermöglicht deutlich effizientere Abklärungen in Compliance-Prüfprozessen der Finanzindustrie unter Berücksichtigung internationaler, lokaler und firmeninternen Richtlinien.

Überarbeiteter Beitrag basierend auf Hengartner U (2019) Searching-Tool für Compliance. HMD – Praxis der Wirtschaftsinformatik Heft 329, 56(5): 947–963.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 54.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Als organische Suchergebnisse werden in dieser Arbeit Platzierungen auf einer Suchergebnisseite („Search Engine Result Page“, SERP) bezeichnet, die nicht bezahlt sind, wie zum Beispiel Anzeigen von Google-AdWords.
2.
Die Language Tools bestehen aus einer Anzahl unterschiedlicher Analysewerkzeuge und verwenden ein regelbasiertes morphologisches Wörterbuch. Ende 2018 wurde Canoo Engineering AG in die Informatique-MTF SA integriert. Die von Canoo Engineering entwickelten Language Tools werden nicht mehr separat vetrieben. Die Informatique-MTF SA wird aber gemäss den Angaben auf http://www.imtf.com/de/merger/ (Letzter Zugriff: 25. Juni 2020) die Canoo Lösung Find-it weiter pflegen und ausbauen. Ähnliche Analysewerkzeuge bieten u. a. die Firma Karakun AG https://karakun.com/leistungen/#hibu an (Letzter Zugriff: 25. Juni 2020).
3.
Der Inflection Analyzer bestimmt die Grundform (Zitatform) und Kategorie eines Wortes und liefert zusätzliche grammatikalische und orthographische Informationen, wie sie von Sprachanalyseprogrammen verwendet werden.
4.
LIBSVM – A Library for Support Vector Machines http://www.csie.ntu.edu.tw/~cjlin/libsvm (Letzter Zugriff: 20. Juni 2020).
5.
Unter dem Link https://de.wikipedia.org/wiki/Wikipedia:Technik/Datenbank/Download wird beschrieben, wie die Daten der Wikipedia für eine Weiterverarbeitung heruntergeladen werden.
6.
Hier bedeutet Flexion Beugung oder Abwandlung eines Wortes, also die Änderung der Gestalt eines Wortes, um grammatische Information auszudrücken. Als Deklination bezeichnet man die Flexion von Nomen, Adjektiven, Artikeln und Pronomen. Die Flexion von Verben wird Konjugation genannt.
7.
Im Information Retrieval ist tf-idf oder TFIDF ein Mass zur Beurteilung der Relevanz von Begriffen in Dokumenten einer Dokumentenkollektion, das heißt wie „wichtig“ ein Wort für ein Dokument in einer Textsammlung ist.
8.
Weitere Information zur Produktbeschreibung unter http://www.imtf.com/de/loesungen/icos/ (Letzter Zugriff: 26. Juni 2020).
9.
Due-Diligence-Prozess bedeutet die sorgfältige Prüfung und Analyse eines Unternehmens auf seine wirtschaftlichen, rechtlichen, steuerlichen und finanziellen Verhältnisse.
10.
Das Tool ist an ein Onboarding -Frontend ICOS/2 angebunden. Die hier gezeigten Screenshots sind einem Standalone-Demonstrator (POC) mit Testdaten entnommen. Die gezeigten Screenkomponenten (Widgets) sind für verschiedene Anwendungen konfigurierbar. Aus rechtlichen Gründen werden keine Screenshots der eingesetzten Applikation mit produktiven Daten gezeigt.
11.
Bekannte String-Matching Algorithmen sind etwa Levenshtein-Distanz (auch Editierdistanz), N-Gramme und Soundex. Weiterführende Information und Implementierung verschiedener Algorithmen sind im Github Repository (Debatty 2015).

Literatur

Aldenderfer M, Blashfield R (1984) Cluster analysis. Sage, Beverly Hills
Book Google Scholar
Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) A brief survey of text mining: classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919
Google Scholar
Apache Lucene (o. J.) Apache Lucene. https://lucene.apache.org. Zugegriffen am 25.06.2020
Baeza-Yates R, Ribeiro-Neto B (2011) Modern information retrieval. Addison-Wesley, 2. Aufl. ACM Press, New York
Google Scholar
Bensberg F, Auth G, Czarnecki C (2018) Einsatz von Text Analytics zur Unterstützung literaturintensiver Forschungsprozesse - Konzeption, Realisierung und Lessons Learned. In E-Journal Anwendungen und Konzepte der Wirtschaftsinformatik (AKWI), 8 Aufl. Wildau/Luzern/Regensburg/Fulda
Google Scholar
Bunescu R, Pasca M (2006) Using Encyclopedic knowledge for named entity disambiguation. In: Proceedings of the 11th conference of the European Chapter of the Association for Computational Linguistics (EACL-06), Trento, Italy
Google Scholar
Cucerzan S (2007) Large-scale named entity disambiguation based on Wikipedia data. In: Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2007), Prague, Czech Republic
Google Scholar
Debatty T (2015) java-string-similarity. GitHub-Repository. https://github.com/tdebatty/java-string-similarity#overview. Zugegriffen am 25.06.2020
Dudenredaktion (Hrsg) (o. J.) Onboarding. Duden online. https://www.duden.de/node/105808/revision/105844. Zugegriffen am 25.06.2020
Elasticsearch (o. J.) The elastic stack. https://www.elastic.co/elastic-stack. Zugegriffen am 25.06.2020
Gabrilovich E, Markovitch S (2006) Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge. In: Proceedings of the twenty-first national conference on artificial intelligence, Boston, MA
Google Scholar
Gattani A, Lamba DS, Garera N, Tiwari M, Das XCS, Subramaniam S, Rajaraman A, Harinarayan V, Doan A (2013) Entity extraction, linking, classification, and tagging for social media: a Wikipedia-based approach. Proc VLDB Endow 6(11):1126–1137
Article Google Scholar
Ghosh J, Strehl A (2006) Similarity-based text clustering: a comparative study. In: Kogan J, Nicholas C, Teboulle M (Hrsg) Grouping multidimensional data. Springer, Berlin, S 73–97
Chapter Google Scholar
Haifeng L (2019) Smile (Statistical Machine Intelligence and Learning Engine). https://haifengl.github.io/. Zugegriffen am 25.06.2020
Heesen J et al (Hrsg) (2020) Zertifizierung von KI-Systemen – Impulspapier aus der Plattform Lernende Systeme. München. https://www.plattform-lernendesysteme.de/publikationen.html
Kaggle (2017) Survey results. https://www.kaggle.com/amberthomas/kaggle-2017-survey-results. Zugegriffen am 25.06.2020
Karttunen L (1994) Constructing lexical transducers. In: Proceedings of the 15th international conference on computational linguistics, Coling 94, I, Kyoto, Japan, S 406–411
Google Scholar
Koskenniemi K (1983) Two-level morphology. A general computational model for word-form recognition and production. Department of General Linguistics/University of Helsinki. http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf
Krauss A, Krüger P, Meyer J (2016) Sustainable finance in Switzerland: where do we stand? Swiss Finance Institute – White Paper, Zurich, September
Google Scholar
Manning CD, Raghavan P, Schütze H (2008) Introduction to information retrieval. Cambridge University Press, New York
Book Google Scholar
Müller RM, Lenz H-J (2013) Business intelligence. Springer, Berlin/Heidelberg. ISBN 978-3-642-35560-8
Book Google Scholar
Pedrazzini S (1994) Phrase manager: a system for phrasal and idiomatic dictionaries. Olms, Hildesheim
Google Scholar
Schieber A, Hilbert A (2014) Entwicklung eines generischen Vorgehensmodells für Text Mining. Technische Universität Dresden, Fakultät Wirtschaftswissenschaften
Google Scholar
Schmid H (1995) Improvements in part-of-speech tagging with an application to German. In: Proceedings of the ACL SIGDAT-workshop, Dublin, Ireland. https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger/. Zugegriffen am 25.06.2020
Suthaharan S (2016) Machine learning models and algorithms for big data classification. Thinking with examples for effective learning. Springer Science+Business Media, New York
MATH Google Scholar
Zesch T, Müller C, Gurevych I (2008) Extracting lexical semantic knowledge from Wikipedia and Wiktionary. In: Proceedings of the 6th international conference on Language Resources and Evaluation (LREC 2008), Paris, France, S 1646–1652
Google Scholar

Download references

Author information

Authors and Affiliations

Digital Humanity Lab/WWZ, Universität Basel, Basel, Schweiz
Urs Hengartner

Authors

Urs Hengartner
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Urs Hengartner .

Editor information

Editors and Affiliations

IT Business Integration, Genossenschaft Migros Zürich, Zürich, Switzerland
Sara D'Onofrio
Universität Fribourg, Fribourg, Switzerland
Andreas Meier

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Hengartner, U. (2021). Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_4

Download citation

DOI: https://doi.org/10.1007/978-3-658-32236-6_4
Published: 02 April 2021
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-32235-9
Online ISBN: 978-3-658-32236-6
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics

Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten