Zusammenfassung
Text ist immer noch die vorherrschende Kommunikationsform der heutigen Geschäftswelt. Techniken des Textverstehens erschliessen vielfältiges Wissen zur Verbesserung der Kommunikation zwischen Menschen und Menschen, sowie Menschen und Maschinen. Durch die erhebliche Steigerung der Leistungsfähigkeit moderner Computer haben das automatische Textverstehen und die Extraktion von Semantik bedeutende Fortschritte gemacht. Der Vorteil der Nutzung eines Textanalysesystems für die Überprüfung der Regelkonformität in der Finanzbranche, ist angesichts des Wachstums der Online-Informationen wichtiger denn je. Es ist eine Herausforderung, aktuelle Informationen über Kunden, Unternehmen und Lieferanten zu verfolgen und zu interpretieren. Bei fehlerhaftem Verhalten sind die Auswirkungen auf ein Unternehmen unter Umständen drastisch. Zum Beispiel sind Kundeneröffnungen wegen verordneten Abklärungen für Finanzinstitute oft komplex und kostenintensiv. Um zum Beispiel Missbräuche (Geldwäsche) aufzudecken müssen grosse Mengen an textueller Daten interpretiert werden. Vorgestellt wird ein Anwendungsfall aus der Praxis mit dem Analysewerkzeug Find-it for Person Check, ein von Canoo Engineering entwickeltes Werkzeug mit semantischen Textanalysen. Find-it for Person Check ermöglicht deutlich effizientere Abklärungen in Compliance-Prüfprozessen der Finanzindustrie unter Berücksichtigung internationaler, lokaler und firmeninternen Richtlinien.
Überarbeiteter Beitrag basierend auf Hengartner U (2019) Searching-Tool für Compliance. HMD – Praxis der Wirtschaftsinformatik Heft 329, 56(5): 947–963.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Als organische Suchergebnisse werden in dieser Arbeit Platzierungen auf einer Suchergebnisseite („Search Engine Result Page“, SERP) bezeichnet, die nicht bezahlt sind, wie zum Beispiel Anzeigen von Google-AdWords.
- 2.
Die Language Tools bestehen aus einer Anzahl unterschiedlicher Analysewerkzeuge und verwenden ein regelbasiertes morphologisches Wörterbuch. Ende 2018 wurde Canoo Engineering AG in die Informatique-MTF SA integriert. Die von Canoo Engineering entwickelten Language Tools werden nicht mehr separat vetrieben. Die Informatique-MTF SA wird aber gemäss den Angaben auf http://www.imtf.com/de/merger/ (Letzter Zugriff: 25. Juni 2020) die Canoo Lösung Find-it weiter pflegen und ausbauen. Ähnliche Analysewerkzeuge bieten u. a. die Firma Karakun AG https://karakun.com/leistungen/#hibu an (Letzter Zugriff: 25. Juni 2020).
- 3.
Der Inflection Analyzer bestimmt die Grundform (Zitatform) und Kategorie eines Wortes und liefert zusätzliche grammatikalische und orthographische Informationen, wie sie von Sprachanalyseprogrammen verwendet werden.
- 4.
LIBSVM – A Library for Support Vector Machines http://www.csie.ntu.edu.tw/~cjlin/libsvm (Letzter Zugriff: 20. Juni 2020).
- 5.
Unter dem Link https://de.wikipedia.org/wiki/Wikipedia:Technik/Datenbank/Download wird beschrieben, wie die Daten der Wikipedia für eine Weiterverarbeitung heruntergeladen werden.
- 6.
Hier bedeutet Flexion Beugung oder Abwandlung eines Wortes, also die Änderung der Gestalt eines Wortes, um grammatische Information auszudrücken. Als Deklination bezeichnet man die Flexion von Nomen, Adjektiven, Artikeln und Pronomen. Die Flexion von Verben wird Konjugation genannt.
- 7.
Im Information Retrieval ist tf-idf oder TFIDF ein Mass zur Beurteilung der Relevanz von Begriffen in Dokumenten einer Dokumentenkollektion, das heißt wie „wichtig“ ein Wort für ein Dokument in einer Textsammlung ist.
- 8.
Weitere Information zur Produktbeschreibung unter http://www.imtf.com/de/loesungen/icos/ (Letzter Zugriff: 26. Juni 2020).
- 9.
Due-Diligence-Prozess bedeutet die sorgfältige Prüfung und Analyse eines Unternehmens auf seine wirtschaftlichen, rechtlichen, steuerlichen und finanziellen Verhältnisse.
- 10.
Das Tool ist an ein Onboarding -Frontend ICOS/2 angebunden. Die hier gezeigten Screenshots sind einem Standalone-Demonstrator (POC) mit Testdaten entnommen. Die gezeigten Screenkomponenten (Widgets) sind für verschiedene Anwendungen konfigurierbar. Aus rechtlichen Gründen werden keine Screenshots der eingesetzten Applikation mit produktiven Daten gezeigt.
- 11.
Bekannte String-Matching Algorithmen sind etwa Levenshtein-Distanz (auch Editierdistanz), N-Gramme und Soundex. Weiterführende Information und Implementierung verschiedener Algorithmen sind im Github Repository (Debatty 2015).
Literatur
Aldenderfer M, Blashfield R (1984) Cluster analysis. Sage, Beverly Hills
Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) A brief survey of text mining: classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919
Apache Lucene (o. J.) Apache Lucene. https://lucene.apache.org. Zugegriffen am 25.06.2020
Baeza-Yates R, Ribeiro-Neto B (2011) Modern information retrieval. Addison-Wesley, 2. Aufl. ACM Press, New York
Bensberg F, Auth G, Czarnecki C (2018) Einsatz von Text Analytics zur Unterstützung literaturintensiver Forschungsprozesse - Konzeption, Realisierung und Lessons Learned. In E-Journal Anwendungen und Konzepte der Wirtschaftsinformatik (AKWI), 8 Aufl. Wildau/Luzern/Regensburg/Fulda
Bunescu R, Pasca M (2006) Using Encyclopedic knowledge for named entity disambiguation. In: Proceedings of the 11th conference of the European Chapter of the Association for Computational Linguistics (EACL-06), Trento, Italy
Cucerzan S (2007) Large-scale named entity disambiguation based on Wikipedia data. In: Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2007), Prague, Czech Republic
Debatty T (2015) java-string-similarity. GitHub-Repository. https://github.com/tdebatty/java-string-similarity#overview. Zugegriffen am 25.06.2020
Dudenredaktion (Hrsg) (o. J.) Onboarding. Duden online. https://www.duden.de/node/105808/revision/105844. Zugegriffen am 25.06.2020
Elasticsearch (o. J.) The elastic stack. https://www.elastic.co/elastic-stack. Zugegriffen am 25.06.2020
Gabrilovich E, Markovitch S (2006) Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge. In: Proceedings of the twenty-first national conference on artificial intelligence, Boston, MA
Gattani A, Lamba DS, Garera N, Tiwari M, Das XCS, Subramaniam S, Rajaraman A, Harinarayan V, Doan A (2013) Entity extraction, linking, classification, and tagging for social media: a Wikipedia-based approach. Proc VLDB Endow 6(11):1126–1137
Ghosh J, Strehl A (2006) Similarity-based text clustering: a comparative study. In: Kogan J, Nicholas C, Teboulle M (Hrsg) Grouping multidimensional data. Springer, Berlin, S 73–97
Haifeng L (2019) Smile (Statistical Machine Intelligence and Learning Engine). https://haifengl.github.io/. Zugegriffen am 25.06.2020
Heesen J et al (Hrsg) (2020) Zertifizierung von KI-Systemen – Impulspapier aus der Plattform Lernende Systeme. München. https://www.plattform-lernendesysteme.de/publikationen.html
Kaggle (2017) Survey results. https://www.kaggle.com/amberthomas/kaggle-2017-survey-results. Zugegriffen am 25.06.2020
Karttunen L (1994) Constructing lexical transducers. In: Proceedings of the 15th international conference on computational linguistics, Coling 94, I, Kyoto, Japan, S 406–411
Koskenniemi K (1983) Two-level morphology. A general computational model for word-form recognition and production. Department of General Linguistics/University of Helsinki. http://www.ling.helsinki.fi/~koskenni/doc/Two-LevelMorphology.pdf
Krauss A, Krüger P, Meyer J (2016) Sustainable finance in Switzerland: where do we stand? Swiss Finance Institute – White Paper, Zurich, September
Manning CD, Raghavan P, Schütze H (2008) Introduction to information retrieval. Cambridge University Press, New York
Müller RM, Lenz H-J (2013) Business intelligence. Springer, Berlin/Heidelberg. ISBN 978-3-642-35560-8
Pedrazzini S (1994) Phrase manager: a system for phrasal and idiomatic dictionaries. Olms, Hildesheim
Schieber A, Hilbert A (2014) Entwicklung eines generischen Vorgehensmodells für Text Mining. Technische Universität Dresden, Fakultät Wirtschaftswissenschaften
Schmid H (1995) Improvements in part-of-speech tagging with an application to German. In: Proceedings of the ACL SIGDAT-workshop, Dublin, Ireland. https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger/. Zugegriffen am 25.06.2020
Suthaharan S (2016) Machine learning models and algorithms for big data classification. Thinking with examples for effective learning. Springer Science+Business Media, New York
Zesch T, Müller C, Gurevych I (2008) Extracting lexical semantic knowledge from Wikipedia and Wiktionary. In: Proceedings of the 6th international conference on Language Resources and Evaluation (LREC 2008), Paris, France, S 1646–1652
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
Hengartner, U. (2021). Searching-Tool für Compliance – Ein Analyseverfahren textueller Daten. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_4
Download citation
DOI: https://doi.org/10.1007/978-3-658-32236-6_4
Published:
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-32235-9
Online ISBN: 978-3-658-32236-6
eBook Packages: Computer Science and Engineering (German Language)