Advertisement

Big Data Analytics im Bahnverkehr

Automatisierte Aufbereitung von historischen Fahrtdaten der Deutschen Bahn
  • Florian HauckEmail author
  • Sandro Morgenstern
  • Natalia Kliewer
Schwerpunkt
  • 25 Downloads

Zusammenfassung

Die Analyse von historischen Fahrtdaten bietet Bahnbetreibern die Möglichkeit Zusammenhänge zwischen Verspätungen zu erkennen, deren Ursachen besser zu verstehen und geeignete Maßnahmen zu treffen. Die gewonnenen Informationen können zum Beispiel verwendet werden, um robustere Fahrpläne zu erstellen und dadurch die Pünktlichkeit im Schienenverkehr zu verbessern. Damit die Daten ausgewertet werden können, müssen sie allerdings in einem konsistenten Zustand (das heißt vollständig und korrekt) vorliegen. Da Infrastrukturdaten sowie Soll- und Ist-Zeiten von Zugfahrten jeweils in verschiedenen Systemen erfasst werden, müssen die Daten zunächst vereinheitlicht und zusammengeführt werden. Dieser Beitrag stellt eine datengetriebene Infrastruktur-Modellierung und Integration von historischen Zugfahrtdaten vor. Dabei werden Daten der Deutschen Bahn aus einem Fahrplanjahr verwendet. Das Ziel besteht darin, systembedingte Inkonsistenzen bei der Zusammenführung der Daten zu beseitigen und die Integrität der Daten für weitere Analysen und Optimierungsansätze sicherzustellen. Außerdem werden Fahrtverläufe vereinheitlicht, damit diese besser miteinander verglichen werden können. In diesem Zusammenhang werden die Daten in ein JSON-Format transformiert, wodurch ein Vergleich von Soll- und Ist-Zeiten an allen Messpunkten möglich ist. Die Ergebnisse dieser Arbeit zeigen, dass in einem Datensatz mit 27 Mio. Zugfahrten 7 % aller Fahrten zunächst nicht für eine pauschale Weiterverarbeitung geeignet waren, weil zum Beispiel fehlende oder inkonsistente Werte vorlagen. Etwa 70 % der betroffenen Fahrten konnten automatisiert vervollständigt und harmonisiert werden. Dadurch wurde ein integrierter und bereinigter Datensatz erstellt, der als Grundlage zur Fahrplanoptimierung oder zur Analyse von Zugverspätungen verwendet werden kann.

Schlüsselwörter

Big Data Analytics Datenaufbereitung Datenanalyse Bahnverkehr Verspätungsdaten 

Big Data Analytics in Rail Traffic

Automated Preparation of Historical Trip Data of Deutsche Bahn

Abstract

The analysis of historical trip data offers railway operators the opportunity to identify relations between delays, to better understand their causes and to take appropriate action. The information obtained can be used, for example, to create more robust timetables and thus improve punctuality in rail transport. However, for the data to be evaluated, it must be in a consistent state (i. e. complete and correct). Since infrastructure data as well as planned and actual times of train movements are recorded in different systems, the data must first be standardized and merged. This paper presents a data-driven approach for infrastructure modelling and integration of historical train running data. Data from Deutsche Bahn from one timetable year is used. The aim is to eliminate system-related inconsistencies in the consolidation of the data and to ensure the integrity of the data for further analyses and optimization approaches. In addition, the train trips are standardized so that they can be better compared with each other. In this context, the data will be transformed into a JSON format, enabling a comparison of planned and actual event times at all measuring points. The results of this work show that in a data set with 27 million train journeys, 7% of all journeys were initially not suitable for further processing because, for example, missing or inconsistent values were present. Approximately 70% of the affected trips could be completed and harmonized automatically. This resulted in the creation of an integrated and cleansed data set that can be used as a basis for timetable optimization or for the analysis of train delays.

Keywords

Big data analytics Data preparation Data analytics Rail traffic Delay data 

Literatur

  1. Berger A, Gebhardt A, Müller-Hannemann M, Ostrowski M (2011) Stochastic delay prediction in large train networks. In: Caprara A, Kontogiannis S (Hrsg) 11th Workshop on algorithmic approaches for transportation modelling, optimization, and systems, S 100–111  https://doi.org/10.4230/OASIcs.ATMOS.2011.100 Google Scholar
  2. Cacchiani V, Caprara A, Toth P (2008) A column generation approach to train timetabling on a corridor. 4OR Q J Oper Res 6(2):125–142.  https://doi.org/10.1007/s10288-007-0037-5 MathSciNetCrossRefzbMATHGoogle Scholar
  3. Caprara A, Fischetti M, Toth P (2002) Modeling and solving the train timetabling problem. Oper Res 50(5):851–916.  https://doi.org/10.1287/opre.50.5.851.362 MathSciNetCrossRefzbMATHGoogle Scholar
  4. Ester M, Sander J (2000) Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin, HeidelbergCrossRefzbMATHGoogle Scholar
  5. Goverde R (2010) A delay propagation algorithm for large-scale railway traffic networks. Transp Res Part C Emerg Technol 18(3):269–287.  https://doi.org/10.1016/j.trc.2010.01.002 CrossRefGoogle Scholar
  6. Hauck F, Kliewer N (2019) A data-driven optimization approach to improve railway punctuality. Oper Res Proc 2018 (Im Druck).  https://doi.org/10.1007/978-3-030-18500-8
  7. Jacobs J (2003) Rechnerunterstützte Konfliktermittlung und Entscheidungsunterstützung bei der Disposition des Zuglaufs. Rheinisch-Westfälische Technische Hochschule, Aachen (Dissertation)Google Scholar
  8. Nachtigall K, Opitz J (2008) Solving periodic timetable optimisation problems by modulo simplex calculations. In: Fischetti M, Widmayer P (Hrsg) 8th Workshop on algorithmic approaches for transportation modeling, optimization, and systems (ATMOS’08)  https://doi.org/10.4230/OASIcs.ATMOS.2008.1588 Google Scholar
  9. Oneto L, Fumeo E et al (2018) Train delay prediction systems: a big data perspective. Big Data Res 11:54–64.  https://doi.org/10.1016/j.bdr.2017.05.002 CrossRefGoogle Scholar
  10. Peeters L, Kroon L (2001) A cycle based optimization model for the cyclic railway timetabling problem. In: Voß S, Daduna JR (Hrsg) Computer-aided scheduling of public transport. Springer, Berlin, Heidelberg  https://doi.org/10.1007/978-3-642-56423-9_16 Google Scholar
  11. Van Buuren S, Groothuis-Oudshoorn K (2011) Mice: multivariat imputation by chained equations in r. J Stat Softw 45(3):1–67.  https://doi.org/10.18637/jss.v045.i03 CrossRefGoogle Scholar
  12. Wirth R, Hipp J (2000) CRISP-DM: Towards a standard process model for data mining. In: Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining, S 29–39Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019

Authors and Affiliations

  1. 1.Department WirtschaftsinformatikFreie Universität BerlinBerlinDeutschland

Personalised recommendations