Advertisement

Forschung im Ingenieurwesen

, Volume 83, Issue 2, pp 163–171 | Cite as

Fahrzeugdetektion mit stationären Kameras zur automatischen Verkehrsüberwachung

  • Malte OeljeklausEmail author
  • Niklas Stannartz
  • Manuel Schmidt
  • Frank Hoffmann
  • Torsten Bertram
Originalarbeiten/Originals
  • 119 Downloads

Zusammenfassung

Menschliche Fahrfehler stellen die Hauptursache für Unfälle im Straßenverkehr dar. Die automatische Verkehrsüberwachung bietet einen Beitrag, um die Vision des unfallfreien Straßenverkehrs zu erreichen. Eine solche Infrastruktur erhöht unmittelbar die Verkehrssicherheit insbesondere vor dem Hintergrund einer langwierigen Durchdringung des Fahrzeugbestandes durch neue Assistenzsysteme. Das Multi Funktionale Detektions System erkennt an Autobahnabfahrten sowie Park- und Rastanlagen potenzielle Falschfahrer bei der Auffahrt auf die falsche Richtungsfahrbahn. Typischerweise werden dabei ortsfeste Messplattformen eingesetzt, hierfür bieten Kamerasensoren besonders günstige Voraussetzungen. Der vorliegende Beitrag betrachtet die Fahrzeugdetektion in Kamerabildern für die Integration in ein Falschfahrerwarnsystem. Für diese Anwendung ist die Realisierung von möglichst schnellen Verarbeitungszeiten entscheidend. Gängige Methoden der kamerabasierten Objektdetektion führen zu diesem Zweck eine vollständige Abtastung des aufgezeichneten Bildes durch. Aufgrund der feststehenden Kameraposition und der bekannten statischen Verkehrselemente lässt sich jedoch der Suchraum deutlich einschränken. Der Ansatz basiert auf einer reduzierten Suchstrategie, welche die vorteilhaften Eigenschaften herkömmlicher Verfahren zur Objektdetektion erhält.

Vehicle detection with stationary cameras for automated traffic monitoring

Abstract

Human errors are the main cause of road traffic accidents. In order to implement the vision of accident-free road traffic, automatic traffic monitoring offers an approach for assistance systems, which are independent of a protracted penetration of the vehicle fleet. For example, the Multi Functional Detection System is used to detect potential wrong-way drivers at motorway exits and rest areas when driving onto the wrong lane. Typically, stationary measuring platforms are used for this purpose, and camera sensors offer particularly favourable conditions. This contribution therefore considers vehicle detection in camera images for integration into a wrong-way driver warning system. For this application the realization of fast processing times is decisive. Conventional methods for the problem of camera-based object detection perform a complete scan of the recorded image for this purpose. Due to the fixed camera position and the known static traffic elements, however, it is possible to significantly limit this search-space. Therefore in the present work, a method is designed which can realize a reduced search strategy while retaining the advantageous properties of conventional methods for object detection.

1 Einleitung

Der Anteil von Unfällen im Straßenverkehr, bei denen menschliche Fahrfehler die Hauptursache darstellen, wird laut [22] auf über \(90\,\%\) beziffert. Um die Vision des unfallfreien Straßenverkehrs umzusetzen, bietet die automatische Verkehrsüberwachung einen Beitrag für Assistenzsysteme, welche unabhängig von einer langwierigen Durchdringung des Fahrzeugbestandes sind und deren Installation von zentraler Stelle durch die Straßenbauverwaltung erfolgt. Beispielsweise wird das Multi Funktionale Detektions System (MFDS) [16] eingesetzt, um an Autobahnabfahrten sowie Park- und Rastanlagen potenzielle Falschfahrer bei der Auffahrt auf die falsche Richtungsfahrbahn zu erkennen (siehe Abb. 1). Falschfahrer werden durch Leuchtsignale gewarnt, weiterhin wird die Gefahreninformation über eine Datenverbindung an die Verkehrsleitstelle gemeldet. Allgemein stellt die präzise und echtzeitnahe Messung des Verkehrsflusses und weiterer verkehrsbezogener Kenngrößen ein Schlüsselelement für intelligente Verkehrsleitsysteme dar.
Abb. 1

Systemarchitektur des Multi Funktionalen Detektions Systems [16]

Aus technischer Sicht bieten Kamerasensoren gute Voraussetzungen für die automatische Verkehrsüberwachung, da die visuelle Erscheinung einer Verkehrsszene praktisch alle relevanten Informationen über die in ihr enthaltenen Fahrzeuge beinhaltet. Die sensorische Erfassung der Verkehrsszene erfolgt dabei von einem ortsfesten Messsystem. Für die Verkehrsüberwachung sind insbesondere die Positionen und Bewegungen der Verkehrsteilnehmer relevant. Der Straßenverlauf und Verkehrselemente wie die Beschilderung hingegen verändern sich nicht, beziehungsweise nur bei weniger häufigen, aber bekannten Sonderereignissen wie etwa Baustellen und lassen sich somit als Vorwissen berücksichtigen. Der vorliegende Beitrag fokussiert sich auf die Detektion von Verkehrsteilnehmern in Kamerabildern und betrachtet hierzu exemplarisch die Fahrzeugdetektion zur Integration in das Falschfahrerwarnsystem MFDS [16].

Für die angestrebte Anwendung sind kurze Verarbeitungszeiten eine Voraussetzung. So muss die Warnung einen potentiellen Falschfahrer unverzüglich, insbesondere noch vor dem Befahren der Autobahn in entgegengesetzter Richtung, erreichen. Allgemein ist die Verfügbarkeit von zeitaktuellen Informationen für die Verkehrsleittechnik von hoher Bedeutung. Gängige Methoden für die kamerabasierte Objektdetektion lassen sich in die Verarbeitungsschritte der Bildabtastung und die eigentliche Klassifikation der Objekte untergliedern. Algorithmisch wird dabei für jede Abtastung eine Klassifikation des abgetasteten Bildausschnitts durchgeführt. Zur Realisierung schneller Rechenzeiten lassen sich prinzipiell für beide Verarbeitungsschritte Vereinfachungen durchführen. Die im Klassifikationsschritt erreichbare Detektionsgüte wird jedoch direkt durch die Reduktion der Modellkapazität beeinflusst. Bei der Bildabtastung ergibt sich hingegen die Möglichkeit, den Suchraum aufgrund der feststehenden Kameraposition und der bekannten statischen Verkehrselemente einzuschränken ohne die Detektionsgüte wesentlich zu beeinträchtigen. Für die betrachteten Szenen an Autobahnab- und Rastplatzzufahrten ergibt sich anschaulich, dass die gesuchten Fahrzeuge insbesondere dort auftreten, wo Bewegungen im Umfeld rasche zeitliche Änderungen des Kamerabildes hervorrufen. Um solche zeitliche Veränderungen im Kamerabild zu verorten, lassen sich bekannte Methoden zur Hintergrundsubtraktion anwenden [28]. Da Veränderungen im Kamerabild jedoch auch aufgrund von Umwelteinflüssen entstehen können, folgt hieraus noch kein hinreichendes Kriterium für das Vorhandensein eines Fahrzeugs. Somit ergeben sich zunächst nur Objekthypothesen für vorhandene Fahrzeuge, welche der weiteren Verarbeitung im Klassifikationsschritt zugeführt.

Für die Klassifikation von Bildern und Bildausschnitten bilden Convolutional Neural Networks (CNN) [9] den derzeitigen Stand der Technik. CNNs verwenden eine Reihe hierarchischer Modellschichten, um den Prozess des maschinellen Lernens durchzuführen. Dabei werden in den einzelnen Hierarchieebenen statistische Merkmale mit steigendem Abstraktionsgrad ausgeprägt, bis am Modellausgang die gewünschte Zielgröße, etwa eine Beschreibung der detektierten Objekte, entsteht. Gängige CNN Architekturen zur Objektdetektion, wie etwa der Faster R‑CNN [19] Ansatz (siehe Abb. 3), weisen einige Besonderheiten auf, welche sich für die Objektdetektion als vorteilhaft erwiesen haben. So muss etwa davon ausgegangen werden, dass die Bestimmung der Objekthypothesen fehlerbehaftet ist. Dies betrifft nicht nur die eigentliche Existenz, sondern auch die Lokalisierung der Objekte im Bild. Eine fehlerhafte Lokalisierung kann durch eine Regression des relativen Versatzes zwischen Objekthypothese und tatsächlicher Objektposition korrigiert werden, was durch die Erweiterung der eigentlichen Objektklassifikation um zusätzliche Ausgangsgrößen zur Beschreibung des Versatzes realisiert wird. Weiterhin werden einmal berechnete Merkmale für die Detektion mehrerer Objekte im Bild verwendet, so dass eine aufwändige Neuberechnung pro Objekt entfallen kann. Jedoch sind die eingesetzten Suchstrategien zur vollständigen Abtastung des zu verarbeitenden Bildes in der betrachteten Anwendung von Nachteil, da aufgrund der statischen Kameraposition und dem vorhandenen Vorwissen bereits eine deutliche Eingrenzung der Objekthypothesen erfolgen kann. In der vorliegenden Arbeit wird daher eine CNN Architektur entworfen, welche eine reduzierte Suchstrategie realisiert und dabei die beschriebenen vorteilhaften Eigenschaften erhalten kann.

2 Verwandte Arbeiten

Die Objekterkennung in digitalen Bildern hat in den vergangenen Jahren einen grundlegenden Wandel erfahren. Ein wesentlicher Beitrag aus dem Jahre 2001 ist das als Viola-Jones-Methode [29] bekannt gewordene Verfahren, welches ursprünglich zur Gesichtserkennung eingesetzt wurde. Dieses zeichnet sich durch hohe Genauigkeiten und insbesondere durch eine schnelle Berechnung im Verhältnis zu den Rechenkapazitäten der damaligen Zeit aus. Im Wesentlichen besteht die Viola-Jones-Methode aus drei Komponenten. Die erste Komponente ist eine neuartige Bildrepräsentation als Integral Image, welche sich günstig auf die Berechnung der Merkmale auswirkt. Die zweite Komponente ist ein auf dem AdaBoost von [5] basierender Lernalgorithmus. Die dritte Komponente ist der Einsatz einer großen Anzahl an schwachen Kaskaden-Klassifikatoren, die den Detektor darstellen.

Die Viola-Jones-Methode diente den sogenannten Aggregate Channel Features [31] als Inspiration. Diese führen als wesentliche Neuerung zusätzliche, auf dem Integral Image basierende, Merkmalsrepräsentationen ein. Durch diese zusätzliche Informationen wird die Genauigkeit der Objektdetektion weiter gesteigert, ohne dabei die Berechnungsdauer zu erhöhen.

Eine weitere Methode zur Objekterkennung in digitalen Bildern sind künstliche neuronale Netze, welche besonders in der jüngeren Vergangenheit immer mehr an Bedeutung gewonnen haben. Der Entwurf von künstlichen neuronale Netze ist dabei an dem biologischen Vorbild des Gehirns orientiert. Künstliche neuronale Netze werden in einer Reihe hierarchischer Modellschichten strukturiert, um den Prozess des maschinellen Lernens durchzuführen. Deep Learning bezeichnet eine Klasse von künstlichen neuronalen Netzen, die über besonders viele Zwischenschichten (hidden layers) zwischen der Eingabe- und der Ausgabeschicht verfügen.

Die AlexNet Architektur von [13] aus dem Jahr 2012 ist das erste CNN Modell, welches den jährlichen Imagenet Large Scale Visual Recognition Challenge (ILSVRC) Wettbewerb [20] gewinnen konnte. Weiterhin erlangte die Architektur von [21] eine hohe Popularität. Diese knüpft an das AlexNet an, verwendet aber deutlich mehr Netzwerkschichten, welches mit einer gesteigerten Genauigkeit einhergeht. Die GoogLeNet Architektur von [25] gewann den ILSVRC Wettstreit im Jahr 2014. Sie besteht aus neu eingeführten Unterstrukturen, welche als Inception Blöcke bezeichnet werden und in der Inception-v2 [12] Architektur überarbeitet wurden.

Die in [10] eingeführte Residual Net (ResNet) Architektur unterbietet die bisherige Fehlerrate auf dem ILSVRC Wettbewerb um beinahe die Hälfte. Dies gelingt durch zusätzliche Verbindungen innerhalb der Netzwerkstruktur, welche die dem Lernvorgang zugrunde liegende Optimierung beschleunigen. Nach [11] kann die Inception-ResNet Architektur von [24], welche im wesentlichen eine Kombination der ResNet und der Inception-v2 Architektur ist, eine noch einmal gesteigerte Genauigkeit erreichen.

Für spezielle Aufgaben wie die Objekterkennung wird ein CNN um einen Detektor erweitert. [15] und [18] entwerfen Detektoren, welche direkt aus den Merkmalen des CNNs Kandidaten für Bildbereiche bestimmen, die potentiell ein relevantes Objekt enthalten. Im Gegensatz dazu verwenden die in [19] und [3] entworfenen Detektoren ein zusätzliches Netzwerk namens Region Proposal Network (RPN), um zunächst Objekthypothesen zu ermitteln, welche anschließend in einer zweiten Verarbeitungsstufe unter Verwendung der CNN Merkmale endgültig klassifiziert werden. Im Vergleich mit dem direkten Ansatz resultiert die mehrstufige Objektdetektion unter Verwendung expliziter Objekthypothesen einerseits in höheren Genauigkeiten, aber auch andererseits in langsameren Verarbeitungszeiten.

Die bisher erwähnten Methoden der Objekterkennung beschränken sich auf einzelne Bilder. Da die betrachtete Anwendung eine Sequenz von Bildern verarbeitet, stellt die Methode der Hintergrundsubtraktion einen Ansatz dar, um effizient Bereiche zu bestimmen, welche sich von dem Hintergrund abheben. Dies trifft insbesondere auf solche Bereiche zu, die bewegte Objekte abbilden. Nach [28] wird hierzu zunächst ein Modell des Bildhintergrunds bestimmt. Aus einem Vergleich des jeweils aktuellen Kamerabilds mit dem Hintergrund lässt sich anschließend eine Maske des Vordergrundbereichs bestimmen. Wesentliches Unterscheidungsmerkmal der existierenden Ansätze stellt dabei die Art des Hintergrundmodells dar. Exemplarisch für den Einsatz von Medianfiltern ist der Ansatz von [2]. Für den selben Zweck verwendet der Wallflower-Algorithmus aus [27] einen linearen Wiener-Kolmogoroff-Filter [30]. Der Ansatz in [33] bildet den Bildhintergrund mittels eines Gaussian Mixture Model (GMM) ab.

3 Entwurf der CNN Architektur

CNN Modelle sind im Allgemeinen aus einem Merkmalsencoder und einem Detektor zusammengesetzt. Anschaulich bestimmt dabei der Merkmalsencoder zunächst statistische Merkmale, welche den Bildinhalt möglichst gut charakterisieren und gleichzeitig eine deutliche Reduktion der Datenmenge erzielen. Das Teilmodell des Detektors erzeugt schließlich die gewünschte Repräsentation der spezifischen Aufgabe der Bildverarbeitung. Dabei werden die abgebildeten Objekte üblicherweise mittels umhüllender Rechtecke, sogenannter Bounding Boxen, markiert.

3.1 Merkmalsencoder

Für den Entwurf eines Merkmalsencoders enthält die Fachliteratur eine Vielzahl von Architekturen. Maßgebliche Auswahlkriterien sind dabei vor allem die erzielte Klassifikationsgenauigkeit und die Berechnungsdauer. [11] vergleichen einige exemplarische Architekturen untereinander.

Wird die Anzahl an Netzwerkschichten und die erzielte Fehlerrate verschiedener CNN Architekturen betrachtet, ergibt sich ein deutlicher Trend, dass eine höhere Anzahl an Netzwerkschichten die Fehlerrate reduzieren. Dieser Zusammenhang ist die Motivation für die ResNet Architektur [10], die es ermöglicht CNNs mit sehr vielen Netzwerkschichten zu verwenden. Allerdings führt eine hohe Anzahl an Netzwerkschichten dazu, dass das Netzwerk viele Parameter besitzt. Dies wirkt sich wiederum nachteilig auf die Berechnungsdauer aus.

[10] beschreiben, dass das Training von Modellen mit besonders vielen Netzwerkschichten in der Praxis oft gewissen Einschränkungen unterliegt. Dies wird darin begründet, dass aus vielen Netzwerkschichten eine stark verkettete mathematische Abbildung zwischen Modelleingang und -ausgang resultiert. Diese Verkettung ist für die gradientenbasierte Optimierung während des Prozess des maschinellen Lernens problematisch, da in der Folge abfallende Werte des Gradienten der Verlustfunktion in den Netzwerkschichten nahe des Eingangs entstehen (Vanishing Gradient Problem, [9]). In der Praxis wirkt sich dies in einer Verlangsamung des Lernvorgangs aus, soweit bis der Zeitaufwand schließlich nicht mehr praktikabel ist.

Zur Lösung dieses Problems schlagen [10] vor, die herkömmliche geradlinige Struktur von CNNs zu unterbrechen und sie durch Residual Blocks zu ersetzen. In Abb. 2 ist eine grafische Veranschaulichung eines Residual Blocks zu sehen. Dabei bezeichnet X die Bildmerkmale einer beliebigen Netzwerkschicht, \(f(\textbf{X})\) die der Netzwerkschicht zugeordnete Rechenoperation und \(h(\textbf{X})\) die Ausgangsgrößen der Netzwerkschicht.
Abb. 2

Grafische Darstellung eines Residual Blocks [10]

Durch den zusätzlichen parallelen Pfad existiert von jeder Netzwerkschicht ein Pfad zum Modellausgang ohne zusätzlich verkettete Abbildungen. Hierbei wird das Training von tiefen Modellen deutlich beschleunigt. Zudem zeigen die Autoren, dass die durch diesen Ansatz ermöglichten Modelltiefen zu deutlich gesteigerten Klassifikationsgenauigkeiten führen, welche für bestimmte Problemstellungen sogar die Leistungen menschlicher Probanden übertreffen. Aufgrund der hohen Modellgüte wird für die vorliegende Arbeit ein Merkmalsencoder nach [10] auf Grundlage der ResNet-Architektur in der Variante mit 101 Netzwerkschichten eingesetzt.

3.2 Objektdetektor

Ziel der Objektdetektion ist es Objekte in einem Bild mittels einer Bounding Box zu lokalisieren und zusätzlich eine Prädiktion des Objekttyps durchzuführen. Dabei können grundsätzlich unterschiedliche Objekttypen, wie beispielsweise Fahrzeuge oder Fußgänger, berücksichtigt werden. Zusätzlich ist die Anzahl der Objekte im Bild nicht bekannt und variiert fortlaufend. Zur Realisierung einer Objektdetektion mittels eines CNNs wird der Merkmalsencoder um eine Detektorstufe erweitert. Entsprechende Ansätze lassen sich in einstufige und zweistufige Detektoren unterscheiden, dabei schließen erstere unmittelbar aus den Merkmalen des Encoders auf das Vorhandensein von Objekten. Im Gegensatz dazu erfolgt im Falle der zweistufigen Detektoren zunächst eine grobe Bestimmung von Objekthypothesen, welche erst im zweiten Schritt zu einer genauen Objektdetektion verfeinert werden. Im Allgemeinen erreichen die zweistufigen Ansätze höhere Klassifikationsgenauigkeiten. So bietet entsprechend dem Vergleich in [11] der als Faster R‑CNN bezeichnete Ansatz [19] nach derzeitigem Stand der Technik die höchste Modellgüte. Zusätzlich eignen sich die zweistufigen Verfahren aufgrund der expliziten Berücksichtigung von Objekthypothesen und dem damit einhergehenden modularen Aufbau besser, um vorhandenes Vorwissen über die Lage der gesuchten Objekte im Kamerabild zu berücksichtigen. Aufgrund der genannten positiven Eigenschaften wird im weiteren Verlauf der Faster R‑CNN Detektor eingesetzt.
Abb. 3

Zweistufige Verarbeitungskette des Faster R‑CNN Objektdetektors nach [19]. Statt dem RPN wird in diesem Beitrag die Hintergrundsubtraktion zur Generierung von Objekthypothesen vorgeschlagen

Die Idee des Faster R‑CNNs basiert auf den Arbeiten [8] und [7]. Wie in Abb. 3 veranschaulicht, werden dabei zunächst die Merkmale des Encoders einem RPN zugeführt, welches die Regions of Interest (RoI) für die anschließende finale Regression und Klassifizierung vorschlägt. Dabei werden die Merkmale mit einem gleitenden Filter abgetastet, welcher sie auf eine verringerte Dimension abbildet und anschließend zwei Ausgabeschichten zuführt – der Regressions- und der Klassifikationsschicht. Die Regressionsschicht besitzt vier Ausgänge (Position im Bild sowie Höhe und Breite der Bounding Box) und die Klassifikationsschicht zwei (Wahrscheinlichkeit, dass es sich bei der Hypothese um ein Objekt beziehungsweise kein Objekt handelt). Zusätzlich werden an jedem Abtastort gleichzeitig \(k\) Hypothesen prognostiziert, die relativ zu \(k\) Referenzrahmen, welche als Anker bezeichnet werden, parametrisiert sind. Ein Anker ist zentriert im jeweiligen gleitenden Filter und besitzt ein definiertes Ausmaß und Seitenverhältnis. Dementsprechend besteht die Regressionsschicht des RPNs aus \(4k\) und die Klassifikationsschicht aus \(2k\) Ausgaben. Beim Training des RPNs wird, dem zugrunde liegend, folgende Verlustfunktion minimiert:
$$\begin{array}[]{l}L(\{\mathbf{p}_{i}\},\{\mathbf{t}_{i}\})=\frac{1}{N_{\textrm{cls}}}\sum_{i}L_{\textrm{cls}}(\mathbf{p}_{i},\mathbf{p}_{i}^{*})\\ +\;\lambda\frac{1}{N_{\textrm{reg}}}\sum_{i}\mathbf{p}_{i}^{*}L_{\textrm{reg}}(\mathbf{t}_{i},\mathbf{t}_{i}^{*}).\end{array}$$
(1)
Hierbei ist \(i\) der Index des Ankers, \(\mathbf{p}_{i}\) die prognostizierte Wahrscheinlichkeit, dass der Anker ein Objekt abbildet und \(\mathbf{p}_{i}^{*}\) das Ground Truth Label, welches gleich 1 ist, falls der Anker wirklich ein Objekt abbildet und 0, wenn dies nicht der Fall ist. Der Vektor \(\mathbf{t}_{i}\) repräsentiert die geschätzten vier Parameter der Bounding Box eines Ankers im Bild und \(\mathbf{t}_{i}^{*}\) korrespondiert ebenfalls mit dem zugehörigen Ground Truth Label. Der Klassifikationsverlust berechnet sich zu
$$L_{\textrm{cls}}(\mathbf{p}_{i},\mathbf{p}_{i}^{*})=-\mathbf{p}_{i}^{*}\operatorname{log}(\mathbf{p}_{i})-(1-\mathbf{p}_{i}^{*})\operatorname{log}(1-\mathbf{p}_{i})$$
(2)
und der Regressionsverlust zu
$$L_{\textrm{reg}}(\mathbf{t}_{i},\mathbf{t}_{i}^{*})=g_{L_{1}}(\mathbf{t}_{i}-\mathbf{t}_{i}^{*}),$$
(3)
wobei
$$g_{L_{1}}(x)=\begin{cases}0{,}5x^{2}&\textrm{falls}\;|x|<1\\ |x|-0{,}5&\textrm{sonst}\end{cases}$$
(4)
die robuste \(L_{1}\)-Verlustfunktion darstellt, welche von [7] definiert wird. Sowohl der Klassifikations- als auch der Regressionsverlust werden mit den zugehörigen Konstanten \(N_{\textrm{cls}}\) beziehungsweise \(N_{\textrm{reg}}\) normiert und mit dem Parameter \(\lambda\) gewichtet.

In einem nächsten Schritt werden die Merkmale auf Basis der vorgeschlagenen RoIs, welche eine beliebige Größe besitzen können, gebündelt, um sie auf eine einheitliche Dimension für die darauffolgende zweite Stufe des Detektors zu konvertieren. Dieser Schritt wird auch als RoI Pooling bezeichnet (siehe Abb. 3). Die zweite Stufe des Detektors führt eine weitere Verfeinerung des Versatzes und Größe der Objekthypothesen vom RPN sowie eine finale Klassifizierung durch. Wesentlicher Unterschied dabei ist, dass in der ersten Stufe eine vollständige Abtastung der Encodermerkmale erfolgt und sich die Klassifikation auf die binäre Unterscheidung der Objektexistenz beschränkt, während in der zweiten Stufe ausschließlich Objekthypothesen mit ausreichend hoher Existenzwahrscheinlichkeit abgetastet werden und eine vollständige Typisierung erfolgt. Weiterhin wird in beiden Stufen eine Heuristik zur Unterdrückung von Nebenmaxima (non-maximum suppression) angewendet. Durch Schwellwertbildung auf Basis der Detektionskonfidenz entstehen anschließend die finalen Objektdetektionen.

Der Ablauf der Verarbeitung im Detektor lässt bereits erkennen, dass die Anzahl der zu untersuchenden Objekthypothesen einen wichtigen Modellparameter darstellt, welcher die Verarbeitungsdauer eines Bildes maßgeblich beeinflusst. Der nachfolgende Abschnitt betrachtet daher wie die Erzeugung von Objekthypothesen im Vergleich zu dem allgemeinen Faster R‑CNN Ansatz aus [19] effizienter durchgeführt werden kann, wenn die besonderen Gegebenheiten der betrachteten Anwendung ausgenutzt werden.

4 Bestimmung von Objekthypothesen

Die Hintergrundsubtraktion (Background Subtraction) ist ein verbreitetes Verfahren, welches bei statischen Kameras anhand einer Sequenz von Kamerabildern bewegte Objekte vom Hintergrund separiert. Aus dem Vergleich aufeinanderfolgender Bilder lassen sich Schlussfolgerungen auf das Vorhandensein bewegter Objekte treffen. Üblicherweise wird dabei ein Modell des statischen Bildanteils, also des Hintergrunds, erstellt. Sobald ein bewegtes Objekt in das Bild tritt, weicht an der entsprechenden Stelle die bewegten Szene vom statischen Hintergrundmodell ab.

Grundsätzlich existieren verschiedene Ansätze zur Bestimmung eines Hintergrundmodells, die in [17] und [28] anschaulich zusammengefasst sind. In Anlehnung an [33] und [34] wird aufgrund der hohen Modellgüte bei gleichzeitig geringem Rechenaufwand eine gaußsche Mischverteilung zur Modellierung des statischen Hintergrunds eingesetzt. Dieses Verfahren bestimmt ein dicht aufgelöstes Hintergrundmodell, indem es für jeden Bildpunkt die Wahrscheinlichkeit der Zugehörigkeit zum Hintergrund berechnet. Die Wahrscheinlichkeit wird dabei gemäß Gl. (5) durch eine gewichtete Überlagerung von Gaußverteilungen beschrieben:
$$\hat{p}(\mathbf{x}|BG)=\sum_{m=1}^{M}\hat{\pi}_{m}\mathcal{N}(\mathbf{x};\hat{\mathbf{\mu}}_{m},\hat{\sigma}^{2}_{m}I)$$
(5)
Somit wird die mit \(\hat{\pi}_{m}\) gewichtete Summe der \(M\) Normalverteilungen \(\mathcal{N}\) gebildet, um die Wahrscheinlichkeit \(\hat{p}\), dass ein gemessener Bildpunkt \(\mathbf{x}\) zum Hintergrund BS gehört, abzubilden. Um Störungen wie Belichtungsänderungen oder Veränderungen im Bildhintergrund auszugleichen, wird das Hintergrundmodell fortlaufend an die aktuellen Aufnahmen adaptiert. Dabei werden die Parameter der Mischverteilung über ein rekursives Schätzverfahren nach [26] in jedem Zyklus neu ermittelt, wobei sich das Gewicht in der Vergangenheit liegender Aufnahmen über einen Vergessensfaktor reduziert. Als Ergebnis der Hintergrundsubtraktion entsteht zunächst ein Binärbild, welches zu einer Beschreibung der Objekthypothesen weiterverarbeitet wird. Nach dem Einsatz morphologischer Filter zur Rauschunterdrückung, generiert die Konturerkennung nach [23] eine direkte Darstellung der Objekthypothesen (siehe Abb. 4).
Abb. 4

Beispieldetektion eines Fahrzeugs mittels der Hintergrundsubtraktion

Eine Ermittlung der Objekthypothesen durch Anwendung der Hintergrundsubtraktion ermöglicht es den Faster R‑CNN Detektor so zu modifizieren, dass die erste Detektorstufe, also das RPN, vollständig entfällt (vgl. Abb. 3). Da die erste Detektorstufe aufgrund der vollständigen Abtastung der Merkmale deutlich rechenintensiver ist als die zweite Stufe, ergibt sich unmittelbar eine reduzierte Rechenzeit des Gesamtmodells. Zusätzlich lässt sich mit der ursprünglichen Architektur nur dann eine hohe Güte der Objektdetektion erzielen, wenn die zweite Detektorstufe eine hohe Anzahl (\(> 300\)) an Hypothesen auswertet [19]. Die Hintergrundsubtraktion schränkt die Anzahl der Hypothesen deutlich stärker ein (\(<10\)), so dass der Rechenaufwand der zweiten Detektorstufe ebenfalls sinkt. Wie Abb. 5 verdeutlicht prognostiziert die Hintergrundsubtraktion generell beliebige bewegte Objekte, wie beispielsweise Fußgänger, als Hypothesen. Solche Falschhypothesen sind unproblematisch, da sie zum einen in der zweiten Detektorstufe sofort verworfen werden und zum anderen zu erwarten ist, dass es sich für den Anwendungsfall des MFDS bei den bewegten Objekten zum größten Teil nur um Fahrzeuge handeln kann.
Abb. 5

Beispieldetektion eines Fußgängers mittels Hintergrundsubtraktion

5 Analyse und Bewertung

Das in den vorherigen Abschnitten dargestellte CNN Modell benötigt einen mit Fahrzeugdetektionen gelabelten Datensatz zum Training und zur Identifikation der Netzparameter. Dieser Datensatz soll mit stationären Kameras aufgezeichnet worden sein, um die Verkehrsszene aus der Perspektive einer üblichen Überwachungsplattform, wie dem MFDS [16], abzubilden. Da kein öffentlicher verfügbarer Datensatz existiert, welcher diese Eigenschaften aufweist, wird ein eigener Datensatz mit 7481 Bildern mit markierten Fahrzeugen erstellt. Aufgrund der geringen Größe dieses selbst erstellten Datensatzes wird ein in der Literatur übliches Verfahren nach [32] angewandt, welches das unmodifizierte CNN Modell zunächst auf dem öffentlich verfügbaren und umfangreichen Datensatz „MS-COCO“ [14] zur allgemeinen Objektdetektion vortrainiert. Damit lassen sich die Modellparameter vorinitialisieren, erst diese Vereinfachung ermöglicht die robuste Identifikation des CNN Modells auf dem eigenen Datensatz zur Fahrzeugdetektion. Insgesamt werden 80 % der aufgenommenen Kamerabilder für die Modellidentifikation verwendet, während 20 % für die nachfolgende Auswertung vorgehalten werden.

Die Auswertung erfolgt anhand der Gütekriterien in [6], wobei ausschließlich sich bewegende Fahrzeuge berücksichtigt werden. Für eine erfolgreiche Detektion müssen die durch das CNN erzeugten Bounding Boxen mindestens zu 70 % mit den durch per Hand erstellten Ground Truth-Annotationen überlappen. Weiterhin werden detektierte Fahrzeuge erst dann zur Auswertung herangezogen, wenn die Höhe der überdeckten Teilregion mindestens 60 Bildpunkte beträgt.

Die Analyse betrachtet die Anzahl der richtig positiven (RP), falsch positiven (FP), falsch negativen (FN) und richtig negativen (RN) Detektionen auf dem Testdatensatz. Aus diesen Werten lässt sich die Genauigkeit (Precision) sowie die Trefferquote (Recall) folgendermaßen ermitteln:
$$\text{Genauigkeit}=\frac{\text{RP}}{\text{RP}+\text{FP}}\in[0,1]$$
(6)
$$\text{Trefferquote}=\frac{\text{RP}}{\text{RP}+\text{FN}}\in[0,1]$$
(7)
Sowohl die Genauigkeit als auch die Trefferquote des idealen Detektor beträgt eins. Allgemein ergibt sich durch diese Gütemaße ein Zielkonflikt, bei welchem der Ausgleich zwischen beiden Werten von der Wahl des Schwellwertes für die Konfidenz am Modellausgang abhängt.
Abb. 6

Genauigkeit und Trefferquote des verwendeten Modells ausgewertet auf dem Datensatz zur Fahrzeugdetektion

Abb. 6 trägt die sich ergebenden Werte der Gütemaße sowohl für die originale Architektur des Faster R‑CNN Ansatzes als auch für die in dieser Arbeit verwendeten Modifikationen gegeneinander auf. Hieraus ist ersichtlich, dass die Genauigkeit für das Modell unter Verwendung der Hintergrundsubstraktion signifikant früher abfällt, als für das ursprüngliche Modell, welches nahezu einem idealen Detektor entspricht.

Um die Modellgüte auf einen einzelnen Wert abzubilden, schlägt [4] vor, die in Abb. 6 aufgetragenen Genauigkeiten zu einer mittleren Genauigkeit, der sogenannten Mean Average Precision (mAP), zu verrechnen. Tabelle 1 führt die Genauigkeiten auf, und enthält zusätzlich die durchschnittliche Rechenzeit der vollständigen Verarbeitungskette als weiteres Kriterium.
Tab. 1

Vergleich der Hintergrundsubtraktion mit dem RPN

 

mAP [%]

Rechenzeit [ms]

Region Proposal Network

\(99,89\)

407

Hintergrundsubtraktion

\(90,84\)

313

Es zeigt sich, dass durch den Einsatz der Hintergrundsubtraktion zur Erzeugung von Objekthypothesen die Modellgüte nach mAP um etwa 9 % abnimmt, während die Berechnungsgeschwindigkeit um 28,78 % steigt. Da beide Modelle eine ausreichende Detektionsgüte aufweisen, welche eine zuverlässige Positionsbestimmung der Fahrzeuge in den nachgelagerten Verarbeitsungsschritten ermöglicht [1], ergibt sich aus der eingesparten Rechenzeit direkt eine Reduktion der Hardwareanforderungen des Verkehrsüberwachungssystems.

6 Zusammenfassung und Ausblick

Dieser Beitrag betrachtet die automatische Detektion von Fahrzeugen mittels eines statischen Kamerasystems. Hierzu wird das aus der Literatur bekannte Verfahren Faster R‑CNN [19] dahingehend modifiziert, dass es die besonderen Eigenschaften von sequenziell aufgezeichneten Kamerabildern mit statischem Hintergrund ausnutzt, um die Rechenzeit des Verfahrens signifikant zu reduzieren. Auf dieser Grundlage wird die Architektur eines CNN-Modells hergeleitet und unter Zuhilfenahme eines für diesen Zweck aufgezeichneten Datensatzes bewertet. Dabei zeigt sich die grundsätzliche Eignung des skizzierten Verfahrens für den Einsatz in der Verkehrsüberwachung.

Aus den erzielten Ergebnissen geht hervor, dass sich für das in dieser Arbeit vorgeschlagene Verfahren eine moderate Abnahme der Detektionsgüte im Vergleich zu dem ursprünglichen Faster R‑CNN Modell ergibt. In zukünftigen Arbeiten wird daher untersucht, ob dieser Effekt durch eine geringere Einschränkung des Suchraumes vermieden werden kann. Eine mögliche Realisierung besteht darin, pro Objekthypothese nicht nur eine einzige Bounding Box sondern auch eine geringe Anzahl zusätzlicher Boxen mit leicht veränderten Dimensionen und Seitenverhältnissen zu berücksichtigen. Ebenfalls stellt die Analyse alternativer Teilmodelle zur Merkmalsextraktion mit dem Ziel einer zusätzlichen Reduktion des Rechenaufwands einen Schwerpunkt zukünftiger Arbeiten dar. Weiterhin gilt es die Robustheit des Ansatzes gegenüber wechselnden Wetter- und Lichtverhältnissen zu analysieren.

Literatur

  1. 1.
    Choi W (2015) Near-online multi-target tracking with aggregated local flow descriptor. In: Proceedings of the IEEE, International Conference on Computer Vision, S 3029–3037Google Scholar
  2. 2.
    Cucchiara R, Grana C, Piccardi M, Prati A (2003) Detecting moving objects, ghosts, and shadows in video streams. IEEE Trans Pattern Anal Mach Intell.  https://doi.org/10.1109/TPAMI.2003.1233909 Google Scholar
  3. 3.
    Dai J, Li Y, He K, Sun J (2016) R‑fcn: Object detection via region-based fully convolutional networks. http://arxiv.org/pdf/1605.06409v2 Google Scholar
  4. 4.
    Everingham M, Van Gool L, Williams CK, Winn J, Zisserman A (2010) The pascal visual object classes (voc) challenge. Int J Comput Vis 88(2):303–338CrossRefGoogle Scholar
  5. 5.
    Freund Y, Schapire RE (1997) A decision-theoretic generalization of on-line learning and an application to boosting. J Comput Syst Sci 55(1):119–139.  https://doi.org/10.1006/jcss.1997.1504 MathSciNetCrossRefzbMATHGoogle Scholar
  6. 6.
    Geiger A, Lenz P, Urtasun R (2012) Are we ready for autonomous driving? the kitti vision benchmark suite. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 3354–3361.  https://doi.org/10.1109/CVPR.2012.6248074
  7. 7.
    Girshick R (2015) Fast r‑cnn. In: Proceedings of the IEEE, International Conference on Computer Vision, S 1440–1448Google Scholar
  8. 8.
    Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580–587 (2014).  https://doi.org/10.1109/CVPR.2014.81
  9. 9.
    Goodfellow I, Bengio Y, Courville A (2016) Deep learning. MIT Press, Cambridge, Massachusetts, and London, England. http://www.deeplearningbook.org zbMATHGoogle Scholar
  10. 10.
    He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770–778 (2016).  https://doi.org/10.1109/CVPR.2016.90
  11. 11.
    Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K (2017) Speed/accuracy trade-offs for modern convolutional object detectors. http://arxiv.org/pdf/1611.10012v3 CrossRefGoogle Scholar
  12. 12.
    Ioffe S, Szegedy C (1502) Batch normalization: Accelerating deep network training by reducing internal covariate shift. Corr Abs 03167(2015):448–456Google Scholar
  13. 13.
    Krizhevsky A, Sutskever I, Hinton GE (2017) Imagenet classification with deep convolutional neural networks. Commun ACM 60(6):84–90.  https://doi.org/10.1145/3065386 CrossRefGoogle Scholar
  14. 14.
    Lin TY, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick CL (2014) Microsoft coco: Common objects in context. In: European Conference on Computer Vision. Springer, Cham, S 740–755.  https://doi.org/10.1007/978-3-319-10602-1_48 Google Scholar
  15. 15.
    Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu CY, Berg AC (2016) Ssd: Single shot multibox detector. In: European Conference on Computer Vision. Springer, Cham, S 21–37.  https://doi.org/10.1007/978-3-319-46448-0_2 Google Scholar
  16. 16.
    Multi Funktionales Detektions System. www.mfds.eu/de/das-mfds. Abgerufen am: 26. Okt. 2018
  17. 17.
    Piccardi, M.: Background subtraction techniques: a review. In: P. Wieringa (ed.) 2004 IEEE International Conference on Systems, Man & Cybernetics, pp. 3099–3104. IEEE, Piscataway (N.J.) (op. 2004).  https://doi.org/10.1109/ICSMC.2004.1400815
  18. 18.
    Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779–788 (2016).  https://doi.org/10.1109/CVPR.2016.91
  19. 19.
    Ren S, He K, Girshick R, Sun J (2017) Faster r‑cnn: towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell 39(6):1137–1149CrossRefGoogle Scholar
  20. 20.
    Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M, Berg AC, Fei-Fei L (2015) Imagenet large scale visual recognition challenge. http://arxiv.org/pdf/1409.0575v3 CrossRefGoogle Scholar
  21. 21.
    Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. http://arxiv.org/pdf/1409.1556v6 Google Scholar
  22. 22.
    Statistisches Bundesamt: Unfallentwicklung auf deutschen Strassen 2017 (2017)Google Scholar
  23. 23.
    Suzuki, S., be, K.: Topological structural analysis of digitized binary images by border following. Computer Vision, Graphics, and Image Processing 30(1), 32–46 (1985).  https://doi.org/10.1016/0734-189X(85)90016-7
  24. 24.
    Szegedy C, Ioffe S, Vanhoucke V, Alemi A (2016) Inception-v4, inception-resnet and the impact of residual connections on learning. CoRR abs/1602.07261. http://arxiv.org/abs/1602.07261 Google Scholar
  25. 25.
    Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1–9 (2015).  https://doi.org/10.1109/CVPR.2015.7298594
  26. 26.
    Titterington, D.M.: Recursive parameter estimation using incomplete data. Journal of the Royal Statistical Society. Series B (Methodological) pp. 257–267 (1984).  https://doi.org/10.1111/j.2517-6161.1984.tb01296.x
  27. 27.
    Toyama K, Krumm J, Brumitt B, Meyers B (1999) Wallflower: Principles and practice of background maintenance. In: Proceedings of the 7th IEEE International Conference on Computer Vision, vol. 1, pp. 255–261. IEEEGoogle Scholar
  28. 28.
    Uddagiri C, Das T (2011) A survey of techniques for background subtraction and traffic analysis on surveillance video. Univers J Appl Comput Sci Technol 1(3):107–113Google Scholar
  29. 29.
    Viola, P., Jones, M.: Rapid object detection using a boosted cascade of simple features. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. I–511–I–518. IEEE (8-14 Dec. 2001).  https://doi.org/10.1109/CVPR.2001.990517
  30. 30.
    Wiener N, (1949) Extrapolation, interpolation, and smoothing of stationary time series. With Eng Appl 1:1–123zbMATHGoogle Scholar
  31. 31.
    Yang, B., Yan, J., Lei, Z., Li, S.Z.: Aggregate channel features for multi-view face detection. In: IEEE International Joint Conference on Biometrics, pp. 1–8. IEEE (29. Sept. 2014 - 2. Okt. 2014).  https://doi.org/10.1109/BTAS.2014.6996284
  32. 32.
    Yosinski J, Clune J, Bengio Y, Lipson H (2014) How transferable are features in deep neural networks? In: Advances in neural information processing systems Bd. 27. MIT Press, Cambridge, S 3320–3328Google Scholar
  33. 33.
    Zivkovic Z (2004) Improved adaptive gaussian mixture model for background subtraction. In: Proceedings of the 17th International Conference on Pattern Recognition Bd. 2. IEEE, Piscataway, NJ, S 28–31Google Scholar
  34. 34.
    Zivkovic Z, van der Heijden F (2006) Efficient adaptive density estimation per image pixel for the task of background subtraction. Pattern Recognit Lett 27(7):773–780.  https://doi.org/10.1016/j.patrec.2005.11.005 CrossRefGoogle Scholar

Copyright information

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

Authors and Affiliations

  1. 1.TU DortmundDortmundDeutschland

Personalised recommendations