Abschließend soll ein Resümee der vorliegenden Forschungsarbeit gezogen werden. Hierbei ist Abschnitt 7.1 der inhaltlichen Zusammenfassung der Arbeit sowie der Beantwortung der in Abschnitt 1.2 formulierten Forschungsfragen gewidmet. In Abschnitt 7.2 wird ein Ausblick auf weitere Forschungsbedarfe und zukünftige Forschungsarbeiten gegeben.

7.1 Zusammenfassung und Diskussion

Im Rahmen dieser Forschungsarbeit wurde eine Methode entwickelt, die ein Vorgehen zur Adaption, Integration und Anwendung von RL-Verfahren für die Produktionsablaufplanung beschreibt. Vor dem Hintergrund aktueller Herausforderungen und Tendenzen im Bereich der Produktion und Logistik wurde die Entwicklung der Methode durch den Umstand motiviert, dass derzeitige Lösungsverfahren der Produktionsablaufplanung keinen Kompromiss zwischen Lösungsgüte, Rechenzeit und Implementierungsaufwand erzielen. Die Entwicklung der Methode erfolgte in Anlehnung an das »Information Systems Research Framework« von Hevner et al. (2004), bei welchem es sich um eine gestaltungsorientierte Forschungsmethodik handelt.

Im Zuge des Grundlagenkapitels zur Produktionsablaufplanung wurde der Untersuchungsbereich der Arbeit konkretisiert. Haupterkenntnis von Kapitel 2 war, dass sich die Produktionsablaufplanung auf die drei mathematischen Optimierungsprobleme »Ressourcenbelegungsplanung«, »Reihenfolgeplanung« und »Losbildung« reduzieren lässt.

Im Grundlagenkapitel zu RL-Verfahren wurden deren Charakteristiken sowie Unterschiede zu angrenzenden ML-Paradigmen herausgearbeitet. Die zentrale Erkenntnis aus Kapitel 3 war, dass RL-Verfahren grundsätzlich in gradientenabhängige und gradientenfreie Verfahren unterteilt werden können. Beide Verfahrensarten unterscheiden sich in der Interaktion zwischen Agent und Umgebung, insbesondere hinsichtlich der Art und des Zeitpunkts der Belohnungsvergabe. Anschließend wurde in Kapitel 4 eine Literaturrecherche zur Anwendung von RL-Verfahren für die Produktionsablaufplanung präsentiert. Die Literaturrecherche diente insbesondere der Konkretisierung der Forschungslücke und partiell der Beantwortung der ersten Forschungsfrage.

Das fünfte Kapitel widmete sich der Darlegung der Methode zum Einsatz von RL-Verfahren für die Produktionsablaufplanung. Diesbezüglich wurden zunächst in Abschnitt 5.1 die Grenzen des konventionellen stufenweisen Vorgehens für die Produktionsablaufplanung aufgezeigt und hierauf aufbauend acht Anforderungen an die zu entwickelnde Methode postuliert. Die Methode adressiert zwei Aspekte: (i) Die Integration und den Einsatz von RL-Verfahren in bestehende Produktionsabläufe sowie (ii) den Entwurf und die Implementierung von RL-basierten Entscheidungssystemen für die Produktionsablaufplanung. Bezugnehmend auf Aspekt (i) wurden in Abschnitt 5.2 die Grundzüge der agentenbasierten Produktionsablaufsteuerung hergeleitet, auf deren Basis RL-trainierte Agentenmodelle sowohl für Ablaufentscheidungen im Produktionsbetrieb als auch für die Vorberechnung von vollständigen Produktionsablaufplänen eingebunden werden können. Hinsichtlich Aspekt (ii) wurde in Abschnitt 5.3 ein siebenstufiges Vorgehensmodell vorgestellt, das zur Projektierung und Entwicklung von agentenbasierten Produktionsablaufsteuerungen anleitet. Abschließend wurde in Abschnitt 5.4 dargelegt, inwiefern die entwickelte Methode die in Abschnitt 5.1 postulierten Anforderungen erfüllt.

In Kapitel 6 wurden drei Fallstudien präsentiert, in denen unterschiedliche RL-agentenbasierte Lösungsstrategien für verschiedene Probleme der Produktionsablaufplanung untersucht wurden. Die Fallstudien dienten zum einen dem grundsätzlichen Nachweis der in Abschnitt 1.1 formulierten Forschungshypothese, dass RL-Methoden einen Ausgleich zwischen Lösungsgüte, Rechenzeit und Implementierungsaufwand bei der Berechnung von Produktionsablaufentscheidungen bewahren können. Zum anderen wurde anhand der Fallstudien die Funktionalität von verschiedenen Komponenten der entwickelten Methode aufgezeigt.

Bezugnehmend auf die in Abschnitt 1.1 formulierte Forschungshypothese ist hervorzuheben, dass die untersuchten RL-Verfahren nicht nur bessere Lösungen als die ebenfalls echtzeitfähigen Prioritätsregeln generieren, sondern mitunter sogar bessere Ergebnisse erzielen als die problemspezifische ISBO-Heuristik sowie diverse Metaheuristiken. Diese Erkenntnis ist bemerkenswert, insbesondere weil im Vorfeld die Annahme bestand, dass problemspezifische Heuristiken und Metaheuristiken eine höhere Lösungsgüte zu Lasten des Implementierungsaufwands und ihrer Übertragbarkeit (problemspezifische Heuristiken) bzw. ihrer Rechenzeit (Metaheuristiken) aufweisen. Metaheuristiken sind aufgrund ihrer iterativen stochastischen Suchweise nicht echtzeitfähig, während die ISBO-Heuristik einen hohen spezifischen Implementierungsaufwand erfordert. Demgegenüber sind gewöhnlich alle RL-trainierten Agenten in der Lage, einen vollständigen Produktionsablaufplan in weniger als einer Sekunde zu generieren, was für die meisten produktionslogistischen Anwendungsfälle eine ausreichend kleine Zeitschranke darstellt, um echtzeitfähig zu agieren. Überraschenderweise beansprucht das Agententraining lediglich eine in etwa genauso hohe oder gar geringere Rechenzeit als die meisten Metaheuristiken benötigen, um auf einer Probleminstanz eine anforderungsgerechte Lösung zu finden.

Hinsichtlich des Implementierungsaufwands von RL-Verfahren verglichen zu konventionellen Lösungsmethoden ist ein abschließendes Urteil schwierig, da sich dieser nur schwer objektiv quantifizieren lässt. Jedoch kann attestiert werden, dass die untersuchten RL-Verfahren hinsichtlich ihres Funktionsprinzips ähnlich generisch anwendbar sind wie Metaheuristiken. Allerdings müssen für gradientenabhängige RL-Verfahren eine Vielzahl von Besonderheiten bei der Modellierung der Agentenumgebung beachtet werden, insbesondere dass diese die Eigenschaften eines MEP erfüllen muss. Gradientenfreie RL-Verfahren hingegen sind von diesen Besonderheiten nicht betroffen, sodass ihr Implementierungsaufwand mit Metaheuristiken vergleichbar ist. Sowohl für gradientenabhängige als auch für gradientenfreie RL-Verfahren müssen der Zustands- und Aktionsraum sowie die Belohnungsfunktion stets problemspezifisch implementiert werden. Diesbezüglich besteht jedoch bei der Anwendung von Metaheuristiken ein ähnlicher Aufwand, nämlich für die problemspezifische Kodierung von Lösungskandidaten sowie für die problemspezifische Gestaltung der Fitnessfunktion.

Abschließend hat das wissenschaftliche Vorgehen zum Ziel, die in Kapitel 1 formulierten Forschungsfragen zu beantworten. Tabelle 7.1 beinhaltet die Forschungsfragen sowie deren Beantwortung. Zusammengefasst konnten die im Vorfeld formulierten Forschungsfragen im Rahmen dieser Arbeit beantwortet werden. Im Zuge der Entwicklung der Methode haben sich jedoch weitere Forschungsbedarfe ergeben, die im Ausblick dieser Arbeit skizziert werden.

Tabelle 7.1 Beantwortung der Forschungsfragen aus Abschnitt 1.2

7.2 Ausblick

Aufgrund von steigenden Kundenanforderungen und komplexeren Produktionsprozessen erreichen bereits heutzutage herkömmliche Lösungsverfahren für die Produktionsablaufplanung die Grenzen ihrer Leistungsfähigkeit. Vor diesem Hintergrund wurde in der vorliegenden Arbeit aufgezeigt, dass RL-Verfahren eine sinnvolle Alternative für die Produktionsablaufplanung unter beschränkter Zeit darstellen kann. Für viele klein- und mittelständische Unternehmen stellt der Einsatz von RL-Verfahren derzeit noch eine Herausforderung dar, insbesondere weil die agentenbasierte Entscheidungsfindung zeitpunktaktuelle Daten von Aufträgen und des Produktionssystems erfordert. Mit der fortschreitenden Digitalisierung der Produktion werden zukünftig RL-Verfahren einfacher, leistungsfähiger und schneller in die Anwendung gebracht werden können.

Durch die Einführung von ERP-Systemen können bereits heute viele Unternehmen auf Echtzeitdaten aus dem Produktionsbetrieb zugreifen. Eine durchgängige digitale Abbildung von Unternehmensprozessen innerhalb von ERP-Systemen vereinfacht die Datenbereitstellung für RL-Verfahren beträchtlich. Ferner werden konventionelle Werkzeugmaschinen und Montagearbeitsplätze zunehmend funktionsreicher, intelligenter, und digitaler. Durch den Wandel von Produktionsressourcen zu cyber-physischen Systemen kann eine Vielzahl von zusätzlichen Informationen aus dem Produktionsprozess erhoben und RL-Verfahren zur Verfügung gestellt werden. Hierunter zählen z. B. der Verschleißzustand von Werkzeugen, die Prognose von Wartungszeitpunkten, die Ausschussrate von Produkten u. v. m. In Zukunft gilt es zu erforschen, ob durch zusätzliche Informationen aus dem Produktionsbetrieb, die im Rahmen dieser Arbeit noch keine Berücksichtigung gefunden haben, die Lösungsgüte von RL-Verfahren nochmals verbessert werden kann. Ferner wird zukünftig der Einsatz von RL-Verfahren ebenfalls durch die zunehmende Verfügbarkeit von Cloud-Computing-Diensten attraktiver. Hierdurch können Unternehmen jederzeit auf leistungsfähige Hardware für das Training von Agenten zugreifen, ohne diese selbst erwerben, einrichten, administrativ verwalten und technisch warten zu müssen.

Der wissenschaftliche Beitrag dieser Arbeit ist die Formalisierung des Entwicklungsprozesses von RL-basierten Lösungsstrategien für die Produktionsablaufplanung. Eine mögliche Limitation der zu diesem Zweck entwickelten Methode ist, dass die Produktionsbereichsmodelle und die Prozessmodelle für den Entwurf von Agentenumgebungen keine innerbetrieblichen Transportprozesse berücksichtigen. Insbesondere in Fertigungssystemen, die nach dem Werkstattprinzip organisiert sind und in welchen Transporte zwischen Produktionsressourcen über freibewegliche Flurförderer abgewickelt werden, ist es u. U. erforderlich innerbetriebliche Transporte mit in die Ablaufplanung zu integrieren. Diesbezüglich gilt es in Zukunft zu beforschen, wie die Produktionsbereichs- und Prozessmodelle erweitert werden müssen, sodass sie gleichermaßen für das Training von Agenten zur Steuerung von Transportressourcen geeignet sind.

Ferner dienten die in Kapitel 6 präsentierten Fallstudien lediglich als Nachweis, um die prinzipielle Tauglichkeit von RL-Verfahren für die Produktionsablaufplanung sowie verschiedene Aspekte der entwickelten Methode zu demonstrieren. Die vorliegende Arbeit trifft keine Aussage darüber,

  • welches RL-Verfahren,

  • welche Variante zur Formulierung von ML-Aufgaben,

  • welche Zustandsinformationen, geschweige denn

  • welche Belohnungsfunktionen

für welches Problem der Produktionsablaufplanung am geeignetsten sind, da der Schwerpunkt der Arbeit vornehmlich auf dem Vorgehen zum Entwurf und der Implementierung von RL-basierten Lösungsstrategien liegt. Dementsprechend wurde im Rahmen dieser Arbeit ebenfalls auf ausführliche Hyperparameter-Untersuchungen für einzelne RL-Verfahren verzichtet. Eine tiefgreifende Analyse von unterschiedlichen RL-Verfahren, Zustands- und Aktionsräumen sowie Belohnungsfunktionen für spezifische Problemen der Produktionsablaufplanung ist Gegenstand zukünftiger Arbeiten. Es wird erwartet, dass durch diese Maßnahmen die Lösungsgüte und die Konvergenzgeschwindigkeit von RL-basierten Lösungsstrategien nochmals verbessert werden kann.

Eine weitere Hürde für die Anwendung von RL-Verfahren im industriellen Umfeld ist die mangelnde Transparenz in den Entscheidungsprozessen von trainierten Agenten. Für Anwender*innen ist zwar ersichtlich, welche Zustände zu welchen Aktionen führen, jedoch kann nur schwer nachvollzogen werden, warum ein Agent für einen gegebenen Zustand auf eine bestimmte Entscheidung schließt. Die Intransparenz von Agentenentscheidungen erschwert die Akzeptanz von RL-Verfahren in der industriellen Anwendung. Ein tieferes Verständnis für die Entscheidungsprozesse von Agenten würde dazu beitragen, deren Einsatzgrenzen besser bewerten zu können. Des Weiteren bietet eine transparentere Entscheidungspolitik das Potenzial, diese gezielter für den Fall anzupassen, dass der Agent eine Fehlentscheidung generiert. Die Entwicklung von Methoden und Modellen, die Agentenentscheidungen verständlicher und die Verarbeitung von Zustandsdaten zu Aktionen für den Menschen transparent machen, ist eine der größten zukünftigen Herausforderungen in der RL-Forschung im Speziellen und der ML-Forschung im Allgemeinen.