Der Einsatz von RL für die Produktionsablaufplanung findet in der Wissenschaft noch vergleichsweise geringe Beachtung. Ungeachtet dessen erschienen in den vergangenen Jahrzehnten einige themenbezogene Veröffentlichungen, die im Folgenden diskutiert werden sollen. Anhand einer Literaturanalyse soll aufgezeigt werden, auf welche Art und Weise RL-trainierte Agenten für die Produktionsablaufplanung eingesetzt werden können. Die Literaturstudie dient somit im Wesentlichen der Beantwortung der ersten Forschungsfrage aus Abschnitt 1.2. Ferner sollen die Ergebnisse der Literaturanalyse in die Entwicklung der Methode (siehe Kapitel 5) einfließen, um diese so allgemeingültig wie möglich zu gestalten. Zuletzt sollen mithilfe der Literaturstudie Forschungs- und Entwicklungsbedarfe aufgezeigt werden, die von den bisherigen Veröffentlichungen nicht oder nur unzureichend adressiert werden. Entsprechend der Organisation des theoretischen Grundlagenkapitels zu RL werden die recherchierten Arbeiten in gradientenabhängige und gradientenfreie Verfahren für die Produktionsablaufplanung untergliedert.

4.1 Gradientenabhängige Verfahren für die Produktionsablaufplanung

Während den Arbeiten an der vorliegenden Dissertation wurden insgesamt 57 Publikationen analysiert, die den Einsatz von gradientenabhängigen RL-Verfahren für die Produktionsablaufplanung untersuchen. Wie in Abbildung 4.1 dargestellt, lassen sich die recherchierten Veröffentlichungen in fünf Kategorien untergliedern, welche unterschiedliche Einsatzarten von RL-Methoden für die Produktionsablaufplanung adressieren. Im Folgenden sollen die fünf Einsatzarten beschrieben und anhand einiger ausgewählter Publikationen veranschaulicht werden.

Abbildung 4.1
figure 1

Kategorisierung der recherchierten Forschungsarbeiten, die gradientenabhängige Methoden des bestärkenden Lernens für die Produktionsablaufplanung untersuchen

4.1.1 Agentenbasierte Auswahl von Prioritätsregeln

Die Mehrheit der relevanten Forschungsarbeiten verwendet RL-Verfahren, um einen Agenten hinsichtlich der Auswahl von Prioritätsregeln in Abhängigkeit vom aktuellen Zustand des Produktionssystems zu trainieren. In Abschnitt 2.3.3.2 wurden bereits einige populäre Prioritätsregeln eingeführt. Das zugrundeliegende Entscheidungsproblem besitzt einen diskreten Aktionsraum, wobei jede Aktion mit der Auswahl einer Prioritätsregel assoziiert wird. Der Agent kann somit bspw. durch ein Klassifikator-KNN repräsentiert werden.

Die erste Veröffentlichung, die diesen Ansatz beschreibt, stammt von Rabelo et al. (1994). Die Autoren nutzen Q-Learning, um für ein stochastisches Job-Shop-Problem ein Ensemble von 15 KNN zu trainieren, wobei jedes KNN mit einer bestimmten Prioritätsregel assoziiert wird. Jedes KNN besitzt genau ein Ausgabeneuron, das die Wahrscheinlichkeit für die Auswahl der assoziierten Prioritätsregel ausgibt. Die Autoren entscheiden sich bewusst gegen die Verwendung eines KNN mit mehreren Ausgabeneuronen. Auf diese Weise vermeiden sie, dass bei der Aktualisierung eines Aktionsnutzens, aufgrund von gemeinsamen versteckten Neuronenschichten, die anderen Aktionsnutzen ebenfalls beeinflusst werden. Der Zustand, der in jedes KNN eingeht, umfasst Informationen zu Bearbeitungszeiten, Prozesszeiten, Rüstzeiten und Fertigstellungsfristen von Aufträgen in den entsprechenden Warteschlangen. Das Optimierungsziel der Autoren ist die Minimierung des Umlaufbestands, wobei Q-Learning die besten Ergebnisse erzielt, verglichen zur Anwendung von einzelnen Prioritätsregeln.

Aydin und Öztemel (2000) sowie Wang und Usher (2004, 2005) wenden ebenfalls Q-Learning für ein statisches Job-Shop- bzw. Ein-Maschinen-Problem an. Beide Arbeiten verzichten auf den Einsatz von KNN, um die Wahrscheinlichkeit für die Auswahl einer Prioritätsregel zu bestimmen. Stattdessen werden in der Aktionsnutzentabelle die verschiedenen Zustände der jeweiligen Produktionsumgebung direkt mit den auswählbaren Prioritätsregeln in Beziehung gesetzt. Beide Autoren berücksichtigen die Warteschlangenlänge bei der Bildung von Zuständen. Aydin und Öztemel berücksichtigen darüber hinaus die durchschnittliche Schlupfzeit der Aufträge in der Warteschlange, während Wang und Usher für jede Entscheidung eine Schätzung der Gesamtverspätung miteinbeziehen.

Shiue et al. (2018) analysieren den Einsatz von Q-Learning zur Auswahl von Prioritätsregeln in einem flexiblen Fertigungssystem, bestehend aus drei Ressourcen mit unterschiedlichen Kapazitäten, die durch drei fahrerlose Transportsysteme aus einem zentralen Puffer beliefert werden. Die Autoren berücksichtigen 30 Systemattribute, um den Zustand des Produktionssystems zu beschreiben, sowie fünf Prioritätsregeln als mögliche Aktionen. Der Agent wird durch eine Tabelle repräsentiert. Um die Dimensionalität der Tabelle zu reduzieren, verwenden die Autoren eine selbstorganisierende Karte (Kohonen 1990), die sich den Methoden des unüberwachten Lernens zuordnet. Konkret werden mithilfe der selbstorganisierenden Karte Systemattribute nach Ähnlichkeit gruppiert und zu aggregierten Zuständen konsolidiert. Die Autoren untersuchen drei Optimierungskriterien, nämlich die Maximierung des Systemdurchsatzes, die Minimierung der mittleren Durchlaufzeit und die Minimierung der Anzahl verspäteter Aufträge. Der Q-Learning-Ansatz der Autoren leistet für alle drei Optimierungskriterien die besten Ergebnisse. Dabei ist hervorzuheben, dass der Ansatz bessere Ergebnisse erzielt als ein genetischer Algorithmus, der ebenfalls auf das Problem angewandt wurde. In einer nachfolgenden Veröffentlichung untersuchen die Autoren denselben Ansatz anhand einer weiteren Fallstudie aus der Halbleiterindustrie, unter weitgehender Berücksichtigung derselben Aktionen und Zustände (Shiue et al. 2020).

Ebenfalls wurden in jüngster Zeit DRL-Ansätze für die Auswahl von Prioritätsregeln beforscht. Sowohl Lin et al. (2019) als auch Luo (2020) untersuchen den DQN-Algorithmus zur Auswahl von Prioritätsregeln in einem Job-Shop-Problem. Lin et al. verfolgen als Optimierungsziel die Minimierung der Gesamtdauer des Ablaufplans. Sie berücksichtigen insgesamt zehn Attribute, um den Zustand des Produktionssystems zu definieren, u. a. die Anzahl der Ressourcen, die Anzahl der Aufträge, die Summe aller Prozesszeiten über alle Operationen und Aufträge, die maximale und minimale Prozesszeit über alle Operationen und Aufträge u. v. m. Hierbei kann der Agent zwischen sieben verschiedenen Prioritätsregeln wählen. In Experimenten auf mehreren Probleminstanzen erzielt DQN im Mittel bessere Ergebnisse als jede einzeln angewandte Prioritätsregel. Luo verfolgt die Minimierung der Gesamtverspätung über alle Aufträge als Optimierungskriterium. Der aktuelle Zustand des Produktionssystems setzt sich aus (i) dem Mittelwert und (ii) der Standardabweichung der Ressourcenauslastung, (iii) dem mittleren Ressourcendurchsatz, (iv) dem Mittelwert und (v) der Standardabweichung des Systemdurchsatzes sowie (vi) der prognostizierten und (vii) der wahren Anzahl verspäteter Aufträge zusammen. Die Aktionen des Agenten umfassen sechs selbstentwickelte Prioritätsregeln. In mehr als 50 Prozent der Experimente leistet der DQN-Ansatz von Luo bessere Ergebnisse als die alleinige Anwendung einer einzelnen Prioritätsregel.

Die diskutierten Beiträge bilden lediglich einen Teil der Arbeiten ab, die RL-trainierte Agenten zur Auswahl von Prioritätsregeln untersuchen. Sie wurden stellvertretend beschrieben, um das Funktionsprinzip zu verdeutlichen. Darüber hinaus existiert eine Vielzahl weiterer artverwandter Arbeiten, bei welchen der Agent zustandsabhängig zwischen verschiedenen Prioritätsregeln wechselt, z. B. (Heger und Voss 2020), welche neuronales Q-Learning für ein stochastisches Job-Shop-Problem zur Reduzierung der mittleren Verspätung untersuchen, (Wang et al. 2020), welche einen zweistufigen Q-Learning-Ansatz zur Minimierung von Stillstandzeiten und der Auslastungsimbalance von Ressourcen sowie zur Minimierung der Kosten für zu früh produzierte Aufträge für ein Job-Shop-Problem vorstellen, u. v. m. (Wei und Zhao 2005; Wei et al. 2009a, 2009b; Zhang et al. 2013; Bouazza et al. 2015; Yuan et al. 2016; Bouazza et al. 2017; Wang et al. 2017).

4.1.2 Agentenbasierte Ressourcenbelegungsplanung

Einige Arbeiten präsentieren Ansätze, in welchen ein RL-Agent Aufträge zur weiteren Bearbeitung auf stationäre Produktionsressourcen verteilt bzw. mobile Produktionsressourcen stationären Produktionsressourcen zuweist, um eine bestimmte Operation an einem Auftrag durchzuführen. Auch hier besitzt das zugrundeliegende Entscheidungsproblem einen diskreten Aktionsraum, wobei jede Aktion mit einer Ressource assoziiert wird.

Arviv et al. (2016) verwenden Q-Learning für das Training von zwei Agenten, die jeweils einen Transportroboter in einem Flow-Shop steuern. Jede Ressource des Flow-Shops besitzt einen Eingangs- und Ausgangspuffer. Die Ressourcen sind nicht fest miteinander verkettet, wodurch der vollständige Materialfluss über beide Transportroboter realisiert wird. Ungeachtet dessen müssen alle Produkte alle Ressourcen in derselben Reihenfolge durchlaufen. Immer dann, wenn ein Transportroboter verfügbar ist, entscheidet der jeweilige Agent, welcher nachfolgende Auftrag vom Ausgangspuffer einer Ressource \(i\) zum Eingangspuffer der Ressource \(i + 1\) transportiert werden soll. Aufträge, die auf der letzten Ressource bearbeitet wurden, verlassen das System, ohne auf einen weiteren Transport angewiesen zu sein. Folglich umfasst der Aktionsraum für \(m\) Ressourcen \(m - 1\) Aktionen. Für die Bestimmung der nächsten Aktion berücksichtigt jeder Agent den Zustand jedes Puffers (leer = 0 oder belegt = 1) und jeder Ressource (unproduktiv = 0, produktiv = 1). Für die Bestrafung von Aktionen werden die Zeitanteile, in denen die Roboter keine Aufträge transportieren, sowie die Wartezeiten von Aufträgen in Puffern gemessen. Das übergeordnete Optimierungskriterium ist die Minimierung der Gesamtdauer des Ablaufplans. Um ihre Ergebnisse vergleichen zu können, schätzen die Autoren eine untere Schranke für die optimale Lösung. Hierbei erreicht das Multiagentensystem eine Lösungsgüte von bis zu 99,8 Prozent der unteren Schranke.

Arinez et al. (2017) betrachten ein Produktionssystem mit zwei Fertigungszellen und einem zentralen Puffer, in welchem Produktionsaufträge durch einen Portalkran transportiert werden. Die Autoren verwenden Q-Learning, um eine agentenbasierte Steuerungsstrategie für den Portalkran zu optimieren. In jedem Zustand hat der Agent fünf Aktionen zur Auswahl, nämlich die erste oder zweite Fertigungszelle zu Be- oder Entladen oder alternativ keine Aktion auszuführen und im Ruhezustand zu verweilen. Für die Entscheidungsfindung berücksichtigt der Agent den Zustand der Fertigungszellen (produzierend, inaktiv, beladend, entladend, auf Portalkran wartend), die verbleibende Zeit der in den Fertigungszellen laufenden Operationen sowie den aktuellen Pufferbestand. Das Optimierungskriterium der Autoren ist die Maximierung der Produktivität. Diesbezüglich leistet die agentenbasierte Steuerung bessere Ergebnisse als eine Steuerung nach dem »First-Come-First-Serve«-Prinzip (FIFO-Regel). Ou et al. (2018) verfolgen denselben Ansatz für ein sehr ähnliches Problem unter Berücksichtigung desselben Optimierungskriteriums. Auch hier ist ein Portalkran für den Transport von Aufträgen verantwortlich. Das betrachtete Produktionssystem umfasst jedoch vier Ressourcen und drei Puffer. Bezugnehmend auf dieselbe Problemart analysieren Ou et al. (2019) den Einfluss von verschiedenen Belohnungsfunktionen auf das Agententraining.

Qu et al. (2018) trainieren mithilfe des REINFORCE-Algorithmus ein Multiagentensystem hinsichtlich der Zuweisung von Aufträgen zu Produktionsressourcen in einem mehrstufigen Fertigungssystem. Hierbei unterliegen die Art, Systemeintrittszeit und Bearbeitungszeiten von Aufträgen stochastischen Schwankungen. Jeder Produktionsstufe ist ein Agent zugeordnet. In Abhängigkeit von Informationen der jeweils vorgelagerten Puffer (Eingangszustand) entscheidet jeder Agent für die jeweilige Produktionsstufe, welcher Auftrag auf welcher Ressource bearbeitet werden soll (Aktionen). Die zu optimierende Zielfunktion und die Belohnungsfunktion berücksichtigen u. a. die Höhe der Umlaufbestände sowie die fristgerechte Fertigstellung von Aufträgen. Der Ansatz der Autoren leistet im Mittel bessere Ergebnisse als die Anwendung von statischen Prioritätsregeln.

Stricker et al. (2018) trainieren mit dem Q-Learning-Algorithmus einen Agenten, der durch ein KNN repräsentiert wird. Die Aufgabe des Agenten ist die Verteilung von Auftragslosen auf Produktionsressourcen in einem Halbleiter-Produktionssystem. Das Produktionssystem beinhaltet acht Ressourcen, drei schienengeführte Transport-Shuttles und eine mobile Servicetechnik-Fachkraft, welche für die Behebung von zufällig auftretenden Störungen an den Ressourcen verantwortlich ist. Auftragslose werden auf genau einer Ressource bearbeitet und verlassen danach das System mithilfe eines Transport-Shuttles. Jedes Shuttle kann bis zu fünf Auftragslose transportieren. Zudem besitzt jede Ressource einen Eingangspuffer, in welchem einige wenige Lose zwischengelagert werden können. Der Agent berücksichtigt 32 Informationen zur Bildung von Eingangszuständen, u. a. die Anzahl bearbeiteter und unbearbeiteter Auftragslose auf jeder Maschine, die Zielorte der auf den Transport-Shuttles geladenen Auftragslose sowie die aktuelle Position der Servicetechnik-Fachkraft. Eine Besonderheit bei Stricker et al. ist, dass der RL-trainierte Agent selbst als mobile Ressource betrachtet wird und seinen Standort entweder zu einer Ressource oder zu einem Transport-Shuttle verlagern kann. In Abhängigkeit vom Standort ändern sich die Bezugsobjekte, die der Agent durch seine Aktionen beeinflusst. Der Agent kann entweder ein Auftragslos einer Produktionsressource zuweisen, ein bereits alloziertes Los wieder auf ein Transport-Shuttle laden, seine eigene Position zu einem anderen Standort verlagern oder keine Aktion ausführen, um auf den nächsten Zustand zu warten. Die Autoren messen die Leistung des Agenten anhand der mittleren Systemauslastung und der mittleren Durchlaufzeit eines Auftrags. Der Ansatz der Autoren kann im Vergleich zu einer regelbasierten Heuristik die mittlere Systemauslastung um acht Prozent erhöhen und die mittlere Durchlaufzeit von 125 auf 118 Minuten reduzieren.

Darüber hinaus existieren einige weitere Arbeiten, die den Einsatz von RL-trainierten Agenten für die Ressourcenbelegungsplanung untersuchen (Martínez et al. 2011; Xue et al. 2018; Han et al. 2019; Kuhnle et al. 2019; Guo et al. 2020; Park et al. 2020; Zhou et al. 2020; Shi et al. 2020; Kuhnle et al. 2021; Park et al. 2021; Zhou et al. 2021).

4.1.3 Agentenbasierte Reihenfolgeplanung

Gemessen an der Anzahl der recherchierten Publikationen bildet die agentenbasierte Reihenfolgeplanung die dritte Haupteinsatzart von RL-Methoden für die Produktionsablaufplanung. Im Rahmen der Reihenfolgeplanung entscheidet der Agent, in welcher Sequenz die Aufträge in einer Warteschlange abgearbeitet werden. Wie die folgenden Arbeiten aufzeigen, kann sich die Art und Weise der Formulierung des jeweiligen Sequenzierungsproblems stark unterscheiden. Aus diesem Grund ist der vorliegende Abschnitt umfangreicher als die anderen Abschnitte zu den jeweiligen Einsatzarten. Bis auf die Arbeit von Gabel und Riedmiller (2012) haben jedoch alle diskutierten Arbeiten gemeinsam, dass die Aktionsräume der Agenten diskreter Natur sind. Im Kontext von DRL würde der Agent somit durch ein KNN mit mehreren Ausgabeneuronen repräsentiert werden.

Tanaka und Yoshida (1999) verwenden ein einfaches TD-Lernverfahren, um Aufträge in einem Flow-Shop mit zwei bzw. drei Ressourcen zu sequenzieren. Das Optimierungskriterium ist die Minimierung der Gesamtdauer des Ablaufplans. Die Auftragssequenz wird vor der ersten Ressource festgelegt und ist zwischen den Ressourcen nicht permutierbar. Der Agent wird durch ein KNN mit einer versteckten Schicht repräsentiert. Die Grundüberlegung der Autoren ist, dass mit Johnsons Algorithmus (1954) bereits eine exakte Heuristik existiert, die ein Flow-Shop-Problem mit zwei Ressourcen optimal löst. Die Zielstellung der Autoren ist, eine Agentenrepräsentation von Johnsons Algorithmus zu finden, die ebenfalls für Flow-Shops mit mehr als zwei Ressourcen nahezu optimale Lösungen erzielt. Vor diesem Hintergrund berücksichtigt der Agent für seine Entscheidungen diverse Informationen, die ebenfalls Johnsons Algorithmus in den Lösungsprozess miteinbezieht, z. B. die Anzahl der Aufträge, bei denen die Prozesszeit auf der ersten Ressource größer als auf der zweiten Ressource ist. Die Autoren untersuchen drei verschiedene Kodierungsvarianten des Aktionsraums, wobei die erste und zweite Variante ebenfalls an Johnsons Algorithmus angelehnt sind, respektive an den Operationen, die der Algorithmus zur Lösungsbestimmung durchführt. Den Aktionen der ersten beiden Varianten liegen stets zwei Auftragslisten zugrunde. Die erste Auftragsliste umfasst alle Aufträge, bei denen die Prozesszeit auf der ersten Stufe kleiner gleich der Prozesszeit auf der zweiten Stufe ist, während die zweite Liste alle verbleibenden Aufträge umfasst. In der ersten Variante kann der Agent entweder aus der ersten Liste den Auftrag mit der minimalen Prozesszeit auf der ersten Stufe oder aus der zweiten Liste den Auftrag mit der maximalen Prozesszeit auf der zweiten Stufe wählen. Die zweite Variante ist eine Erweiterung der ersten Variante und umfasst acht mögliche Aktionen. Konkret kann der Agent aus der ersten bzw. zweiten Liste den Auftrag mit der minimalen bzw. maximalen Prozesszeit der ersten bzw. zweiten Stufe wählen. In der dritten Variante entspricht die Anzahl auswählbarer Aktionen der Anzahl einzuplanender Aufträge, sodass die Auswahl einer Aktion mit der Auswahl eines Auftrags assoziiert wird. Die Autoren stellen fest, dass der Agent optimale Auftragsreihenfolgen auf denjenigen Probleminstanzen findet, die ebenfalls mit Johnsons Algorithmus optimal gelöst werden können. Bei Probleminstanzen, die mit Johnsons Algorithmus nicht nachweisbar optimal gelöst werden können, war der Agent nicht in der Lage bessere Lösungen als Johnsons Algorithmus zu erzielen.

Hong und Prabhu (2001; 2004) untersuchen den Einsatz von Q-Learning, um einen Agenten hinsichtlich der Auswahl der nächsten zu produzierende Auftragsfamilie zu trainieren. Als Optimierungskriterium verfolgen die Autoren die Minimierung der mittleren Unpünktlichkeit, wobei sich verfrühte als auch verspätete Aufträge gleichermaßen negativ auf die Zielfunktion auswirken. Für die Entscheidung berücksichtigt der Agent (i) die Anzahl von Aufträgen, die sich von jeder Familie in der Warteschlange befinden, (ii) die zuletzt produzierte Auftragsfamilie sowie (iii) die Anzahl bisher produzierter Aufträge. Die Autoren bewerten die Aktionen des Agenten über die Summe der Wartezeiten über alle noch nicht bearbeiteten Aufträge. Der Ansatz der Autoren leistet in allen Probleminstanzen bessere Ergebnisse als die EDD- und LST-Regel.

Ramirez-Hernandez und Fernandez (2007) betrachten eine Linienfertigung mit zwei Arbeitsstationen und vier kapazitätsbegrenzten Puffern. Jeder Auftrag muss ein weiteres Mal auf der ersten Arbeitsstation bearbeitet werden, wenn dieser bereits die erste und zweite Arbeitsstation durchlaufen hat. Der erste Puffer beinhaltet Aufträge, die noch nicht freigegeben wurden. Der zweite und dritte Puffer sind der ersten Arbeitsstation zugeordnet. Der zweite Puffer speichert neue freigegebene Aufträge, die das System noch nicht durchlaufen haben. Der dritte Puffer beinhaltet ausschließlich Aufträge, die zuvor von der zweiten Arbeitsstation bearbeitet wurden. Der vierte Puffer umfasst diejenigen Aufträge, die als nächstes an der zweiten Arbeitsstation bearbeitet werden müssen. Aufträge kommen kontinuierlich mit zufällig exponentialverteilten Zwischenankunftszeiten in das System. Das Puffern von Aufträgen ist mit Kosten verbunden, die pro Auftrag und Zeiteinheit anfallen. Die Zielstellung ist, die Lagerhaltungskosten für Umlaufbestände über die Zeit zu minimieren. Die Autoren untersuchen einen agentenbasierten Ansatz zur Steuerung der Auftragsfreigabe sowie der Auftragssequenzierung auf der ersten Stufe. Der Agent wird durch ein Actor-Critic-Modell repräsentiert, das mithilfe eines TD-Lernverfahrens trainiert wird. Der Agent berücksichtigt alle Pufferbestände als Eingangszustand. Sowohl die Auftragsfreigabe als auch -sequenzierung können über einen binären Aktionsraum abgebildet werden. Bei der Auftragsfreigabe entscheidet der Agent, ob der nächste Auftrag (FIFO-Prinzip) des ersten Puffers in den zweiten Puffer eingespeist werden soll. Immer dann, wenn die erste Arbeitsstation verfügbar wird, entscheidet der Agent im Zuge der Auftragssequenzierung, ob der nächste Auftrag aus dem zweiten oder dritten Puffer nach dem FIFO-Prinzip entnommen werden soll. Verglichen mit der globalen optimalen Entscheidungspolitik erzielt der Agent eine Lösungsgüte von über 98 Prozent.

Gabel und Riedmiller (2012) stellen ein Multiagentensystem vor, das für die Sequenzierung von Aufträgen in einem Job-Shop eingesetzt und mithilfe des REINFORCE-Algorithmus angelernt wird. Das Optimierungskriterium ist die Minimierung der Gesamtdauer des Ablaufplans. Jeder Ressource ist ein eigener Agent zugeordnet, der entscheidet, welche Operation von welchem Auftrag als nächstes bearbeitet wird. Der jeweilige Agent berücksichtigt als Zustand alle durchführbaren Operationen der Aufträge, die sich zum Zeitpunkt der Entscheidung in der Warteschlange der entsprechenden Ressource befinden. Diesbezüglich entspricht der Zustandsraum dem Aktionsraum. Zusätzlich kann jeder Agent von anderen Agenten eine Benachrichtigung erhalten, falls auf den umliegenden Ressourcen gerade ein Auftrag bearbeitet wird, der nachfolgend zu der Ressource des benachrichtigten Agenten gelangt. Auf diese Weise kann der Agent ebenfalls entscheiden, dessen Ressource im Leerlauf zu halten, um Kapazitäten für Aufträge mit hoher Priorität zu reservieren. Die Entscheidungspolitik eines Agenten wird durch eine Menge von trainierbaren Parametern repräsentiert, die der Menge der zu bearbeitenden Aufträge entspricht. Die Auswahlwahrscheinlichkeit eines Auftrags wird somit über exakt einen Parameter gesteuert. Sobald ein Auftrag auf einer Ressource eine Operation beendet, wird dieser einer nachfolgenden Ressource zugeordnet. Im Zuge dessen wird die soeben fertiggestellte Operation aus dem lokalen Zustands- und Aktionsraum des Agenten der vorausgegangenen Ressource entfernt. Gleichzeitig wird der Zustands- und Aktionsraum des Agenten der nachfolgenden Ressource um die nächste auszuführende Operation des Auftrags erweitert. In deterministischen Probleminstanzen erreicht der Ansatz der Autoren eine Lösungsgüte von knapp 94 Prozent der optimalen Lösung. In stochastischen Probleminstanzen leistet das Multiagentensystem bessere Ergebnisse als diverse Prioritätsregeln (FIFO, LPT, SPT, etc.).

Unlängst wurden auch DRL-Verfahren für die Sequenzierung von Aufträgen beforscht. Zwei vielzitierte Arbeiten stammen von Waschneck et al. (2018a; 2018b). Die Autoren präsentieren ein Multiagentensystem für ein Job-Shop-Problem aus der Halbleiterindustrie. Jedem Bearbeitungszentrum ist ein Agent zugeordnet, der über die Bearbeitungsreihenfolge der ihm zugewiesenen Fertigungslose entscheidet. Ein Agent wird durch ein KNN mit einer versteckten Schicht repräsentiert. Die Autoren verwenden den DQN-Algorithmus, um den Agenten zu trainieren. Im Zustandsraum berücksichtigt jeder Agent die aktuelle Verfügbarkeit und Rüstung des jeweiligen Bearbeitungszentrums. Zudem erhält der Agent die Information, welche Fertigungsoperationen von Aufträgen im Bearbeitungszentrum ausgeführt werden können. Des Weiteren analysiert der Agent für seine Entscheidungen diverse Daten der wartenden Aufträge, z. B. die Produkttypen, die Fertigstellungsfristen u. v. m. Der Aktionsraum des Agenten entspricht der Anzahl der Pufferplätze des jeweiligen Bearbeitungszentrums. Darüber hinaus existiert eine zusätzliche Aktion, welche impliziert, dass im aktuellen Zustand kein neues Los bearbeitet werden soll. Das Training der Agenten erfolgt in drei Phasen. Zunächst wird ein Agent mittels überwachten Lernens vortrainiert. Die Trainingslabels stammen von einem regelbasierten Expertensystem, welches das Unternehmen hinter der Problemstellung derzeit für die Steuerung der Produktion verwendet. In der zweiten Phase wird derselbe Agent für lediglich ein Bearbeitungszentrum mithilfe des DQN-Algorithmus trainiert, während die Auftragssequenzierung für die anderen Bearbeitungszentren durch eine einfache Heuristik erfolgt. In der dritten Phase werden alle Bearbeitungszentren durch Instanzen des vortrainierten DQN-Agenten gesteuert, wobei jeder Agent das Training separat fortführt. Die Vergabe von Belohnungen basiert maßgeblich auf der aktuellen Auslastung der Bearbeitungszentren. Ungültige Aktionen, z. B. die Auswahl eines nicht belegten Pufferplatzes für die Produktion, sowie der Abbruch der Simulation durch Systemüberlast werden mit einer Bestrafung von \(\left( { - 1} \right)\) bzw. \(\left( { - 2} \right)\) quittiert. Der DQN-Ansatz erzielt im Mittel die gleiche Lösungsgüte wie das bisher verwendete regelbasierte Expertensystem.

Weitere Arbeiten, die RL-trainierte Agenten für die Sequenzierung von Aufträgen und Operationen einsetzen, stammen u. a. von Tuncel et al. (2014), Fonseca-Reyna et al. (2015), Qu et al. (2016b), Méndez-Hernández et al. (2019), Tan et al. (2019), Zheng et al. (2019), Altenmüller et al. (2020) und Lee et al. (2020).

4.1.4 Agentenbasierte Losbildung

Drei der recherchierten Arbeiten betrachten die Produktionsablaufplanung insbesondere als Losgrößenproblem. Grundvoraussetzung ist, dass die zu produzierenden Aufträge Rüstfamilien angehören. Sofern keine auftragsbezogenen Fertigstellungsfristen betrachtet werden, kann das Optimierungsproblem auf die Entscheidung reduziert werden, zu welchem Zeitpunkt eine Ressource auf welche Produktfamilie umgerüstet wird, bspw. um die Produktionskosten oder die Zykluszeit des Produktionsprogramms zu minimieren. Der Agent handelt in einem diskreten Aktionsraum, wobei jede Aktion mit einer Produktfamilie assoziiert wird, auf welche die jeweilige Ressource gerüstet werden kann.

Paternina-Arboleda und Das (2005) betrachten die Ablaufplanung in einer Ein-Maschinen-Umgebung mit unterschiedlichen Produkttypen als stochastisches Losgrößenproblem. Mithilfe eines selbstentwickelten RL-Verfahrens trainieren sie einen KNN-Agenten, zustandsabhängig zu entscheiden, ob und auf welchen Produkttypen die Ressource gerüstet werden soll. Der Agent berücksichtigt für seine Entscheidungen den aktuellen Lagerbestand, den Produktionsrückstand der verschiedenen Produkttypen sowie die aktuelle Rüstung der Maschine. Das Optimierungskriterium ist die Minimierung der Gesamtkosten, die sich aus Lagerhaltungskosten, Umrüstungskosten sowie Vertragsstrafen für Produktionsrückstände zusammensetzt. Die Autoren vergleichen ihre Ergebnisse mit einer deterministischen Rüstungspolitik, die zyklisch nach demselben Muster die unterschiedlichen Produkttypen rüstet. Der RL-trainierte Agent kann in allen Experimenten zwischen einem bis sieben Prozent bessere Ergebnisse als die deterministische Entscheidungspolitik erzielen.

Qu et al. (2016a) verfolgen einen ähnlichen Ansatz, betrachten jedoch ein mehrstufiges Flow-Shop-Problem und berücksichtigen zusätzlich Fertigungspersonal, welches für die Bearbeitung der Produkte auf den Ressourcen erforderlich ist. Die Autoren verfolgen zwei Optimierungsziele: Zum einen die Maximierung der Produktivität des Fertigungspersonals, zum anderen die Minimierung der Personalkosten. Um beide Optimierungskriterien zu adressieren, lernen die Autoren mittels Q-Learning einen Agenten für die Personalplanung und einen Agenten für die Ablaufplanung in derselben Produktionsumgebung an. Der erste Agent entscheidet für jede Arbeitskraft welche Operation an welcher Ressource ausgeführt werden soll. Der Agent für die Ablaufplanung entscheidet für jede Maschine, ob sie auf einen bestimmten Produkttyp rüstet und diesen darauffolgend produziert oder ob sie inaktiv ist. Für die Entscheidungsfindung beobachten beide Agenten die Länge der Warteschlangen sowie verschiedene Informationen der Arbeitsstationen und Fertigungsarbeitskräfte. Die Autoren weisen nach, dass beide Agenten sich über die Zeit verbessern und zu einer Entscheidungspolitik konvergieren. Bereits ein Jahr zuvor haben die Autoren ein ähnliches Problem betrachtet (Qu et al. 2015), jedoch ohne die Berücksichtigung von Fertigungspersonalressourcen, sodass sich der Lösungsansatz auf das Ablaufplanungsproblem reduziert.

4.1.5 Agentenbasiertes Reparieren von ungültigen Ablaufplänen

Durch unvorhersehbare Ereignisse können in einem Fabriksystem Störungen auftreten, wodurch ein vorbestimmter Produktionsablaufplan nicht realisiert werden kann. Vor diesem Hintergrund präsentierten einige Arbeiten Ansätze, bei welchen ein RL-trainierter Agent schrittweise einen ungültigen Ablaufplan zu einem neuen gültigen Ablaufplan umbaut, der ein gegebenes Optimierungskriterium möglichst gut erfüllt. Hierbei wird in allen recherchierten Arbeiten für den jeweiligen Agenten ein diskreter Aktionsraum definiert, wobei sich die Art und Wirkung der Agentenaktionen teilweise kaum und teilweise deutlich zwischen den unterschiedlichen Arbeiten unterscheiden.

Die erste Arbeit, welche diesen Ansatz vorstellt, stammt wahrscheinlich von Zhang und Dietterich (1995) für ein Job-Shop-Problem mit der Zielstellung die Gesamtdauer des Ablaufplans zu minimieren. Das Job-Shop-Problem bildet die Spaceshuttle-Abfertigung der NASA ab. Der Prozess involviert verschiedene Abfertigungsstationen und Fachkräfteteams (Ressourcen-Pools), welche für die Instandsetzung der Spaceshuttles erforderlich sind. Der RL-Agent wird durch ein KNN mit 40 versteckten Neuronen repräsentiert. Als Eingangszustand berücksichtigen die Autoren diverse Attribute, welche den initialen Ablaufplan charakterisieren, etwa den Mittelwert und die Standardabweichung der freien Kapazitäten von denjenigen Fachkräfteteams, die als Engpass bekannt sind, den Mittelwert und die Standardabweichung der Schlupfzeiten von Operationen, die an den Spaceshuttles auszuführen sind, die Anzahl überlasteter Ressourcen u. v. m. Der Agent kann entweder eine Operation einem anderen Ressourcen-Pool zuordnen oder sie zu einem früheren oder späteren Zeitpunkt neu terminieren. Um die Aktionen des Agenten zu bewerten, wird in jedem Zeitschritt überprüft, ob sich die Überlastung von Ressourcen im Vergleich zum vergangenen Zeitschritt verbessert hat. Der Agent wird durch ein einfaches TD-Lernverfahren trainiert. Die Autoren vergleichen ihren Ansatz mit einer früheren Arbeit, in welcher die Metaheuristik »Simulated Annealing« für das Problem untersucht wurde. Hierbei konnte der RL-Ansatz in allen Probleminstanzen bessere Ergebnisse erzielen.

Einen ähnlichen Ansatz verfolgen Palombarini und Martínez (2012). Die Autoren stellen ein RL-basiertes Werkzeug vor, mit dessen Hilfe ungültige Ablaufpläne repariert werden können. Die Autoren testen ihr Werkzeug an einem Job-Shop-Problem, in welchem Verspätungen von Aufträgen möglichst vermieden werden sollen. Der Agent wird durch eine Tabelle repräsentiert und mittels Q-Learning trainiert. Eine Besonderheit ist, dass Zustände und Aktionen durch Konstrukte der Prädikatenlogik zweiter Stufe beschrieben werden. Jeder Zustand, den der Agent für seine Entscheidungen analysiert, besteht aus einem vollständigen Ablaufplan sowie mindestens einer verletzten Restriktion. Der Ablaufplan umfasst für jede Produktionsressource eine Liste, in welcher die an den zugeordneten Aufträgen durchzuführenden Operationen chronologisch geordnet sind. Eine verletzte Restriktion wird durch eine Operation eines Auftrags und dessen Ressourcenzuordnung beschrieben. Der Agent kann Operationen von Aufträgen auf derselben Ressource um eine Position verschieben, sie an den Anfang oder an das Ende einer Bearbeitungssequenz setzen oder die Positionen von zwei Auftragsoperationen untereinander vertauschen. Darüber hinaus kann der Agent Auftragsoperationen ebenfalls anderen Ressourcen zuweisen, indem er sie an den Anfang oder an das Ende einer Bearbeitungssequenz setzt oder mit einer anderen Operation vertauscht. In der Belohnungsfunktion wird zum einen berücksichtigt, dass eine Verringerung der Gesamtverspätung über alle Aufträge belohnt wird, zum anderen, dass eine hohe Anzahl von Änderungen im Ablaufplan bestraft wird.

Zhao et al. (2018) verfolgen einen prioritätsregel- und reallokationsbasierten Ansatz, um ungültige Ablaufpläne in einem flexiblen Job-Shop mit zufälligen Ressourcenausfällen zu reparieren. Das Job-Shop-Problem wird durch acht Ressourcen, fünfzehn Aufträge und zehn Operationen definiert. Der initiale Ablaufplan wird mithilfe eines genetischen Algorithmus und eines Modells des Job-Shop-Problems generiert, das Ressourcenausfälle vernachlässigt. Danach wird der Ablaufplan im ursprünglichen Job-Shop-Modell mit Ressourcenausfällen simuliert. Immer dann, wenn eine Ressource ausfällt, entscheidet ein Agent, der mit Q-Learning trainiert wird, mit welcher Prioritätsregel (SPT, EDD oder FIFO) der nächste Auftrag aus der Warteschlange der ausgefallenen Ressource ausgewählt werden soll. Der Auftrag wird dann von derjenigen Ressource bearbeitet, die zum frühestmöglichen Zeitpunkt verfügbar ist. Um eine Entscheidung zu treffen, analysiert der Agent die erwartete Dauer des Ressourcenausfalls im Verhältnis zur kumulierten Bearbeitungszeit der Aufträge im vorgelagerten Puffer. Der Ansatz der Autoren leistet bessere Ergebnisse als die alleinige Anwendung der durch den Agenten auswählbaren Prioritätsregeln.

Weitere Ansätze, die mithilfe von RL eine agentenbasierte Reparatur von Ablaufplänen umsetzen, können u. a. in (Palombarini und Martinez 2018; Palombarini und Martínez 2019; Minguillon und Lanza 2019) nachgelesen werden.

4.2 Gradientenfreie Verfahren für die Ablaufplanung im Allgemeinen

Verglichen zu den gradientenabhängigen Verfahren sind gradientenfreie RL-Ansätze für die Produktionsablaufplanung in der wissenschaftlichen Literatur nur spärlich vertreten. Obgleich die Literaturrecherche für gradientenfreie RL-Verfahren nicht auf die Produktionsablaufplanung beschränkt wurde, konnten insgesamt nur 14 relevante Publikationen identifiziert werden. Im Gegensatz zu Abschnitt 4.2 werden die recherchierten Arbeiten nicht nach ihrer Einsatzart, sondern gemäß der RL-Methoden kategorisiert, welche für die jeweiligen Ablaufplanungsprobleme zum Einsatz kommen. Eine entsprechende Kategorisierung der relevanten Arbeiten ist in Abbildung 4.2 dargestellt.

Abbildung 4.2
figure 2

Kategorisierung der recherchierten Forschungsarbeiten, die gradientenfreie Methoden des bestärkenden Lernens für die Ablaufplanung im Allgemeinen untersuchen

Die Tatsache, dass gradientenfreie Verfahren ebenfalls in der RL-Grundlagenliteratur nicht gleichermaßen Erwähnung, könnte womöglich ein Grund für die geringe Anzahl relevanter Publikationen sein. Im Folgenden sollen die Rechercheergebnisse im Detail diskutiert werden.

4.2.1 Einsatz der Kreuzentropie-Methode in der Ablaufplanung

Derzeit existieren nur wenige Arbeiten, welche die Kreuzentropie-Methode zur Lösung von Ablaufplanungsproblemen untersucht haben. In den meisten relevanten Publikationen wird die Kreuzentropie-Methode verwendet, um vollständige Lösungen für das jeweilige Ablaufplanungsproblem zu generieren. In manchen Publikationen wird die Methode eingesetzt, um bestimmte Parameter für ein i. d. R. stochastisches Ablaufplanungsproblem zu konkretisieren. Die ersten themenbezogenen Veröffentlichungen stammen von Bendavid und Golany (2008, 2009), die ein Projektablaufplanungsproblem mit ressourcengebundene Projektaktivitäten und stochastischen Aktivitätszeiten betrachten. Aufgrund der teilweise zufälligen Zeitspannen von Projektaktivitäten können zwei Probleme auftreten. Zum einen kann eine Aktivität früher fertig sein als geplant und die Ressource für die Folgeaktivität noch nicht verfügbar sein, sodass die Weiterbearbeitung des Projekts unnötig verzögert wird. Zum anderen kann die umgekehrte Situation eintreten, dass die Bearbeitung einer Projektaktivität länger andauert als geplant. In diesem Fall verweilen bereits reservierte Ressourcen in einem unproduktiven Zustand. Darüber hinaus wird der Start von anderen Projektaktivitäten verzögert, welche auf die Ressource der verspäteten Aktivität angewiesen sind. Die Autoren schlagen vor, mithilfe der Kreuzentropie-Methode untere Schranken für die Startzeiten der Projektaktivitäten zu bestimmen, um die Allokation von Ressourcen effizienter zu gestalten. Zu diesem Zweck formulieren die Autoren ein Optimierungsproblem, in welchem Projekte, die auf eine Ressource zur weiteren Bearbeitung warten, mit Umlaufkosten bewertet werden, während Projektaktivitäten, die verspätet starten, Strafkosten erhalten. Über mehrere Iterationen optimiert die Kreuzentropie-Methode die Parameter einer multivariaten Normalverteilung, mit der zufällige untere Schranken für die Startzeiten aller Projektaktivitäten generiert werden. Hierbei generiert die Kreuzentropie-Methode kostengünstigere untere Schranken als die Auswahl der frühest bzw. spätest möglichen Startzeitpunkte als untere Schranken. Ferner erzielt die Kreuzentropie-Methode bessere Ergebnisse als die Metaheuristik »Simulated Annealing«.

Wang et al. (2015) betrachten die Produktionsablaufplanung einer Gießerei. In der ersten Produktionsstufe wird das Metall zu Chargen verflüssigt. Darauffolgend durchläuft jede Charge in Abhängigkeit von technologischen Anforderungen eine bestimmte Anzahl von Veredelungsprozessen (z. B. Entgasung, Desoxidation, Entschwefelung, Entfernung von Einschlüssen u. v. m.) an unterschiedlichen Arbeitsstationen. Im letzten Produktionsschritt wird die Charge in einer Stranggussanlage in ihre finale Form gegossen. Die Zielstellung ist die Ermittlung eines Ablaufplans, der den gesamten Energieverbrauch der Gießerei minimiert. Der Energieverbrauch wird insbesondere durch ungeplante Wartezeiten der Chargen beeinflusst. Je höher die Wartezeiten ausfallen, desto mehr Energie muss investiert werden, um das Metall nicht vorzeitig abkühlen zu lassen. Somit korreliert der Energieverbrauch mit den Wartezeiten, die durch eine geeignete Ablaufplanung minimiert werden können. Die Zuordnung von Chargen zu Produktionsstufen ist aufgrund der technologischen Reihenfolge gegeben. Die Bearbeitungsreihenfolge der Aufträge auf jeder Ressource wird mithilfe einer Rückwärtsterminierung ermittelt, da jede Charge eine obligatorische Startzeit auf der Stranggussanlage in der letzten Produktionsstufe besitzt. Einige Produktionsstufen besitzen jedoch mehrere Ressourcen, woraus eine Menge lokaler Allokationsprobleme resultiert. An dieser Stelle verwenden die Autoren die Kreuzentropie-Methode, um eine Wahrscheinlichkeitsverteilung für jede Produktionsstufe, die mehrere Bearbeitungskapazitäten besitzt, zu optimieren. Die Verteilung gibt an, mit welcher Wahrscheinlichkeit ein Auftrag einer bestimmten Bearbeitungskapazität zugeordnet wird. Die Arbeit der Autoren lässt sich somit der Einsatzart »Agentenbasierte Ressourcenbelegungsplanung« zuordnen (siehe Abschnitt 4.1.2). Ferner präsentieren die Autoren einige problembezogene Verbesserungen der Kreuzentropie-Methode. Zum Beispiel werden in jeder Iteration eine bestimmte Anzahl von Lösungen nicht mit der zu optimierenden Wahrscheinlichkeitsverteilung, sondern stattdessen mithilfe von heuristischen Planungsregeln generiert. Die Autoren vergleichen ihren Ansatz mit einem genetischen Algorithmus. Sowohl die klassische als auch verbesserte Kreuzentropie-Methode erzielen bessere Ergebnisse als der genetische Algorithmus. Darüber hinaus generiert die verbesserte Kreuzentropie-Methode energieeffizientere Ablaufpläne als die klassische Kreuzentropie-Methode.

Lv und Liu (2016) verwenden die Kreuzentropie-Methode um eine kombinierte Prozess- und Ablaufplanung für ein Job-Shop-Problem zu realisieren. Im Rahmen der Prozessplanung wird für jeden Auftrag eine Bearbeitungssequenz aus einer Menge möglicher Bearbeitungssequenzen ausgewählt. Im Zuge der Ablaufplanung wird eine Bearbeitungsreihenfolge über alle Operationen und Aufträge ermittelt. Die Arbeit kann somit der Einsatzart »Agentenbasierte Reihenfolgeplanung« zugerechnet werden (siehe Abschnitt 4.1.3). Ein Lösungskandidat wird durch zwei Vektoren repräsentiert. Der erste Vektor bildet auf die Menge einzuplanender Aufträge ab. Jedes Vektorelement enthält einen ganzzahligen Wert, der den Index der gewählten Bearbeitungssequenz des jeweiligen Auftrags repräsentiert. Der zweite Vektor bildet auf die Menge einzuplanender Operationen über alle Aufträge ab. Hierbei repräsentiert jedes Vektorelement eine Position in der Bearbeitungssequenz. Um die Länge des Vektors zu bestimmen, wird die Summe über die maximale Anzahl an Operationen aus allen verfügbaren Bearbeitungssequenzen je Auftrag gebildet. Für jeden Auftrag werden die Längen aller verfügbaren Bearbeitungssequenzen vereinheitlicht. Das bedeutet, dass Sequenzen, die weniger Operationen erfordern als die längste Bearbeitungssequenz des jeweiligen Auftrags, um eine entsprechende Anzahl von Pseudooperationen ohne Bearbeitungszeiten erweitert werden. Ferner wird angenommen, dass die Operationen auftragsübergreifend aufsteigend indiziert sind, jedoch Operationen von unterschiedlichen Bearbeitungssequenzen desselben Auftrags denselben Index besitzen, sofern sie an der gleichen Position der jeweiligen Auftragssequenz berücksichtigt werden. Auf diese Weise kann nun mittels Zufallsstichprobe jedem Vektorelement eine Operation zugeordnet werden. In vier Experimenten und anhand verschiedener Job-Shop-Probleme vergleichen die Autoren ihre Methode mit verschiedenen Lösungsansätzen, (genetischer Algorithmus u. v. m.). Allen Experimenten wird die Minimierung des Ablaufplans als Optimierungskriterium zugrunde gelegt. In den meisten Experimenten liefert die Kreuzentropie-Methode die besten Ergebnisse.

Ferner existieren wenige weitere Arbeiten, welche die Kreuzentropie-Methode für Ablaufplanungsprobleme untersuchen, z. B. (Chen et al. 2016) für die Signalverarbeitung in Telekommunikationsnetzwerken oder (Liu et al. 2018) für die Aufgabenverwaltung in hybriden Cloud- und Edge-Computing-Netzwerken. Beide Arbeiten können der Einsatzart »Agentenbasierte Ressourcenbelegungsplanung« zugeordnet werden (siehe Abschnitt 4.1.2).

4.2.2 Einsatz von Bayes‘scher Optimierung in der Ablaufplanung

Viele wissenschaftliche Beiträge, die im Titel oder Abstrakt Bayes‘sche Optimierung referenzieren, beziehen sich auf ein anderes Verfahren namens Bayes‘scher Optimierungsalgorithmus (BOA), z. B. (Li und Aickelin 2003; Yang et al. 2011; Sun et al. 2015; Biswas et al. 2016; Muhuri und Biswas 2020). BOA ist ein genetischer Algorithmus, der iterativ für eine gegebene Probleminstanz eine Population von Bayes‘schen Netzen parametrisiert, welche jeweils eine Lösung des Problems repräsentieren (Pelikan et al. 1999). Dem Ansatz liegt die Idee zugrunde, dass jedes kombinatorische Optimierungsproblem als Graph dargestellt werden kann, wobei eine Lösung durch einen Pfad im Graph repräsentiert wird. Ein Bayes‘sches Netz ist ein Graph, dessen Knoten Zufallsvariablen und dessen Kanten Abhängigkeiten zwischen den Variablen repräsentieren. BOA sucht für ein gegebenes Optimierungsproblem ein Bayes‘sches Netz, das eine möglichst optimale Lösung des Problems über eine gemeinsame Wahrscheinlichkeitsverteilung darstellt. In der initialen Population basiert die Struktur jedes Bayes‘schen Netzes auf dem spezifischen Problemgraphen der betrachteten Probleminstanz. Über mehrere Iterationen aktualisiert BOA die Wahrscheinlichkeiten in den Knoten und fügt womöglich neue Relationen zwischen Knoten hinzu. Für viele Probleme der Produktionsablaufplanung (z. B. Job-Shop-Probleme) ist es i. d. R. nicht möglich ein für eine Probleminstanz optimiertes Bayes‘sches Netz zur Lösung von anderen Probleminstanzen zu verwenden, weil sich bspw. die Vorrangbedingungen und die Anzahl der Ressourcen für die Bearbeitung von Operationen zwischen den Probleminstanzen unterscheiden. Aus diesem Grund werden diejenigen Arbeiten, welche BOA für die Produktionsablaufplanung untersuchen, im Folgenden nicht berücksichtigt. Ferner existieren einige Arbeiten, welche die Bayes‘sche Optimierung für die Feinjustierung von Hyperparametern eines anderen Optimierungsverfahrens anwenden, z. B. (Roman et al. 2016; Kim et al. 2020). Diese Arbeiten finden ebenfalls keine Berücksichtigung, weil die Bayes‘sche Optimierung nicht als primäres Lösungsverfahren zum Einsatz kommt. Zusammengefasst verbleiben lediglich zwei Arbeiten, die im Folgenden diskutiert werden sollen.

Dolatnia et al. (2016) betrachten Probleme, in welchen die Durchführung von realen Experimenten äußerst zeit- und kostspielig ist. Als Beispiel nennen die Autoren u. a. die Optimierung der Ausgangsleistung von mikrobiellen Brennstoffzellen, die mithilfe von Bakterien Energie erzeugen. Die Menge der erzeugten Energie ist von vielen Parametern abhängig, u. a. der Art und Kombination verschiedener Bakterien, den Oberflächeneigenschaften der Anode u. v. m. Die Durchführung von realen Experimenten ist zeitaufwändig, weil jedes Experiment im Voraus die Züchtung eines Bakterienstamms erfordert. Vor diesem Hintergrund formulieren die Autoren ein Optimierungsproblem, das den Experimentvorbereitungs- und -durchführungsprozess mit dessen Ressourcen und Aktivitäten modelliert. Konkret beinhaltet das Problem eine Menge von Präparationsstationen, um die für das Experiment erforderlichen Utensilien vorzubereiten, sowie eine Menge von Laboratorien, in denen die Experimente durchgeführt werden. Darüber hinaus erfordert die Durchführung von Experimenten speziell qualifiziertes Personal. Die Vorbereitungs- und Durchführungszeiten sowie das erforderliche Personal sind für jedes Experiment spezifisch. Somit handelt es sich im Kern um ein Hybrid-Flow-Shop-Problem mit auftragsspezifischen Prozesszeiten und zusätzlichen Ressourcenbedingungen auf der zweiten Stufe. Für die Lösung des Problems schlagen die Autoren einen echtzeitfähigen Planungsalgorithmus vor, der auf einer Baumsuche basiert. Da eine vollständige Enumeration des Entscheidungsbaums zeitlich nicht möglich ist, trainieren die Autoren mithilfe von Bayes‘scher Optimierung einen Agenten, der in jedem Baumknoten entscheidet, welches Experiment als nächstes durchgeführt werden soll. Vor diesem Hintergrund ordnet sich die Arbeit der Einsatzart »Agentenbasierte Reihenfolgeplanung« zu. Der Agent berücksichtigt für seine Entscheidungen u. a. die Menge bereits komplettierter Experimente, die freien Kapazitäten jeder Ressource sowie die verbleibende Zeit der aktuell laufenden Präparations- und Experimentoperationen. Für die Konstruktion des Entscheidungsbaums berücksichtigt der Agent vergangene Beobachtungen und schätzt für jede konstruierbare Verzweigung die beste zu erwartende Verbesserung. Die Autoren vergleichen ihren Ansatz mit mehreren Prioritätsregeln. Das Optimierungskriterium ist die Maximierung der Stickstoffproduktion der Bakterienstämme, die aufgrund unterschiedlicher Experimentkonfigurationen variiert. Zusammenfassend erzielt der Bayes‘sche Optimierungsansatz signifikant bessere Ergebnisse als die Verwendung von Prioritätsregeln.

Candelieri et al. (2018) verwenden Bayes‘sche Optimierung, um die Kosten eines Wasserverteilungssystems zu optimieren. Das zugrundeliegende Optimierungsproblem ist ein MILP, in welchem zwei Varianten von Pumpen berücksichtigt werden. Für Pumpen der ersten Variante muss zu jedem Zeitpunkt entschieden werden, ob sie in Betrieb genommen werden sollen. Jede Pumpe der ersten Variante kann somit über eine binäre Entscheidungsvariable abgebildet werden. Bei der zweiten Pumpenvariante kann die Durchflussrate flexibel gesteuert werden. Pumpen der zweiten Variante werden somit über kontinuierliche Entscheidungsvariablen abgebildet. Die Optimierung der Betriebskosten erfolgt unter mehreren Nebenbedingungen, u. a. dass die Wassernachfrage der Verbraucher befriedigt, dass zu jedem Zeitpunkt der Wasserdruck von jeder Pumpe in einem bestimmten Wertebereich liegt oder dass die Füllmengen der Wasserreservoirs am Ende des Tages den kritischen Bestand nicht unterschreiten. Eine Besonderheit der Arbeit ist, dass der Agent nicht durch einen Gauß-Prozess repräsentiert wird, sondern durch eine Menge von nicht korrelierten Entscheidungsbäumen, die über einen Random-Forest-Algorithmus generiert werden. Die Autoren motivieren diese Entscheidung damit, dass der Gauß-Prozess schlecht mit zunehmender Anzahl von Entscheidungsvariablen skaliert. Die Autoren testen ihren Algorithmus anhand einer realen Fallstudie, die das Wasserverteilungssystem von Mailand darstellt. Sie vergleichen ihre Ergebnisse mit der cloudbasierten Optimierungssoftware »SigOpt« sowie mit den Softwarepaketen »ALAMO« (zur Generierung eines Metamodells des Optimierungsproblems zur schnelleren Evaluation von Lösungskandidaten) und »BARON« (für die eigentliche Optimierung). Hierbei gelingt es den Autoren, in allen Experimenten bessere Ergebnisse zu erzielen als die kommerziellen Softwarepakete. Hinsichtlich der Rechenzeit sei jedoch angemerkt, dass die Bayes‘sche Optimierung mindestens zwei Stunden für die Lösung einer Probleminstanz benötigt. Die Arbeit gibt keinen Aufschluss darüber, ob das angelernte Modell auf andere Probleminstanzen angewandt werden kann.

4.2.3 Einsatz von Neuro-Evolution in der Ablaufplanung

Obgleich bereits Anfang der 1990er Jahre erste Neuro-Evolution-Algorithmen vorgestellt wurden, existieren bislang nur sehr wenige Arbeiten, welche diese Verfahren für Ablaufplanungsprobleme untersucht haben. Da im Rahmen dieser Arbeit ein neuroevolutionärer Algorithmus stellvertretend für alle gradientenfreien Ansätze für die Produktionsablaufplanung untersucht wird, werden die folgenden recherchierten Arbeiten gleichermaßen ausführlich behandelt.

Gomez et al. (2001) untersuchen Neuro-Evolution, um eine Steuerungsstrategie für die Speicherverwaltung in Multiprozessorsystemen zu erlernen. Der Agent wird durch ein KNN repräsentiert, wobei der Ansatz der Autoren nur dessen Parameter, jedoch nicht dessen Struktur anpasst. Konkret soll der Agent zu jedem Zeitpunkt entscheiden, wie viel Kapazität des zentralen Speichers dem jeweiligen Prozessorkern zur Verfügung steht. Zusätzlich besitzt jeder Prozessorkern noch einen kleineren lokalen Speicher. Die Arbeit lässt sich somit der Einsatzart »Agentenbasierte Ressourcenbelegungsplanung« (siehe Abschnitt 4.1.2) zurechnen. Für die Entscheidungsfindung berücksichtigt der Agent die aktuelle Verarbeitungsrate jedes Prozessorkerns sowie deren Fehlerraten für Zugriffsoperationen (Lesen und Schreiben) auf den lokalen und zentralen Speicher. Obgleich das KNN mehrere Ausgabeneuronen besitzt (entsprechend der Anzahl von Prozessorkernen), handelt der Agent in einem kontinuierlichen Aktionsraum. Die Anregung jedes Ausgabeneurons wird als die Anzahl von Kapazitätseinheiten des zentralen Speichers interpretiert, die dem jeweiligen Prozessorkern zugewiesen wird. Im Vergleich zu einer statischen Allokation von zentralen Speicherkapazitäten zu Prozessorkernen kann mithilfe des neuroevolutionären Ansatzes die Gesamtverarbeitungsrate eines Vierkernprozessors um 16 Prozent erhöht werden.

Whiteson und Stone (2006) präsentieren ein neues hybrides Lernverfahren, das NEAT und Q-Learning miteinander kombiniert. Im Kontrast zum in Abbildung 3.7 (Abschnitt 3.4) skizzierten Prozess des gradientenfreien bestärkenden Lernens, erfordert das Verfahren, dass die Umgebung als MEP modelliert wird. Der Q-Learning-Algorithmus wird innerhalb der Evaluationsroutine des NEAT-Algorithmus eingebettet. Immer dann, wenn NEAT die Fitness eines zufällig gewählten Genoms bewertet, wird zusätzlich für jeden besuchten Zustand der resultierende Agent durch ein TD-Lernverfahren trainiert. Erst danach werden die Struktur und Parameter des Agenten durch NEAT evolviert. Die Autoren testen ihren Ansatz u. a. anhand eines Lastverteilungsproblems auf einem Computerserver. Im konkreten Fall der Autoren gilt es zu entschieden, in welcher Reihenfolge der Server offene Anfragen bearbeiten soll. Im Wesentlichen handelt es sich um ein Ein-Maschinen-Problem. Die Art und Weise, wie die Autoren das Problem adressieren, entspricht der Einsatzart »Agentenbasierte Reihenfolgeplanung« (siehe Abschnitt 4.1.3). In den Experimenten sind initial 100 offene Anfragen registriert, wobei in den ersten 100 Zeitschritten je Zeitschritt eine neue Anfrage hinzukommt. Insgesamt existieren vier unterschiedliche Anfragetypen. Die Autoren diskretisieren sowohl den Zustands- als auch den Aktionsraum, sodass nicht jeder Auftrag in jedem Zeitschritt separat betrachtet werden muss. Maximal können 200 Anfragen während einer Episode im System registriert sein. Die Autoren teilen diese Menge in vier Untermengen auf und gliedern ferner jede Untermenge gemäß den unterschiedlichen Anfragetypen. Hieraus resultieren 16 Variablen, die den beobachtbaren Zustand der Umgebung bilden. Gleichermaßen hat der Agent 16 Aktionen zur Auswahl, welche die Gliederung des Zustandsraums widerspiegeln. Jede Anfrageart ist mit einer individuellen Nutzenfunktion hinterlegt, die eine zu späte Verarbeitung unterschiedlich bestraft. Das Ziel ist die Maximierung des Nutzens der bearbeiteten Anfragen bzw. die Minimierung der Bestrafung durch zu hohe Bedienzeiten. Hierbei erzielt NEAT + Q bessere Ergebnisse als wenn beide Verfahren jeweils einzeln ausgeführt werden.

Mao et al. (2007) verwenden einen Neuro-Evolution-Algorithmus, der lediglich die Parameter, nicht jedoch die Struktur eines Agenten adaptiert, um eine Steuerungsstrategie für eine Flugzeugwartung zu erlernen. Ankommende Flugzeuge müssen in einer Station enteist werden, bevor sie wieder einsatzbereit sind. Die Enteisungsstation hat eine bestimmte Anzahl von Parzellen zur Verfügung, wodurch mehrere Flugzeuge parallel enteist werden können. Allgemein betrachtet handelt es sich somit um ein Parallel-Maschinen-Problem. Die Autoren lösen das Problem über einen spieltheoretischen Ansatz. Jedes Mal, wenn eine Parzelle der Enteisungsstation frei wird, können Flugzeuge entscheiden, ob sie die Parzelle für einen bestimmten Zeitpunkt reservieren oder nicht. Die geplante Ankunft von Flugzeugen unterliegt Schwankungen, sodass in manchen Fällen reservierte Zeiten nicht eingehalten werden können. In diesem Fall muss das Flugzeug den reservierten Termin aufgeben und die Airline des Flugzeugs Rücktrittskosten entrichten. Vor diesem Hintergrund sind Flugzeuge angehalten eine Parzelle so spät wie möglich zu reservieren, sodass die Unsicherheit bzgl. der avisierten Ankunftszeit so gering wie möglich ist. Auf der anderen Seite kann eine zu späte Reservierung dazu führen, dass die verbleibenden Reservierungszeitfenster keine fristgerechte Durchführung des Folgeflugs erlauben. In diesem Fall entstehen sogenannte Verspätungskosten. Das Ziel des Agenten ist somit, eine Strategie zu finden, bei welchen die Rücktritts- und Verspätungskosten minimiert werden. Für jede Entscheidung berücksichtigt jeder Agent als Eingangszustand die verbleibende Zeit bis die nächste Parzelle verfügbar wird, die individuelle verbleibende Zeit bis zum nächsten Abflug sowie die Anzahl von konkurrierenden Flugzeugen, welche ebenfalls die Parzelle buchen können. Die Ausgabeschicht jedes Agenten wird lediglich durch ein Neuron mit Tanh-Aktivierungsfunktion repräsentiert. Ausgaben größer null implizieren, dass die Parzelle gebucht werden soll. Die Autoren vergleichen ihre Ergebnisse mit einer FIFO-Steuerung sowie mit einem eigenen entwickelten Ansatz, der Entscheidungen auf Basis statistischer Vergangenheitsdaten fällt. Hierbei verursacht der neuroevolutionäre Ansatz der Autoren lediglich 20 Prozent der Kosten einer FIFO-Steuerung und lediglich die Hälfte der Kosten des auf statistischer Analyse beruhenden Ansatzes.

Mokhtari (2014) kombiniert Neuro-Evolution mit einer variablen Nachbarschaftssuche, um Aufträge in einem Job-Shop-Problem mit zwei Ressourcen zu sequenzieren. Jeder Auftrag muss genau zwei Operationen durchlaufen. Die erste Operation muss entweder auf der ersten oder zweiten Ressource durchgeführt werden, wohingegen die zweite Operation auf der jeweiligen anderen Ressource durchgeführt werden muss. Eine Besonderheit ist, dass Aufträge, welche die erste Operation durchlaufen haben, ohne Verzögerung die zweite Operation auf der anderen Ressource beginnen müssen. Die Bearbeitungszeiten aller Operationen sind für jeden Auftrag individuell. Das Optimierungskriterium ist die Minimierung der Gesamtdauer des Ablaufplans. Zunächst werden durch ein Sortierverfahren Auftragspaare gebildet, die jeweils gemeinsam bearbeitet werden. Die Auftragspaare sind so gestaltet, dass beide Aufträge ihre Bearbeitung auf unterschiedlichen Ressourcen beginnen. Aufgrund der unterschiedlichen Bearbeitungszeiten kann die Situation eintreten, dass ein Auftrag seine erste Operation später starten muss, sodass beide Aufträge zeitgleich fertig werden. Des Weiteren kommt es gewöhnlich vor, dass ein Auftrag auf die Fertigstellung der zweiten Operation des anderen Auftrags warten muss, bevor das Auftragspaar das System verlassen kann. Diese Zeiten werden im Folgenden als Überschusszeiten bezeichnet. Mittels Neuro-Evolution werden die Parameter eines KNN-basierten Agenten mit fixer Struktur optimiert, der für die Reihenfolgebildung der Auftragspaare verantwortlich ist. Die Arbeit lässt sich somit der Einsatzart »Agentenbasierte Reihenfolgeplanung« zurechnen (siehe Abschnitt 4.1.3). Der Agent berücksichtigt für seine Entscheidungen neun Attribute, u. a. die eben geschilderten Überschusszeiten oder die mittlere Auslastung der beiden Ressourcen. Für jedes Auftragspaar berechnet der Agent auf diese Weise einen Indikator, an welcher Stelle der Sequenz das Auftragspaar eingelastet werden soll. Die durch den Agenten konstruierte Sequenz gilt fortan als Startlösung für die variable Nachbarschaftssuche. Es handelt sich um eine Metaheuristik, die iterativ eine gegebene Lösung verbessert. Im vorliegenden Problem optimiert der Algorithmus die Auftragssequenz hinsichtlich der Reduktion der Stillstandzeiten beider Ressourcen. Das gesamte Lösungskonzept wird anhand verschiedener Probleminstanzen mit 30 bis 120 Aufträgen evaluiert. Dabei weicht die Ergebnisqualität maximal weniger als neun Prozent von der jeweils bekannten optimalen Lösung ab. In manchen Fällen ist der Algorithmus in der Lage die beste Lösung zu finden. Jedoch brilliert der Ansatz insbesondere hinsichtlich der Recheneffizienz auf großen Probleminstanzen. In vielen Fällen ist die Laufzeit um das zehn- bis zwanzigfache geringer als die des exakten Lösungsverfahrens.

Ein weiterer themenbezogener Konferenzbeitrag sowie ein darauf aufbauender Journal-Artikel stammen von Du et al. (2019; 2020). In beiden Veröffentlichungen betrachten die Autoren ein Ablaufplanungsproblem aus der Raumfahrt, in welchem eine Menge von Anfragen durch eine Menge von Satelliten bewältigt werden muss. Das zugrundeliegende Optimierungsproblem ist somit ein Ressourcenzuordnungsproblem, in welchem Anfragen auf Satelliten alloziert werden müssen. Vor diesem Hintergrund ordnet sich die Arbeit der Einsatzart »Agentenbasierte Ressourcenbelegungsplanung« zu (siehe Abschnitt 4.1.2). Darüber hinaus berücksichtigen die Autoren diverse Nebenbedingungen, wie bspw. die maximale Energiemenge, die ein Satellit in einem Orbitzyklus verbrauchen darf oder die maximale Zeitspanne, in der Satellitenaufnahmen an eine Empfangsstation gesendet werden müssen. Für die Zuweisung von Anfragen zu Satelliten trainieren die Autoren einen KNN-basierten Agenten mithilfe des NEAT-Algorithmus. Eine Besonderheit der Implementierung der Autoren ist, dass nach jedem Evolutionszyklus zusätzlich jedes Genom durch die Metaheuristik »Tabu Search« lokal optimiert wird. Ungeachtet dessen verwenden die Autoren historische Daten anstatt einer Fitnessfunktion, um den Agenten zu trainieren. Die Fitness jedes Genoms wird somit über den Fehler zwischen der KNN-Prognose und der erwarteten Ausgabe berechnet. Der zu trainierende Agent besitzt lediglich ein Ausgabeneuron, welches die Wahrscheinlichkeit ausgibt, dass eine gegebene Anfrage von einem bestimmten Satelliten fristgerecht bearbeitet werden kann. Für die Allokation einer Anfrage iteriert eine Entscheidungslogik über alle Satelliten und berechnet die Wahrscheinlichkeit, dass der jeweilige Satellit die Anfrage fristgerecht beantwortet. Die Entscheidungslogik wählt sodann den Satelliten mit der maximalen Wahrscheinlichkeit aus. Die Autoren vergleichen ihren Ansatz mit mehreren heuristischen und metaheuristischen Lösungsverfahren anhand der Anzahl erfüllter Anfragen, wobei jede Anfrage zusätzlich mit einer Priorität gewichtet ist. Bei einem Betrachtungshorizont von kleiner gleich 400 Anfragen leistet das Verfahren schlechtere Ergebnisse als ein adaptives Nachbarschaftssuchverfahren (Metaheuristik), jedoch bessere Ergebnisse als jedes verglichene heuristische Verfahren. Ab einem Betrachtungshorizont von 500 Anfragen leistet das Verfahren der Autoren die besten Ergebnisse unter allen verglichenen Lösungsansätzen.

4.3 Zusammenfassung und Diskussion der Forschungslücke

Für die Darstellung des Stands der Wissenschaft und Technik wurden insgesamt 71 Arbeiten analysiert. Die Mehrheit der geprüften Veröffentlichungen untersucht den Einsatz von gradientenabhängigen RL-Verfahren für die Produktionsablaufplanung. Zur Beantwortung der ersten Forschungsfrage (siehe Kapitel 1.2) wurden anhand dieser Veröffentlichungen fünf Kategorien abgeleitet, welche die verschiedenen Einsatzarten von RL-Verfahren für die Produktionsablaufplanung beschreiben, und zwar:

  • die agentenbasierte Auswahl von Prioritätsregeln, bei welcher der Agent entscheidet, mit welcher Prioritätsregel der nächste Auftrag aus der vorgelagerten Warteschlange entnommen wird. Im weiteren Sinne handelt es sich um einen Spezialfall der agentenbasierten Sequenzierung von Aufträgen, wobei die Auswahl von Aufträgen lediglich indirekt durch Auswahl einer Prioritätsregel erfolgt;

  • die agentenbasierte Ressourcenbelegungsplanung, bei welcher der Agent einen Auftrag einer stationären Ressource (z. B. Maschine) bzw. mobilen Ressource (z. B. Produktionspersonal, Transportroboter) oder eine mobile Ressource einer stationären Ressource zuweist;

  • die agentenbasierte Reihenfolgeplanung, bei welcher der Agent unmittelbar oder mittelbar (Prioritätsregeln ausgenommen) entscheidet, welcher Auftrag aus der vorgelagerten Warteschlange entnommen wird;

  • die agentenbasierte Losbildung, bei welcher der Agent über die Rüstung einer stationären Ressource entscheidet, durch die lediglich Aufträge derselben Familie auf der Ressource bearbeitet werden können. Das Ergebnis ist eine Sequenz von Auftragslosen, die auf der Ressource abgearbeitet wird;

  • das agentenbasierte Reparieren von ungültigen Ablaufplänen, bei welcher der Agent einen gegebenen Ablaufplan, der eine oder mehrere Restriktionen des zugrundeliegenden Optimierungsproblems verletzt, iterativ zu einem neuen gültigen Ablaufplan umbaut.

Werden diejenigen Arbeiten miteinbezogen, welche die agentenbasierte Auswahl von Prioritätsregeln für die Reihenfolgebildung von Aufträgen untersuchen, so ergibt sich, dass die Sequenzierung von Aufträgen die am häufigsten untersuchte Einsatzart von RL-Verfahren für die Produktionsablaufplanung darstellt. Die zu diesem Zweck bisher veröffentlichten Konzepte unterliegen jedoch Limitationen. Die agentenbasierte Auswahl von Prioritätsregeln erlaubt lediglich eine indirekte Einflussnahme auf die Reihenfolgebildung von Aufträgen, da die Auftragssequenz konkret durch die ausgewählte Prioritätsregel bestimmt wird. Ferner können mithilfe von Prioritätsregeln nur unmittelbar diejenigen Aufträge ausgewählt werden, die das Prioritätskriterium der jeweiligen Regel zum Entscheidungszeitpunkt am meisten erfüllen. Hieraus resultiert eine starke Einschränkung des untersuchbaren Lösungsraums. Demgegenüber wurden in Abschnitt 4.1.3 einige Arbeiten vorgestellt, in welchen jede Aktion des jeweiligen Agenten mit der Auswahl eines spezifischen Auftrags assoziiert wird. Der Hauptnachteil dieses Konzepts ist dessen schlechte Skalierbarkeit auf andere Auftragsmengen. Die meisten der vorgestellten Arbeiten nehmen eine maximale Auftragsmenge an, die sich in der vorgelagerten Warteschlange befindet und dimensionieren dementsprechend den Aktionsraum des Agenten. Sofern sich weniger Aufträge als die maximale Auftragsmenge in der Warteschlange befinden, werden nicht benötigte Aktionen temporär als nicht auswählbar vermerkt. Ungeachtet dessen kann mithilfe dieses Konzepts ein angelernter Agent nicht in solchen Umgebungen eingesetzt werden, in denen ein Auftrag aus einer höheren Anzahl von Aufträgen selektiert werden muss als die maximal angenommene Auftragsmenge während des Trainings. Eine höhere Anzahl an Aufträgen erfordert einen größeren Aktionsraum, was mit einer strukturellen Erweiterung und somit einem erneuten Training des Agenten einhergeht.

Vor diesem Hintergrund zeichnet sich der erste Forschungsbedarf ab, nämlich die Entwicklung eines skalierbaren Einsatzkonzepts, wie gradientenabhängige RL-Verfahren für die unmittelbare Sequenzierung von Aufträgen eingesetzt werden können. Die Anforderung der Skalierbarkeit gilt dann als erfüllt, wenn ein angelernter Agent für jegliche Auftragsmengen und Warteschlangenlängen eingesetzt werden kann, unabhängig davon, welche Auftragsmengen und Warteschlangenlängen während des Trainings beobachtet wurden.

Hinsichtlich derjenigen Publikationen, die gradientenfreie RL-Verfahren für die Ablaufplanung präsentieren, weisen lediglich zwei der vierzehn geprüften Arbeiten einen produktionslogistischen Bezug auf. Beide Arbeiten untersuchen die Kreuzentropie-Methode, wobei die Art und Weise ihrer Verwendung vielmehr der Anwendung einer Metaheuristik gleicht. So dient in beiden Arbeiten die Kreuzentropie-Methode als Lösungsverfahren, das auf jeder Probleminstanz neu rechnet. In beiden Arbeiten werden keine Untersuchungen präsentiert, wie sich die Lösungsgüte der angelernten Modelle auf anderen Probleminstanzen verhält. Des Weiteren ist hervorzuheben, dass bisher noch keine Arbeiten existieren, die Neuro-Evolution-Verfahren für die Produktionsablaufplanung untersuchen. Unter den gradientenfreien RL-Verfahren sind insbesondere Neuro-Evolution-Verfahren mit den gradientenabhängigen DRL-Verfahren vergleichbar, da bei diesen ebenfalls der Agent stets durch ein KNN repräsentiert wird.

Zusammengefasst resultiert als Forschungslücke, dass gradientenfreie RL-Verfahren bisher noch nicht für die Produktionsablaufplanung mit der Zielstellung untersucht wurden, eine agentenbasierte Lösungsstrategie zu erlernen, die ebenfalls auf neuen Probleminstanzen gute Ergebnisse erzielt, hierbei jedoch analog zu Prioritätsregeln Ergebnisse in Echtzeit produzieren kann.

Ungeachtet der Unterteilung in gradientenabhängige und gradientenfreie RL-Verfahren ist festzustellen, dass die 71 analysierten Arbeiten kaum Details hinsichtlich des Entwurfs und der Implementierung von Agenten und Umgebungen präsentieren. Insbesondere die technische Integration eines Agenten mit dessen Umgebung wird oftmals nur unzureichend beschrieben. Demzufolge kann als weitere Forschungslücke herausgearbeitet werden, dass bisher noch kein Vorgehensmodell existiert, das detailliert und allgemeingültig zur Konzeption und Implementierung von gradientenabhängigen und gradientenfreien RL-Verfahren für die Produktionsablaufplanung anleitet.