Advertisement

Neuronale Netzwerke

  • Karsten Füser
Chapter
  • 86 Downloads

Zusammenfassung

In den letzten Jahren, insbesondere seit 1985, haben die Neuronalen Netze einen breiten Einzug in verschiedene Sparten der Industrie und verschiedene Geschäftsbereiche der Banken gehalten. Dieser „Siegeszug“ hatte seinen Ursprung in den Vereinigten Staaten von Amerika und in Japan. Von dort aus überschwemmten neuronale Anwendungen die Welt. Europa, insbesondere auch die Bankenwelt in Deutschland, konnte sich dieser Technologie nicht mehr verschließen. In den vergangenen zwei bis drei Jahren haben die Institute ihre Türen noch weiter geöffnet, so daß heute von einer Reihe von Pilotanwendungen berichtet werden kann. Sie finden sich in nahezu allen Geschäftsfeldern und haben dort zum Teil schon klassische Verfahren ersetzt.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Referenzen

  1. 1.
    Vgl. Azoff, E. M. (1994), Seite 2.Google Scholar
  2. 2.
    „The work has attracted scientists from a number of disciplines: neuroscientists who are interested in making models of the neural circurity found in specific areas of the brains of various animals; physicists who see analogies between the dynamical behavior of brain-like systems and the kinds of nonlinear dynamical systems familiar in physics; computer engineers who are interested in fabricating brain-like computers; workers in artificial intelligence (AI) who are interested in building machines with the intelligence of biological organisms; engineers interested in solving practical problems; psychologists who are interested in the mechanisms of human information processing; mathematicians who are interested in the mathematics of such neural network systems; philosophers who are interested in how such systems change our view of the nature of mind and its relationship to brain; and many others.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 87.Google Scholar
  3. 3.
    Vgl. hierzu die in Abschnitt 2.1 genannten Anwendungsgebiete Neuronaler Netze.Google Scholar
  4. 4.
    Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 17–24. Sehr anschaulich und umfassend werden die neurophysiologischen Grundlagen auch in Köhle, M. (1990), Seiten 35 ff. beschrieben. Vgl. auch Pytlik, M. (1995), Seiten 147ff.Google Scholar
  5. 5.
    Vgl. hierzu Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 18 ff.Google Scholar
  6. 6.
    Vgl. Wittkemper, H.-G. (1994), Seite 11, Zilahi-Szabo, M. G. (1993), Seite 158. Demgegenüber spricht C. von Altrock von mehr als 100 Millarden Neuronen und 100 Billionen Verbindungen. Vgl. v. Altrock, C. (1991), Seite 625.Google Scholar
  7. 7.
    Hohler, B. (1991), Seite 60.Google Scholar
  8. 8.
    Ein biologisches Neuron ist also, rein funktional betrachtet, ein Addierer mit Schwellwert.Google Scholar
  9. 9.
    Vgl. Füser, K. (1994), Seiten 225 f., Leckebusch, J. (1991), Seite 167.Google Scholar
  10. 10.
    Vgl. Hruschka, H. (1991), Seite 218.Google Scholar
  11. 11.
    Vgl Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 19.Google Scholar
  12. 12.
    Vgl. Hinton, G. E. (1992), Seite 134.Google Scholar
  13. 13.
    Vgl. Hruschka, H. (1991), Seite 217.Google Scholar
  14. 14.
    Vgl. Hinton, G. E. (1992), Seite 134.Google Scholar
  15. 15.
    Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 3. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 500, Hruschka, H. (1991), Seite 217. „So vielfältig wie der Kreis der beteiligten Fachrichtungen ist auch der Gebrauch unterschiedlicher Begriffe und Definitionen, die in den jeweiligen Publikationen verwendet werden. Z.B. können mit Neuronalen (z.T. auch neuronalen [klein geschrieben] oder neuralen) Netzen (oder Netzwerken) sowohl künstliche als auch biologische Netze von Nervenzellen (Neuronen) gemeint sein.“ Krause, C. (1993), Seite 35.Google Scholar
  16. 16.
    Vgl. Schneider, B. (1994), Seiten 59 und 60, Köhle, M. (1990), Seiten 19 ff.Google Scholar
  17. 17.
    Vgl. Pytlik, M. (1995), Seiten 151 ff. „The McCulloch-Pitts (M-P) neuron model had two types of inputs, an excitory and an inhibitory input. The neuron summed the inputs and if the excitory inputs were greater than the inhibitor inputs, the neuron fired“ , that is greater than an output. While the model, as stated, could account for logical processing, it did not show how information was stored or how intelligent behaviors were learned.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3. Vgl. auch Carpenter, G. A. (1989), Seiten 243 und 244.Google Scholar
  18. 18.
    Von besonderer Bedeutung ist im historischen Kontext sicherlich, daß der erste funktionierende „Rechner“ erst circa 10 Jahre, nachdem McCuloch/PITTS ihr Vorstellungen von der Funktionsweise eines Neurons veröffentlichten, zur Verfügung stand.Google Scholar
  19. 19.
    „In 1949, Hebb postulated that ‚knowledge‘ was stored in the connections between the neurons, and that ‚learning‘ consisted of modifying these connections and altering the excitory and inhibitory effects of the various inputs.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3.Google Scholar
  20. 20.
    Vgl. Carpenter, G. A. (1989), Seiten 245 f.Google Scholar
  21. 21.
    Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 50, Wittkemper, H.-G. (1994), Seite 6. „Trotzdem verschwand bei einigen Wissenschaftlern das Interesse an neuronalen Netzen nicht. Dazu zählen J. Anderson, T. Kohonen, der Physiknobelpreisträger L. Cooper und J. Hopfield, um nur einige zu nennen.“ Sauerburger, H. (1991), Seite 9.Google Scholar
  22. 22.
    „Neuronale Netze sind extrem fehlertolerant. Sie liefern auch dann noch sinnvolle Ergebnisse, wenn Zellen teilweise ausfallen oder ein Teil der Verknüpfungen verändert wurde. Mit Graceful Degeneration bezeichnet man die Eigenschaft neuronaler Systeme, bei Ausfall von Zellen oder Verbindungen nicht sofort zu versagen, sondern mit zunehmender Beschädigung erst nach und nach ihre Funktionsweise zu verlieren. Neuronale Netze sind daher, im Gegensatz zu konventionellen Rechnern, extrem robust gegenüber Hardwarefehlern.“ Hohler, B. (1991), Seite 59. In diesem Kontext werden häufig auch die Begriffe der „schrittweisen Leistungsverringerung“ und der „stepwise degradation“ gefunden.Google Scholar
  23. 23.
    Vgl. Füser, K. (1994), Seiten 224 f.Google Scholar
  24. 24.
    Vgl. Schneider, B. (1994), Seite 60.Google Scholar
  25. 25.
    Vgl. V. Altrock, C. (1991), Seite 626. Zwischen 1991 und heute hat sich auf diesem Gebiet einiges getan. In diesem Buch wird noch mehrfach an geeigneten Stellen auf parallel arbeitende Neuronale Netze eingegangen. Geeignete Hardware-Simulatoren bzw. Rechner, die eine direkte Umsetzung des neuronalen Paradigmas ermöglichen, sind in angenäherter Form schon in der Connection Machine, im Cnaps-System vonAdaptive Solutions Inc. oder in spezialisierter Form in der Synapse-1 von Siemens-Nixdorf zu finden. Vgl. Blien, U./Lindner, H.-G. (1993), Seiten 500 f., Schöneburg, E. (Hrsg.) (1993), Seiten 149–188. Zur Synapse-1 vgl. z.B. Kopecz, J./Hormel, M. (1995), Seite 68.Google Scholar
  26. 26.
    Schumann, M. (1991), Seite 30.Google Scholar
  27. 27.
    Vgl. Hruschka, H. (1991), Seite 217. „An expert system (ES) depends on the representation of the expert’s knowledge as a series of IFTHEN conditions or rules, known as the knowledge base. These rules must first be determined by observing human experts, then programmend into ES using special languages such as PROLOG or shells such as Knowledge Craft, ART or KEE. This process can be time-consuming and expensive.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.Google Scholar
  28. 28.
    Fridson, M. S. (1994), Seite 77.Google Scholar
  29. 29.
    „Das Problemlösungswissen wird auf einer niedrigeren Abstraktionsebene, „unterhalb“ der symbolischen Repräsentation, dargestellt. Man spricht deshalb auch von subsymbolischer Verarbeitung.“ Kurbel, K./Pietsch, W. (1991), Seite 357.Google Scholar
  30. 30.
    Vgl. Hohler, B. (1991), Seite 59.Google Scholar
  31. 31.
    Zimmermann, H. G. (1992), Seite 30. Vgl. auch Zimmermann, H. G. (1991), Seite 497. Dort findet sich ein ähnlicher Gedankengang.Google Scholar
  32. 32.
    Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.Google Scholar
  33. 33.
    Kurbel, K./Pietsch, W. (1991), Seite 357.Google Scholar
  34. 34.
    Vgl. Zilahi-Szabo, M. G. (1993), Seite 790.Google Scholar
  35. 35.
    Blien, U./Lindner, H.-G. (1993), Seite 498.Google Scholar
  36. 36.
    Vgl. Rojas, R. (1992), Seite 125.Google Scholar
  37. 37.
    „An ANS (Abkürzung für: Artificial Neural System) has three major components—a network topology, a spreading activation method and a training mechansim.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 65. Vgl. Barr, T. (1991), Seite 79.Google Scholar
  38. 38.
    Die Absolutwerte von ωij können als Maß für die Stärke der Verbindung interpretiert werden, das Vorzeichen signalisiert dabei eine verstärkende (wij > 0) bzw. hemmende (wij < 0) Verknüpfung.Google Scholar
  39. 39.
    Vgl. zur nachfolgenden Darstellung Hinton, G. E. (1992), Seite 136. Von nun an werden die Aktivierungsfunktion A(y) und die Transferfunktion T zu einer Funktion mit dem Namen A(y) zusammengefaßt, die (wie in der Literatur häufig üblich) insgesamt wieder als Aktivierungsfunktion bezeichnet wird.Google Scholar
  40. 40.
    Vgl. Hinton, G. E. (1992), Seite 136, Köhle, M. (1990), Seiten 64 ff.Google Scholar
  41. 41.
    Vgl. hierzu z.B. Wittkemper, H.-G. (1994), Seite 13, Pytlik, M. (1995), Seite 160. Hierzu findet sich eine sehr anschauliche Darstellung in Azoff, E. M. (1994), Seiten 51–55.Google Scholar
  42. 42.
    Vgl. hierzu die nachfolgenden Ausführungen.Google Scholar
  43. 43.
    „With the sigmoidal transfer functions, the limits of the output of the processing element are 0 and 1. With a hyperbolic tangent transfer function, the limits are -1 and 1. As a result, if the problem involves learning about ‚average‘ behavior, sigmoid transfer functions work best. However, if the problem involves learning about ‚deviations‘ from the average, hyperbolic tangent works best. For example, bankruptcy prediction and stock picking are examples of problems where the objective is to learn to pick out ‚exceptional‘ situations, and hyperbolic tangent works best. In the case of learning to classify respondents for a direct mail application, the sigmoid works well.“ Trippi, R. R./Turban, E. (HRsG.) (1993), Seite 65. Die von Trippi/Turban publizierten Erfahrungen lassen sich jedoch nicht verallgemeinern.Google Scholar
  44. 44.
    Vgl. hierzu und zu den nachfolgenden Ausführungen Hruschka, H. (1991), Seite 218.Google Scholar
  45. 45.
    Hruschka, H. (1991), Seite 218.Google Scholar
  46. 46.
    Vgl. Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5.Google Scholar
  47. 47.
    Das einfachste Netzwerk besteht jedoch aus einer Menge von Neuronen, die in einer Schicht angeordnet sind. In diesen und allen mehrschichtigen Netzwerken haben die Knoten am Eingang des Netzes nur die Aufgabe, die eingehenden Signale zu verteilen. Da diese Knoten keine Berechnungen ausführen, werden sie bei der Schichtenzählung nicht als solche gezählt.Google Scholar
  48. 48.
    Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.Google Scholar
  49. 49.
    Vgl. Blien, U./Lindner, H.-G. (1993), Seite 501.Google Scholar
  50. 50.
    „The configuration of a neural net is represented by a weighted directed graph (WDG) with nodes representing units and links representing connections. Each link is assigned a numerical value representing the weight of the connection.“ Tam, K./Kiang, M. (1992), Seite 929.Google Scholar
  51. 51.
    „Lernen heißt Selbstanpassung der Gewichtungsfaktoren zwischen den Prozessorelementen, so daß das Netz das gewünschte Verhalten zeigt. Die Lernfähigkeit entbindet von der expliziten Suche nach einer algorithmischen Lösung des gestellten Problems.“ Hohler, B. (1991), Seite 59.Google Scholar
  52. 52.
    „In many business applications (credit offers, fraud detection, credit extensions, etc.) learning is supervised. The network is presented with sets of data, each set being explicitly associated with a specific outcome (e.g., good/bad, bankrupt/nonbankrupt).“ Dasgupta, C. G./Dispensa, G. S./Ghose, S. (1994), Seite 238.Google Scholar
  53. 53.
    Vgl. Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 66. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 505.Google Scholar
  54. 54.
    Vgl. Azoff, E. M. (1994), Seite 4, Schumann, M. (1991), Seite 28. In diesem Zusammenhang spricht A. N. Refenes auch vom associative reinforcement learning. Vgl. Refenes, A. N. (Hrsg.) (1995), Seite 7.Google Scholar
  55. 55.
    Viele Autoren differenzieren nur zwischen dem Lernen mit und ohne Zielvorgabe. Vgl. hierzu z.B. Rehkugler, H./Poddig, T. (1992A), Seite 51. Einige Varianten für das Lernen mit und ohne Lehrer diskutiert Wittkemper, H.-G. (1994), Seite 21.Google Scholar
  56. 56.
    Vgl. Schumann, M. (1991), Seite 27.Google Scholar
  57. 57.
    Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 6 ff.Google Scholar
  58. 58.
    Baun, S. (1994), Seite 140. Die Begriffe recurrent und feedback sind synonym zu verwenden.Google Scholar
  59. 59.
    Rehkugler, H./Poddig, T. (1992A), Seite 52.Google Scholar
  60. 60.
    Vgl. Hohler, B. (1991), Seite 64. Vgl. auch Krause, C. (1993), Seite 63. Dort findet sich eine Gruppierung systematisiert nach ihren Hauptanwendungsgebieten (Prognose, Klassifikation, Assoziation, Datenanalyse, Datenfilterung und Optimierung). Vgl. auch Barr, T. (1991), Seite 82.Google Scholar
  61. 61.
    Klimasauskas, C. C. (1994), Seite 19.Google Scholar
  62. 62.
    Vgl. zu den vorherigen Ausführungen Kurbel, K./Pietsch, W. (1991), Seite 361.Google Scholar
  63. 63.
    Vgl. zu den folgenden Ausführungen Fuser, K. (1994), Seiten 237 ff. Vgl. hierzu Baun, S. (1994), Seite 145. Dort wird eine weitere Entwicklungsmethode zum Aufbau von Anwendungen, die auf Neuronalen Netzen basieren, vorgestellt. Es wird differenziert zwischen dem Abfrageschema zur Bestimmung der Modellvorstellung vor Beginn der eigentlichen Modellentwicklung und dem Ablaufschema für die Modellrechnung im Rahmen des Trainingsund Optimierungsprozesses zur Bestimmung des Endmodells. Vgl. Rehkugler, H./Poddig, T. (1994A), Seite 15, Hoptroff, R. G. (1993), Seite 62. Weitere Arbeitsschemata finden sich in Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 50 oder auch in Schumann, M. (1991), Seite 29 und Klimasauskas, C. C. (1994), Seite 11. Vgl. auch Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5. Sehr interessant sind in diesem Rahmen auch die Ausführungen von Bailey, D./Thompson, D. (1990), Seiten 38–47.Google Scholar
  64. 64.
    Baun, S. (1994), Seite 144.Google Scholar
  65. 65.
    Vgl. Baun, S. (1994), Seiten 148 ff. Vgl. zum Thema „Pre- and Postprocessing of Financial Data“ die Ausführungen von Deboeck, G. J./Cader, M. (1994), Seiten 27–44.Google Scholar
  66. 66.
    „And though good at processing information and at pattern recognition, they cannot make something out of nothing.“ McLeod, R. W./Malhotra, D. K./Malhotra, R. (1993), Seite 38. R. G. Hoptroff sagt: „There is one key limitation: the MLP (MLP: Abkürzung für Multi Layer Perceptron, Architektur/Topologie eines Neuronalen Netzwerkes) can do not better than the data it is trained on.“ Hoptroff, R. G. (1993), Seite 61.Google Scholar
  67. 67.
    Baun, S. (1994), Seite 149.Google Scholar
  68. 68.
    Baun, S. (1994), Seite 144.Google Scholar
  69. 69.
    Vgl. Burger, A. (1994B), Seite 1170.Google Scholar
  70. 70.
    „Nach der Festlegung des Typs (und gegebenenfalls innerhalb des Typs der geeigneten Variante) ist die geeignete Architektur zu entwicklen. Dieser Prozeß ist extrem zeitaufwendig und anspruchsvoll. Er kann—je nach Aufgabenstellung—von Wochen bis zu Monaten dauern.“ Vgl. Rehkugler, H./Poddig, T. (1992B), Seite 416.Google Scholar
  71. 71.
    Vgl. Burke, G. (1992), Seiten 35 und 36.Google Scholar
  72. 72.
    Schöneburg, E. (Hrsg.) (1993), Seite 19.Google Scholar
  73. 73.
    Prinzipiell können drei Arten von Gewichtsänderungen unterschieden werden: 1) der Aufbau neuer Verbindungen, 2) die Elimination vorhandener Verbindungen und 3) die Veränderung der Gewichte existierender Verbindungen. Die Möglichkeiten 1) und 2) sind Spezialfälle von 3), da die Elimination z.B. in der Form geschehen kann, daß Gewichte auf Null gesetzt werden.Google Scholar
  74. 74.
    Vgl. Sauerburger, H. (1991), Seite 18.Google Scholar
  75. 75.
    Vgl. Kosko, B. (1992), Seite 187.Google Scholar
  76. 76.
    Unter Repräsentierbarkeit wird in diesem Zusammenhang die Fähigkeit eines Netzes verstanden, einen gegebenen funktionalen Zusammenhang mit Hilfe dafür explizit gewählter Gewichte und Schwellenwerte korrekt darstellen zu können. Demgegenüber sorgt die Lernfiähigkeit dafür, daß die entsprechenden Gewichte (und Schwellenwerte) durch eine Rechenvorschrift (Algorithmus) bestimmt bzw. erlernt werden können.Google Scholar
  77. 77.
    Vgl. Hruschka, H. (1991), Seite 219, Barr, T. (1991), Seite 82.Google Scholar
  78. 78.
    Sauerburger, H. (1991), Seite 20.Google Scholar
  79. 79.
    Eine Fläche ist konvex, wenn man jedes Punktepaar innerhalb der Fläche durch eine Gerade verbinden kann, die sich vollständig in der Fläche befindet.Google Scholar
  80. 80.
    Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 27.Google Scholar
  81. 81.
    Vgl. zu den vorherigen Ausführungen Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 27 ff.Google Scholar
  82. 82.
    Vgl. z.B. die Ausführungen von Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seiten 89 ff., Zimmermann, H. G. (1994), Seiten 37 ff., Wong, F. S. (1990/1991), Seiten 149 ff., Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 11 ff. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 8–10, White, H. (1989B), Seiten 48 ff.Google Scholar
  83. 83.
    Vgl. zu den nachfolgenden Ausführungen Fuser, K. (1994), Seiten 252 ff.Google Scholar
  84. 84.
    Der Initialwert jedes Gewichtungsfaktors ist i.d.R. eine kleine Zufallszahl z.B. aus dem Bereich von —0,50 bis +0,50. Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 12 und 13 zur Frage der Gewichtsinitialisierung.Google Scholar
  85. 85.
    Beginnend bei der Ausgangsebene wird rückwärts der Einfluß der Ebenen auf den Fehler ermittelt. Dieser Schritt erfolgt parallel für alle Output-Units. Anschließend werden die vor den einzelnen Output-Units liegenden Gewichtungsfaktoren korrigiert, deshalb der Begriff „ErrorBackpropagation-Algorithmus“. Das Backpropagation-Prinzip ist aus der Sicht der Biologen unplausibel. Es modelliert Lernen derart, daß Informationen auch entgegengesetzt zur vorgegebenen Richtung Eingabe-Verarbeitung-Ausgabe wandern. Vgl. Hinton, G. E. (1992), Seite 139.Google Scholar
  86. 86.
    „Ziel des Lernverfahrens ist es, Netzgewichte zu finden, die E minimieren. Nach dem Training werden unbekannte Vektoren in das Netz eingegeben, in der Erwartung, daß es eine gute Interpolation durchführt. Das Netz soll automatisch erkennen, ob eine neue Eingabe einem Eingabevektor der Trainingsmenge ähnlich ist, und dann eine ähnliche Ausgabe erzeugen.“ Rojas, R. (1992), Seite 154.Google Scholar
  87. 87.
    Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.Google Scholar
  88. 88.
    Sehr anschaulich wird der theoretische Hintergrund des Error-Backpropagation-Algorithmus in Hinton, G. E. (1992) auf der Seite 138 dargestellt.Google Scholar
  89. 89.
    Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 54 ff.Google Scholar
  90. 90.
    Die Formel 2.23 zur Änderung der Gewichtungsfaktoren bezeichnet man auch als Delta-Regel.Google Scholar
  91. 91.
    Vgl. dazu auch die Ausführungen auf der Seite 28.Google Scholar
  92. 92.
    An dieser Stelle soll noch einmal kurz die Problematik der Initialisierung der Gewichtungsfaktoren erörtert werden. Sind alle Gewichte einer Ebene mit denselben Werten initialisiert, so liefern alle Units dieser Ebene dieselben Ergebnisse. Da bei der Berechnung von Δwij die Ausgangswerte der vorherigen Ebene mit eingehen (Δ ωij = η • σj • opi) und diese alle gleich sind, werden alle Gewichte dieser Ebene gleichmäßig korrigiert, so daß nach der Korrektur die Gewichte wiederum alle gleich sind, d.h. diese Ebene kann nicht trainiert werden. Vgl. hierzu z.B. Refenes, A. N. (1995A), Seite 29.Google Scholar
  93. 93.
    Vgl. Hinton, G. E. (1992), Seite 138. Vgl. auch Wong, F. S. (1990/1991), Seite 152.Google Scholar
  94. 94.
    Vgl. hierzu die Formel 2.20, von der in diesem Schritt die Ableitung nach ok gebildet wird.Google Scholar
  95. 95.
    Die Gesamteingabe xk fließt in den Output-Neuronen k in die Sigmoid-Funktion ein. Der Funktionswert der Sigmoid-Funktion ist die Ausgabeaktivität an den Output-Neuronen k. Aus diesem Grunde ist σk gleich dem Ergebnis von Schritt 1, multipliziert mit der Rate, mit der sich die Ausgabe eines Output-Neurons bei veränderter Gesamteingabe ändert. Gebildet wird somit mit Hilfe der Kettenregel der Differentialgleichung die Ableitung der Sigmoid-Funktion, um die Änderungsrate zu bestimmen. Vgl. zur Ableitung der Sigmoid-Funktion Abschnitt 2.3.1.Google Scholar
  96. 96.
    Die Größe Δωjk ergibt sich nach der Formel für xk aus dem Ergebnis für σ k im Schritt 2, multipliziert mit dem Aktivitätsniveau des Knotens oj, von dem die Verbindung kommt. Gebräuchlich ist hier die Multiplikation mit dem Parameter η, über den die Geschwindigkeit des Lernprozesses variiert werden kann.Google Scholar
  97. 97.
    Durch diesen entscheidenden Schritt ist der Backpropagation-Algorithmus auch auf mehrschichtige Netzwerke anwendbar. Wenn ein Neuron j der vorhergehenden Schicht seine Aktivität oj ändert, so beeinflußt dies die Aktivitäten aller mit ihm verbundenen Output-Neuronen ok. Um die Gesamtveränderung auf den Fehler Ep zu ermitteln, bildet man die Summe aller einzelnen Effekte auf die Output-Neuronen ab.Google Scholar
  98. 98.
    Vgl. hierzu auch das gelungene Flußdiagramm zur Arbeitsweise des Error-BackpropagationAlgorithmus in Tam, K./Kiang, M. (1992), Seite 930.Google Scholar
  99. 99.
    Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 43, zum Gradientenabstiegsverfahren.Google Scholar
  100. 100.
    Die stetige Konvergenz des Algorithmus (d.h. das schrittweise Fallen des Gesamtfehlers bis unter eine bestimmte Schwelle) ist nicht immer garantiert. Es kann allerdings bewiesen werden, daß der Gesamtfehler des Netzes E gegen 0 konvergiert.Google Scholar
  101. 101.
    Dabei ist die Präsentationsreihenfolge der Trainingsmuster in der Regel pseudo-zufällig. „Eine Zerstörung bereits gelernter Zusammenhänge findet bei diesem Lernverfahren nicht statt, falls die Gewichte erst nach Kumulierung der Änderungen über alle Beobachtungswerte geändert werden.“ Hruschka, H. (1991), Seite 220. „First, make sure that the training presentations are randomized. If they are not, the network may very quickly learn about how to classify data in one particular mode (all good) and, due to the effects of momentum, move quickly in that direction.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 71.Google Scholar
  102. 102.
    Rojas, R. (1992), Seite 149.Google Scholar
  103. 103.
    Zu den Techniken der Vorverarbeitung, insbesondere im Bereich der Finanzwirtschaft vgl. z.B. Jurik, M. (1992B), Seiten 40–44, Stein, R. (1993B), Seiten 32–37, Stein, R. (1993A), Seiten 42–47. Vgl. auch Baestaens, D. E./van Den Bergh, W. M./Wood, D. (1994), Seite 44.Google Scholar
  104. 104.
    Für ein wirklich tiefgehendes Verständnis des Error-Backpropagation-Verfahrens ist es notwendig einmal die Abläufe in der Lernphase „von Hand“ nachzuvollziehen. Die Zusammenhänge zwischen Gewichtungsfaktoren und Wissensspeicherung sowie die einzelnen Phasen des Trainingsverfahrens werden dabei besonders deutlich.Google Scholar
  105. 105.
    Vgl. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90. Vgl. zu den nachfolgend aufgeführten Punkten auch Altmann, E. I./Marco, G./Varetto, F. (1994), Seite 515.Google Scholar
  106. 106.
    Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90.Google Scholar
  107. 107.
    Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.Google Scholar
  108. 108.
    Vgl. SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 96.Google Scholar
  109. 109.
    Burke, G. (1992), Seite 36.Google Scholar
  110. 110.
    Köhle, M. (1990), Seite 96.Google Scholar
  111. 111.
    Vgl. Rojas, R. (1992), Seiten 168–172. Vgl. auch Piramuthu, S./Shaw, M. J./Gentry, J. A. (1994), Seiten 513–517. Bei letzteren wird eine interessante Erweiterung der Error-Backpropagation-Verfahrens, der NewtonRaphson-Algorithmus, vorgestellt.Google Scholar
  112. 112.
    Vgl. Kohonen T., et al. (Editors) (1991), Seiten 617–622, Köhle, M. (1990), Seite 97. Vgl. auch Wong, F. S. (1990/1991), Seite 151.Google Scholar
  113. 113.
    Analog wird für die Units der Hidden-Ebene die Gleichung 2.25 angepaßt.Google Scholar
  114. 114.
    Vgl. Rojas, R. (1992), Seite 169, Refenes, A. N. (1995A), Seite 26.Google Scholar
  115. 115.
    Hierbei kann noch zwischen einer allgemein gültigen, also für das gesamte Netzwerk gewählten und einer gewichtsbezogenen Vorgabe von η differenziert werden.Google Scholar
  116. 116.
    Schneider, B. (1994), Seite 62.Google Scholar
  117. 117.
    Vgl. Huber, C./Geiger, H./ Nücke, H. (1993), Seite 370.Google Scholar
  118. 118.
    Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 60.Google Scholar
  119. 119.
    In Refenes, A. N. (1995B), Seiten 33 ff. werden einige Strategien, die zu einem „optimalen Netzwerkdesign“ führen könnten, diskutiert. A. N. Refenes differenziert dabei zwischen analytischen Methoden, den konstruktiven Techniken und den sog. Pruning-Verfahren. Es empfiehlt sich ein Riickgriff auf die zitierte Quelle, da dort einige Vorgehensweisen sehr anschaulich dargestellt werden.Google Scholar
  120. 120.
    Vgl. Baun, S./Köhr, Th. (1994), Seite 12. E.D. Karnin nennt drei Gründe, die für den Einsatz von Pruning-Strategien mit dem Ziel, kleinere Netzwerke zu erhalten, sprechen: 1) „The cost of computation, measured by the number of arithmetic operations, grows (almost) linearly with the number of the synaptic connections. Hence a smaller net is more efficient in both forward computation and learning.“ 2) „Neural net learning is usually based on a finite (often small) set of training patterns. A network which is too large will tend to memeorize the training patterns and thus have a poor generalization ability.“ 3) „There is always the hope that a smaller net will exhibit a behavior that can be described by a simple set of rules.“ Vgl. Karnin, E. D. (1990), Seite 239.Google Scholar
  121. 121.
    Vgl. Baun, S. (1994), Seite 161 ff. Dort werden eine Reihe von Pruning-Verfahren skizziert. Vgl. ebenso die Ausführungen von Miller, M. (1994), Seiten 133 ff. und die Gedanken von Wittkemper, H.-G. (1994), Seite 61.Google Scholar
  122. 122.
    Vgl. Baun, S./Köhr, Th. (1994), Seite 13, Baun, S. (1994), Seite 166, Miller, M. (1994), Seiten 139 und 140, Azoff, E. M. (1994), Seiten 59–60.Google Scholar
  123. 123.
    Vgl. Baun, S. (1994), Seite 166. Vgl. ergänzend Miller, M. (1994), Seiten 141 und 142.Google Scholar
  124. 124.
    Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Sie schreiben: „There are two basic approaches to optimizing hidden layer size: constructive and destructive.“Google Scholar
  125. 125.
    Vgl. Wittkemper, H.-G. (1994), Seite 63. „The constructive approach to hidden layer size is to start with a network with no hidden units. The inputs are connected directly to the outputs. Train the weights until the error ‚stabilizes‘. Fix these weights and add a hidden unit connected to the input and all prior hidden layers. The output of this new unit is connected to the output. Continue training. Eventually, the network will make no mistakes on the training data. One of the keys to the constructive approach is to decide when to stop adding hidden units. The answer is that at each decision point, the network is tested on both the training and test set. Performance on both is plotted. If the performance on both does not improve, remove the last hidden unit added and stop. Why? The network is starting to ‚memorize‘ the training set to the detriment of the test set.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Vgl. auch Klimasauskas, C. C. (1994), Seite 23.Google Scholar
  126. 126.
    Vgl. Baun, S. (1994), Seite 179, zur nachfolgenden Grafik. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 48.Google Scholar
  127. 127.
    „To avoid overfitting, one may adopt one ore more of the following strategies: (a) use special stopping criteria (b) add noise to the learning sample, and (c) use a simple network structure (i.e., with a small number of hidden units).“ Dutta, S./Shekhar, S./Wong W. Y. (1994), Seite 530.Google Scholar
  128. 128.
    Vgl. zum Problem des „overlearning“ z.B. Wittkemper, H.-G. (1994), Seite 40.Google Scholar
  129. 129.
    Miller, M. (1994), Seiten 132 und 133. Vgl. dort auch die graphischen Darstellungen zur Arbeitsweise des Stopp-Training auf den Seiten 131 und 132. „This method is reasonably powerful and simple and often leads to good results.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.Google Scholar
  130. 130.
    Vgl. z.B. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 20, zum Thema Cross-Validierungs-Menge. Vgl. ebenso Klimasauskas, C. C. (1994), Seiten 16Google Scholar
  131. 131.
    Vgl. hierzu Baun, S. (1994), Seite 161 f. und die dort aufgeführten Quellen, in denen diese und andere Optimierungsverfahren diskutiert werden.Google Scholar
  132. 132.
    Vgl. dazu Seite 60.Google Scholar
  133. 133.
    Vgl. Miller, M. (1994), Seite 143.Google Scholar
  134. 134.
    Vgl. Miller, M. (1994), Seite 143, Wittkemper, H.-G. (1994), Seite 60.Google Scholar
  135. 135.
    Vgl. Weigend, A. S./Hubermann, B. A./Rumelhart, D. E. (1992), Seiten 405–409. Vgl. auch Miller, M. (1994), Seite 145.Google Scholar
  136. 136.
    Vgl. Baun, S. (1994), Seite 167.Google Scholar
  137. 137.
    Vgl. Zell, A. (1994), Seiten 189 ff., Pytlik, M. (1995), Seiten 202–209. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 26 f.Google Scholar
  138. 138.
    Vgl. Zell, A. (1994), Seite 191.Google Scholar
  139. 139.
    Vgl. Zell, A. (1994), Seite 192.Google Scholar
  140. 140.
    Vgl. hierzu die Ausführliche Diskussion in Zell, A. (1994), Seiten 193 ff.Google Scholar
  141. 141.
    Vgl. Schneider, B. (1994), Seite 64.Google Scholar
  142. 142.
    J. Hopfield, Professor für Chemie und Biologie am California Institut of Technology, ist als einer der frühen und heute führenden Forscher auf dem Gebiet der Neuronalen Netze weltweit geachtet.Google Scholar
  143. 143.
    Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 127.Google Scholar
  144. 144.
    Vgl Zell, A. (1994), Seiten 197 ff., Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47 ff., Brause, R. (1991), Seiten 179 ff., Sauerburger, H. (1991), Seiten 24–26 oder auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 24.Google Scholar
  145. 145.
    Vgl. Barr, T. (1991), Seite 82.Google Scholar
  146. 146.
    Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 108.Google Scholar
  147. 147.
    Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 47 ff.Google Scholar
  148. 148.
    Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47.Google Scholar
  149. 149.
    Zur einfacheren Herleitung der Lernregel wurden hier die Zustände durch +1 und —1 beschrieben. In der Literatur wird dagegen häufig auch mit 0 und +1 gearbeitet. Daraus resultiert eine (formal) leicht abgewandelte Darstellung der Lernphase. Gravierender ist jedoch, wenn man die —1 Komponenten eines zu lernenden Vektors auf 0 setzt, daß durch diese Anpassung i.d.R. verschlechterte Recall-Ergebnisse beim trainierten Netzwerk zu beobachten sind. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110, Zell, A. (1994), Seiten 197 ff.Google Scholar
  150. 150.
    In der Form der Gewichtsanpassung unterscheidet sich die Lernphase des Hopfield-Netzes signifikant von der des Backpropagation-Verfahrens. Die Gewichte wij werden nicht iterativ bestimmt, sondern bei der Vorgabe der zu erkennenden Muster direkt berechnet. Vgl. Sauerburger, H. (1991), Seite 25.Google Scholar
  151. 151.
    Vgl Ritter,I. H./Martinetz, T./Schulten, K. (1991), Seite 49. Die Autoren sprechen in diesem Zusammenhang auch von Attraktionsbecken um lokale Minima. Alle Eingabemuster innerhalb eines solchen Beckens werden durch die Systemdynamik zum Beckenminimum gezogen und liefern das gleiche Ausgabemuster.Google Scholar
  152. 152.
    Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110.Google Scholar
  153. 153.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 112. Man kann Nebenminima jedoch bis zu einem gewissen Grad löschen oder zumindest ihren Einzugsbereich verkleinern. Diese Prozedur wird unlearning genannt. Vgl. ebenda, Seite 113.Google Scholar
  154. 154.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 111. In diesem Zitat steht n für die Anzahl der Neuronen im Netzwerk.Google Scholar
  155. 155.
    Vgl. hierzu Zell, A. (1994), Seite 199 und den dort geführten Gültigkeitsbeweis. Man beachte, daß die Bedingungen des Cohen-Grossberg-Theorems hinreichend, aber nicht notwendig für die Stabilität rekurrenter Netzwerke sind, d.h. es gibt Netzwerke, die diese Kriterien nicht erfüllen und trotzdem stabil sind.Google Scholar
  156. 156.
    Vgl. Kosko, B. (1992), Seite 92.Google Scholar
  157. 157.
    Abhilfe davon schaffen sogennante statistische Methoden, bei denen die Neuronen ihren Zustand nicht mehr deterministisch sondern zufällig nach einer Wahrscheinlichkeitsverteilung ändern. In diesem Kontext existieren einige Verfahren, die durch die nachfolgend aufgeführten Begriffe beschrieben werden: Statistische Methoden, Boltzmann-Maschine und Simulated Annealing. Vgl. hierzu die weiteren Ausführungen.Google Scholar
  158. 158.
    Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 139. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 114.Google Scholar
  159. 159.
    Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 50 f. Sie geben an, daß die kritische Grenze bei p zu trainierenden Mustern und n Neuronen bei p≈ 0,146n liegt, wobei sie erwähnen, daß durch geschickte Kodierung der Muster die Speicherkapazität des Netzwerkes noch erhöht werden kann. Vgl. auch Schöneburg, E. (Hrsg.) (1993), Seite 138 f.Google Scholar
  160. 160.
    Vgl. hierzu z.B. Zell, A. (1994), Seiten 207 ff., Brause, R. (1991), Seiten 205 ff., Köhle, M. (1990), Seiten 104 ff., Hruschka, H. (1991), Seiten 221 f.Google Scholar
  161. 161.
    Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 236, Zell, A. (1994), Seite 208.Google Scholar
  162. 162.
    Vgl. Zell, A. (1994), Seite 215.Google Scholar
  163. 163.
    Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 132.Google Scholar
  164. 164.
    Im Gegensatz zu der hier dargestellten Verarbeitungsmethodik eines Hopfield-Modells kennt die Boltzmann-Maschine nur die Zustände 0 und 1, wobei der Zustand 1 einer verstärkten Neuronenaktivität und die 0 einem Ruhezustand des Neurons entspricht. Es existieren alternative Varianten von Hopfield-Netzen, die ebenso ausschließlich mit diesen beiden Zuständen arbeiten. Vgl. z.B. Zell, A. (1994), Seiten 197 ff.Google Scholar
  165. 165.
    Zell, A. (1994), Seite 209. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 119.Google Scholar
  166. 166.
    Vgl. zum Training von Boltzmann-Maschinen z.B. Zell, A. (1994), Seiten 210 ff.Google Scholar
  167. 167.
    Vgl. zu diesen Ausführungen Schöneburg, E. (Hrsg.) (1993), Seiten 131 ff.Google Scholar
  168. 168.
    Vgl. z.B. Blien, U./Lindner, H.-G. (1993), Seiten 507 f.Google Scholar
  169. 169.
    „There are two variants of the association paradigm: auto-association and hetero-association. An auto-associative paradigm is one in which a pattern is associated with itself. A hetero-associative paradigm is one in which two different patterns have to be associated with each other.“ Refenes, A. N. (Hrsg.) (1995), Seite 7. Vgl. hierzu auch Carpenter, G. A. (1989), Seite 250.Google Scholar
  170. 170.
    Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.Google Scholar
  171. 171.
    Blien, U./Lindner, H.-G. (1993), Seite 508.Google Scholar
  172. 172.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.Google Scholar
  173. 173.
    Blien, U./Lindner, H.-G. (1993), Seite 509.Google Scholar
  174. 174.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 117. Betrachte zu den Weiterentwicklungen bzw. Alternativenbetrachtungen vor allem Kosko, B. (1992), Seiten 63 ff.Google Scholar
  175. 175.
    Vgl. Sauerburger, H. (1991), Seiten 26–27. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 10–12, Barr, T. (1991), Seite 84, Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 25 f.Google Scholar
  176. 176.
    Vgl. Sauerburger, H. (1991), Seite 26.Google Scholar
  177. 177.
    Barr, T. (1991), Seite 84.Google Scholar
  178. 178.
    Vgl. Sauerburger, H. (1991), Seite 26.Google Scholar
  179. 179.
    Wittkemper, H.-G. (1994), Seite 22.Google Scholar
  180. 180.
    Vgl. z.B SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff. Vgl. auch Köhle, M. (1990), Seiten 153 ff., Carpenter, G. A. (1989), Seiten 254 und 255.Google Scholar
  181. 181.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff. Vgl. auch Brause, R. (1991), Seiten 87 ff., Köhle, M. (1990), Seiten 29 ff. oder die Ausführungen von Carpenter, G. A. (1989), Seite 246.Google Scholar
  182. 182.
    Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 89 ff.Google Scholar
  183. 183.
    Vgl. Kerling, M./Poddig, T. (1994), Seiten 443 ff. Es handelt sich hierbei um ein sehr interessantes Nearest-Neighbour-Lernverfahren, welches nach dem “Winner takes it all“-Prinzip arbeitet. Vgl. auch Köhle, M. (1990), Seiten 127 ff., Pytlik, M. (1995), Seiten 191–202.Google Scholar
  184. 184.
    Vgl. Carpenter, G. A. (1989), Seiten 255 ff. Cogitron und Neocognitron wurden von K. Fukushima zwischen 1975 und 1988 entwickelt. Sie können mit und ohne Lehrer trainiert werden. Vgl. a.a.O. Seite 256. Dort steht: „Learning can proceed with or without a teacher.“ und die nachfolgende Fußnote.Google Scholar
  185. 185.
    Vgl. Köhle, M. (1990), Seiten 141 ff. Das Neocognitron ist ein Neuronales Netz für die visuelle Mustererkennung, das ein nicht überwachtes, d.h. selbstorganisiertes Lernverfahren zum Training verwendet.Google Scholar
  186. 186.
    Vgl. Pytlik, M. (1995). Dort werden eine Reihe von Netzen deskriptiv mit Hinweisen auf weitere Quellen, die das jeweilige KNN beschreiben, vorgestellt. Er weist z.B. hin auf das BrainState-in-a-Box-Modell von J.A. Anderson, die Selbstorganisierenden Karten von T. Kohonen, das Restricted-Coulumb-Energy-Netz der in den USA ansässigen Firma Nestor und weitere für viele Laien sicherlich exotisch anmutende Netzwerktypen.Google Scholar
  187. 187.
    Vgl. Kosko, B. (1992), Seiten 259–261 zum ART-1. Vgl. darüber hinaus Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff.Google Scholar
  188. 188.
    Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff.Google Scholar
  189. 189.
    Vgl. Blien, U./Lindner, H.-G. (1993), Seite 504.Google Scholar
  190. 190.
    Zimmermann, H. G. (1992), Seite 28. Vgl. auch Zimmermann, H. G. (1991), Seite 496, Refenes, A. N. (Hrsg.) (1995), Seite 4. Bei letzterem werden in einer Grafik „cognition“ und „complexity“ gegenübergestellt und Neuronale Netze in diesen Kontext eingeordnet.Google Scholar
  191. 191.
    Vgl. Rehkugler, H./Poddig, T. (1994a), Seiten 18–21.Google Scholar
  192. 192.
    „Tasks requiring accuracy of computational results or intensive calculations are best left to conventional computer applications. As we’ve noted, artificial neural networks are best applied to problem environments that are highly unstructured, require some form of pattern recognition and may involve incomplete or corrupted data.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 69.Google Scholar

Copyright information

© Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden 1995

Authors and Affiliations

  • Karsten Füser

There are no affiliations available

Personalised recommendations